2020-04-19 16:23

#256 いいぞこれ！ポッドキャストと文字起こし並行作業完結編。さよなら、不毛なGoogleドキュメント

Koukichi Takahashi

Host

Anchor(アンカー)側ポッドキャスト用に音声録音、standfm同時録音しながら、音声認識で文字起こしの並行作！※録音失敗。ABモードで撮ってたからか音質微妙。

先日のGoogleドキュメントの不自然すぎる音声配信、そして今回良いのにたどり着いた！スピーチノートってやつ。後で文字起こし側の記事リンク載せます。
▶︎ https://koukichi-t.com/archives/28411

同時配信standfm iPhon 11 Pro録音
▶︎ https://stand.fm/episodes/5e9b2b2ae7aede23151cafd2

🎙関連ポッドキャスト
252 不自然極まりない音声配信のその理由。効率化のための遠回りが止まらない。
▶︎ https://koukichi-t.com/archives/28363

---

🔗使用マイク
TASCAM タスカム DR-07X - USB オーディオインターフェース搭載ステレオリニアPCMレコーダー
レビュー記事 ▶︎ https://koukichi-t.com/archives/28479
Amazon▶︎ https://amzn.to/2VqoRzR
※音質や音声サンプルとして参考にどうぞ

✅今回の録音条件
・TASCAM DR-07XからPC接続
・Adobe Auditionで録音。ノイズ削除
・mp3/48Hz/ステレオ/32bit/192kbps
・ABモード。間違ってこれで録音してた。。。
・エフェクトリバーブ有りルームレベル1
・机の上にマイク
・距離30センチくらい
・入力レベル85（MAX90）
・声大きめ
・ウインドウジャマー有り
・低域カット無し

---

✅TASCAM DR-07Xで録音、音質テスト配信済みの各サービス

🔗インスタストーリーとライブでマイクテスト
▶︎ https://twitter.com/igtw_kt/status/1249589747019698176?s=21

🔗REC.
▶︎ タスカムDR-07Xマイクレビューの様なAmazon徘徊@Surfaceバッテリー爆発しそう - REC
https://rec.audio/recs/bqa3qr223akg02hlfs8g

🔗noteアプリでポッドキャスト配信テスト
▶︎ https://note.com/koukichi_t/n/neb54c8de309c

🔗standfmでのTASCAM DR-07X使用配信
インスタ今日の感謝とは？今日の感謝スタンプの意味は？
▶︎ https://stand.fm/episodes/5e9325bf954ca2ccc3f6f7ca

🔗比較用 iPhone 11 Pro録音回
マイク？注文してみた。TASCAM DR-07X
▶︎ https://stand.fm/episodes/5e9122a14f8c03f7ab528d7f

---

🔗RadiotalkでのTASCAM DR-07X使用配信

アマギフ山分けでゲットしたマイクで配信です！TASCAM DR-07X音質レビュー｜
▶︎ https://radiotalk.jp/talk/258514

🔗比較用
iPhone 11 Pro録音配信
▶︎ https://radiotalk.jp/talk/256581
iPhone 7 録音配信
▶︎ https://radiotalk.jp/talk/255505

---

📸情報配信用インスタ&IGTV
▶︎ https://www.instagram.com/koukichi_t

🆕 Googleニュースのフォローはこちらから
▶︎ https://news.google.com/publications/CAAqBwgKMPf-kAsw6qmlAw

---

🎙この配信は以下ポッドキャストでも聞けます。
REC. https://rec.audio/@koukichi_t
Anchor https://anchor.fm/koukichi_t
Google http://bit.ly/2P4imRl
Apple https://apple.co/2s4iMhr
Spotify https://spoti.fi/2sc4cEQ

🎙回答専用 standfm
KT@こえのブログインスタTwitter解説ラジオ
▶︎ https://stand.fm/channels/5e569261122b2506b1ceb9c9

🎙雑談専用 Radiotalk
余談がすぎる。
▶︎ https://radiotalk.jp/talk/249505

——

🎙この番組はKoukichi_Tがインスタグラム/Twitterを中心にSNS/アプリの新機能アップデート最新情報、Tech/ガジェットの最新ニュースを独自の視点で紹介/解説していくポッドキャスト「聴くまとめ」です。

関連リンクは概要欄からチェックしてください。

—

🔗運営アカウント
Blog
▶︎ https://koukichi-t.com/
YouTube
▶︎ https://www.youtube.com/user/latrell0815
Twitter
▶︎ https://twitter.com/koukichi_t
▶︎ https://twitter.com/IGTW_KT
Instagram
▶︎ https://www.instagram.com/kt.pics
Facebook
‬▶︎ https://www.facebook.com/pg/koukichi.takahashi.photography

00:07

はい、今回は効率化したがりの遠回りが止まらない、この配信会になります。

まず、同時作業をちょっといろいろやっています。

スタンドFMの配信、今録音しているのと合わせて、アンカーレック側の録音もマイク買ったやつ使って録音中です。

ここに関しては、前にも録音だけして実際配信できなかったんだけど、ちょっとなんかうまくいってなくて、パソコン側のが止まっちゃってたとかだったのかな。

そこに関してはスタンドFMの方では配信しました。

今回、その録音の並行作業っていうのはあるんだけど、それとは別にもう一つテーマがあって、今やっていることが、これアンカー側とかでしょっちゅう触れていたんだけど、

音声認識、音声入力、音声でテキストを入力するっていうところと、音声録音のこの2つも同時に並行で今作業をやっています。

今時々キーボードの音入っているかもしれないけど、これが今パソコン側でブラウザ使って音声入力をしている最中です。

なのでスタンドFMで録音して、アンカーレック側、そっち用にも録音してます。

なおかつもう1個音声入力、これもテキストやってます。

この点に関しては、Googleドキュメントを使ってパソコンで音声入力ができるので、それはもう散々結構昔から試したんだけど、どうにもうまくいかない。

これは何かっていうと、音声認識をしてくれないタイミングが出る。

録音中ってなってるんだけど、なぜか文字が入力されないみたいなことがあって、もう全然うまくいきませんでした。

もっと前提の話からすると、もともと普段使っているものはiPhoneのSiriを使っているわけだけど、

iPhoneのSiriに関しては、例えば開用って言ったら開用されるし、点って言ったり丸って言ったりすると、点打ったり丸が打たれます。

個人的には音声認識の精度に関しても、Googleよりも圧倒的にSiriの方がいいなって感じてます。

これはもう好みの問題だとか、喋る内容だとか、使い慣れてる、使い慣れてないとかもあるかもしれないけど、

とにかくGoogle側はイマイチだなと思ってたんだけど、何よりも微妙だなと思っていたのは、開用とかができない。

そんな中、このPodcastを始めたもともとの理由っていうところにつながるんだけど、

何で始めたかっていうと、効率化したいっていうところが始まりでした。

そもそもブログとかノートを書くときに音声入力、Siriを使って全部やっていたので、

そのときにどうせコーニー出して話してるんであれば、それを録音してしまえばテキスト側のデータも手に入るんじゃないかっていうふうに考えました。

03:03

ただしこれは全然うまくいきませんでした。

何でかっていうと、さっき言ったみたいにSiriでは開用◯とかっていったものが機能するので、

文章を入力するときにはそっちを優先したい。

対して音声入力に関しては、開用って言ってしまえば当然音声の方に残ってしまうので、

つまりその状態だと並行作業ができません。

ということでGoogleドキュメントを試したわけだけど、

Googleドキュメントは開業◯とか口に出して聞かない代わりにキーボードの並行作業が可能です。

今もキーボードの音聞こえてると思うんだけど、これはもうGoogleドキュメントを使ってないです。

Googleドキュメントに関しては、さっきも触れたように空白の時間帯が空いてしまって、

なんかもう全然うまくいかない。

プラス同じ文章が何回も一気に3回分とか入ってしまうことがあって、

これはSiriの方でも時々あるんだけど、音声止める直前とかに。

何にしてもGoogleドキュメントは全然うまくいかなくて、あとは誤字、脱字、変換がおかしいところって結構ありました。

これはもちろん話してる人間の滑舌の良さ悪さ、そこに依存するところはあると思うんだけど、

今現在使ってるこのサービス、スピーチノートみたいなサービスを使ってます。

これがとにかくすごくて、今比較的ゆっくりめに話してるけど、もっと速度上げても全然音声認識してくれてます。

なおかつ音声認識の精度も高い気がして、変換ミスっていうのは結構少ない気がします。

もちろん違ってるところもあるんだけど、このぐらいのスピードで話していてもきちんと認識してるし、

なおかつこの回用の加えるのがやりやすいものすごく。

ちょっと言葉だけでの説明は難しいんだけど、おそらくこの音声認識されない期間っていうのがない。

っていうのがもう分かってるんで、だからこのエンター加えていきやすいんじゃないかなと。

これがGoogleドキュメントの方だと、また止まってるんじゃないかとかをいちいち気にしなきゃいけない。

実際のところはどっちのサービス使う場合も画面は見ながらやってます。

ここに関してはGoogleドキュメント試した時に、要は間違いが多いので、

目で先に見ておいた方が直す時に便利かなっていうところで、そういう癖がついたというところです。

こうなってしまうと、結局他のことをしながら話すことができないとなってしまうので、

ちょっとデメリットにも感じるんだけど、

今この使ってるスピーチノートっていうサービス、ブラウザでアクセスしてやってるんだけど、

それを見てる限りは多分精度高いので、エンターこういうふうに適当に押してるタイミングでもきっちり鍵をかかって綺麗にいってるので、

06:04

おそらくこれだったら他の作業、これでスマホを手に持って別のことをやりながらっていうのもできるんじゃないかなと思います。

もちろん話しながら、目で見るのと話すことを2つ同時にやりながら、なおかつエンターキーを押していくっていう作業があるので、

3つ同時にやるってね、ちょっと戸惑う部分もあるかもしれないけど、ただそんなに今試してる感じは負担にはならなそうです。

で、このぐらいの速度で話してて、ほぼ問題なく打たれてます。

ちょっとおかしいところってのもあるはあるけど、

はい、今徐々に普段の話し方に変えていってるんだけど、

要はこの音声認識使うときっていうのは、特にですとかますとかっていうのをきちんと区切っていく方がちゃんと認識されやすいっていうのと、

あとは後で編集するときにも簡単にできるってところがあります。

はい、なのでそういう話し方をしてたんだけど、今現状ちょっと徐々に普段な適当な感じのしゃべり方に今変えてるところです。

はい、でさっきのですますで終わりにするところのメリットっていうのが、

一通り全部音声認識し終わった後にますとかですで痴漢をかけます。

でふますの後ろに丸をつけるパターンで痴漢をかけるとか、はい、あとは開業コードを入れて開業をかけるだとか、

あとはだけどとか、そういうところに関しても後ろにもう点を打ってしまうという痴漢をかけることによってまず見やすくなります。

はい。

なんだけど今回使ってるスピーチノートに関しては、もちろんその点とかに関しては痴漢かけたり丸もかな、

痴漢かけなきゃいけないけど開業に関してはもうほぼ問題ないんで、

この状態で本当にもうガツガツ開業をかけてパッと見で段落というかね、この行の区切りがわかりやすいので、

Googleドキュメントだと本当に無理だわ、あれは。

なんかだから開業を加えるタイミングがさっき言ったみたいに、なんか開業かけちゃうと音声の変化が追いつかなくておかしくなったりもあるので、

それが嫌だからと思って、もしくはなんか反応してない期間があるなとか眺めながら一時停止するのもちょっとなって、

例えば今スタンドで見るとね、別の箇所の方の録音もマイク使ってやってるわけで、これ両方スイッチを押して停止してるからできないじゃん。

この今3つの作業を並行してやってるからだけど。

はい。

っていう感じがあるので、なんかねもう全然集中できないし。

はい、で、ここ最近で2,3回試したものがアンカー側だと思うけど、

この音声認識も合わせてやったものがありました。

でまぁ後で編集してアップしようと思ったんだけどもね、無理。

もうめちゃくちゃすぎて。一応ある程度まとめたんだけど、こんなにめちゃくちゃなんだったらもう完全に話した内容を整理して通常のブログの記事にしてしまった方がいいなって。

09:01

はい、そういうのを考えると結局すぐはアップできずも下書きで放置になってます。

だから今回やってるのに関してはもうほぼほぼ喋ったまま打たれてるので、軽い編集で済みます。

本当に5時とかもうすごい少ない気がするので。

なのでこうなると変にブログの記事用にまとめようという考えがなくなって、純粋に文字起こしをした音声データ。

つまりはこの録音しているこの音声聞きながら文章の方も目で追ってくださいみたいな、こんな感じの記事として使えるんじゃないかなと思います。

はい。で、この元の本当に文字起こしの文章っていうのがある程度きちんとしているのであれば、それプラス通常のブログの記事として追加でまとめた部分を作るっていうのもやりやすくなると思うし。

要は音声で話してるところはどうしてもまとまりのない部分が出てきてしまうので、もちろん冒頭というか最初に全部見出しとかスクリプト考えてやってる場合はそんなことないと思うけど。

個人的にはそんなにきっちりやってるわけじゃないので。はい。なのでいろんな意味でこれはメリットがありそうだなと。

本当これすごいね。これめちゃくちゃおすすめだわ。

このサービスもしかしたら、Chromeの拡張機能で見たことあって試したことあるかもしれないです。

ただし拡張機能に関してはマイクがうまく反応してくれなくて使えなくてそのまま止まってました。

だから結局Googleドキュメントしかないのかなと思ってたんだけど。

だからその時に触った拡張機能のもしかしたらブラウザ版、直接アクセスしてマイク許可をして使うみたいなタイプのものなのかもしれないです。

これに関しては、仕事とかそういう普段例えばパソコン内に保存するデータだとか仕事で送信したりするようなデータには使っちゃまずいかなとは思うので。

ブラウザこのサービス、そのサイトに直接アクセスしてマイクを使っているので、これは相手側のサービス次第、運営者次第だけど、

その音声データ、セキュリティ的な意味合いでもあんまり嬉しくはないというか、許可をしちゃっているわけで。

対して何が言いたいかというと、個人的には今現状、さっきから話しているみたいにポッドキャストでの配信、音声の録音がメインであって、

それとプラスで音声認識でテキスト版でブログにも載せられるなみたいなことをやっているので、

つまりは公開が前提なので、この音声データが仮に持っていかれてたりしたとしても、もしくは打っているテキストデータに関しても、

そこに関しては一切、個人的には問題がないので、そういう意味で仕事ですかとかそういうときには、

セキュリティ的な部分は気にしなきゃいけないところはあるんじゃないかなと思います。

12:03

ということで、もう結構12分話しているけど、ほんとすごいわこれ、マジで。

これ一応、一切編集をしないバージョンのテキストを載せて、それとは別に自分で手を加えたバージョンと両方ブログに載せます。

これに関しては、いつものことだけど概要欄に記事書いたらリンク載せるので、公開した直後っていうのはもしかしたらまだリンク用意できてないかもしれないけど、

公開できたらそれはリンク足すので、時間空いてからよかったら見てみてください。

ということで今回はスピーチノートっていう、この音声入力、音声および動画ファイルの自動文字起こしって書いてあるね。

なんかちょっともうちょっと違う機能もあったりするのかな。

なんかあとは、今現状俺自身がやってるこの音声録音もしてるから使えないんだけど、一応ピリオドって言うとピリオドが入ったりとか、コロンって言うとコロンが入ったりっていう機能もあるみたいです。

違うのかな?入ってるね今言ったら。

でこれね、なんかねちゃんと認識できなかった場所かなんかに英語でなんだけど、読み方わかんないけど、undefinedみたいな。

なんかちゃんとわかんなかったみたいな意味合いかな。が入ってるんだよね。

でこれも統一的にこういう風に入ってくれると、後で時間かけるときに便利なので、対象の文字は何かにもよるけど、共通のものではないとは思うからあれだけど、

なんか探すときにもね検索かけてすぐ見つけやすいのでいいんじゃないかなと思います。

はい、ということで今回は効率化したがりの遠回りが止まらない、終わらない、みたいな時々そういうタイトルをつけてノートとか特に書いたりしてるんだけど、

はいそういう感じのところを音声認識と音声録音、ここを並行してやるというところの話でした。

今回はスタンドFMとアンカーとかポッドキャスト側も同時に配信をするので、

ここのそれぞれの総合間リンクっていうのも貼っておくので、よかったら意味合いがちょっと違うというか、

このポッドキャスト音声配信関連のものはこのスタンドFMとか別で言ったらラジオトークとかでもやっていこうかなと思ってるので、

ここにプラスでラジオトークをやるとかってことはちょっと考えてないけどさすがにもう一台スマホが必要になってくるので、

ということでスタンドFM側に関しては基本的には何かの回答インスタの疑問だとかそういう系の配信にしてます。

けどこの音声配信とかそういうタグに関しては今回みたいな感じでもしかしてやっていくかもしれないので、

ということで今回は以上です。

15:00

これ本当ねすごいからこんなに俺が考えてるようなこういうやり方をやろうとしている人がいるかが謎だからもうわかんないけど、

どっかに中にはいると思うので、もしくは何かのヒントになれば。

実際のところねパソコンでの作業になっているので出先でやるとかっていうのはスマホでやるっていうのが個人的にはもう全てにおいて前提なので、

ただしこの今回というかちょっと前にTASCAMのこのマイクを買ったことによってパソコンからの録音もきれいにできるようになったので、

そういうところでちょっと意識がまたパソコンの方に向いてきました。

これに関しては今かなっているこのやり方に関してはスマホではおそらく無理なので、

アプリとか使っても途中で増えたみたいに、まず待ち時間空きすぎてしまうと勝手に停止してしまうとかっていうのがあると思うので、

永遠に文字起こしし続けるっていうのは中にはあるかもしれないけど、

今まで試した感じではうまくいくものがなかったので、そういう意味合いも含めてパソコン使わなきゃいけないけどそこはもう妥協っていうところで今回一応実現しました。

ということで、今回はこれで終わりにしておきます。

記事の方書いたらリンク貼るのでそちらもよかったら見てください。さようなら。

16:23

こちらもおすすめ

#175 Googleキープは音質がダメ。改めて感じたGoogle音声入力の精度の低さメモ

SNSニュース@聴くまとめ

#252 不自然極まりない音声配信のその理由。効率化のための遠回りが止まらない。

SNSニュース@聴くまとめ

#251 Radiotalkにアナリティクス機能追加！効果音増加。新機能最新アップデート 2020年4月16日

SNSニュース@聴くまとめ

#253 Instagram/Twitterテスト中新機能 2020年4月 with TASCAM DR-07X

SNSニュース@聴くまとめ

#245 TASCAM DR-07X音質レビュー。mp3/320k本体録音テストmicroSD

SNSニュース@聴くまとめ

#174 Google keepで音声とテキストいっぺんにゲット。録音＆文字起こし、音質テストポッドキャスト

SNSニュース@聴くまとめ

スクロール

#256 いいぞこれ！ポッドキャストと文字起こし並行作業完結編。さよなら、不毛なGoogleドキュメント

スター

エピソードをシェアする

メッセージを送信

Koukichi Takahashi

スター

コメント

こちらもおすすめ