1. SNSニュース@聴くまとめ
  2. #175 Googleキープは音質がダ..
2020-02-29 10:49

#175 Googleキープは音質がダメ。改めて感じたGoogle音声入力の精度の低さメモ

はい。前回に続いて Google Keep を使って録音中です。ということで前回のやつは実際に配信してみて自分で聞いてみたところ、ちょっと音声が駄目だねあれは。さすがに厳しいかなと。

ただ文字の方は今もそうだけど、どんどん勝手に打たれてってるので。うーん、、ていう感じだよね。

複数のデバイスを使うんであれば別に今回みたいな音声とテキスト両方取得するっていうのはいくらでもやりようはあるんだけど。

ただ二つの端末を使うとなるとちょっと意味合いが変わってくるし、そこまで力を入れてやるつもりもないし。

二つのデバイスで使うって意味合いで、例えば音声の録音に関してはボイスメモ。個人的に iPhone でやってた限りはあのデフォルトのボイスメモっていうのを使うのが音もはっきり大きく入るし綺麗な気がするんだけど、ボイスメモで録音しつつ、もう一台でGoogle ドキュメントでもいいし Google Keep でも音声認識をさせて、そっちでテキストのデータを取得する。

パソコンでテキストを文字起こししていいかもしんないけど。パソコンの Google ドキュメントでも文字起こしたできるので。

ただし、そうなると、本当にふと思い立った時にやるって訳にはいかなくなってしまうので、本末転倒な部分が出てきてしまうので。

そこを考えると音質を犠牲にしてって言うところの方がいいのかな。結構音悪いよね。この音聞いてもらえば分かると思うんだけど。

特別音質にこだわるかそんなこと全然なくて、普段も iPhone で普通に話してるだけなので。それにしてもちょっとなんかスカスカな感じ。スカスカでなんかちょっとこもって響いてみたいな。軽いフュージョン。ドラゴンボールのフュージョンの声かぶってるかんじ。あれの軽い版みたいな

---




はいちょっとまだ途中で勝手に途切れてしまいました触ったりも何もしてないと思うんだけどということで今1回文章の方あの勝手に文字起こしされていたもの整形してみましたどのぐらいかかったかなそのたいした分量ではなかった気がするけどそれでも少なくとも5分はかかってるよねもうちょい適度なところで止めたけどあのも交互のまんまでアダルトみかして見返してみると文章の接続的に意味わかんなかったりとか同じ文章の語尾のところ同じ言葉もひたすら続いたりとか文章で入力に変には見えてしまうんだけどまただこの録音でか音声データを耳にしながら目で追う人もいるかもしれないなっていうところで考えるとあんまりねがっつり書き方変えてしまうとまた意味合いも変わってきてしまうのではどっちがいいのかだけど本当に温泉意識させた文章っていう風に文章は文章に見てもらう使い方であれば馬鹿釣り餌も書いてしまった方がいいと思うしこのポッドキャストの配信これの説明文で目で追いながらまあ見て聞いてもらうんであればあんまり文脈は変えない方がいいかなと思うのではいここも言おうとしだよねなので普通にテキストベースのブログに書く用の音声入力のついでには音声データも手に入れて Podcast も配信しようっていう二つに分ける形であればまあ文章はきちんと請求した方がいいだろうけど仲間との一番とした多分それのはずだよねあのテキストデータに関しては完全に普段書いてるブログ様はいその時にどうすんだからあの音声認識をしてるわけだからだったらその本性はね Podcast に使えるんじゃないかってさの登場ポッドキャストやってなかったからなんだけどはいそういうとこだったからまあ文章は文章で整形美人ですがいいんだけど吐いたらやっぱ難しいのが交互で興奮にばっとしゃべってってしまうとあの一般的なブログの形式のなかなか揃わないというか逆に後にまとめようとしときなよな部分が出てきてしまうこれはもちろんあの人が Youtuber とかそうかもしんないけど先に話す内容見出しレベルが決めてとかそういうところ採点しなきゃダメなんだろうけどそれをまだ今に至ってもまだやってないので開いたらまあこうやってこの文字起こしてやっぱり内容がおかしかったよかったら見ていくと自覚できるというもあるので後々この文字起こしして内容を修正咥えて待ってるのどんどんの身にしみてくるのでなんかも試してるんだけどはいただ今はこのスマホ一台で Google Keep のおかげで音声入力とテキスト両方いっぺんにしとくので開いたよりこう身近にと言うか手軽にこれができて損ナルト文字起こししたデータに触れる機会もどんどん増えていくと思うのででもすでに感じてはいたんだけどそのね本当にね誤字脱字の人に整形するってのは結構な手間なので


なのでそこを考えると先にやっぱり見出しレベルのところぐらいは決めてそれに沿う形で話して言ったらあの目で見る方のブログそこを特にやる時にはあんまり修正とか整形する箇所はまあだいぶ減らせるんじゃないかなと思うので開いた玉難しいのが途中で触れたみたいにあの思い立って行った時にふとやるって言うのはどうか後はもう機持ち込みな感じその時の感情も含めてもむしろ話すのによるんだけどあんまりねそのみらし決めてやるってだと思うそれも意味違ってきてしまう気がするしだかまーちゃんと方向性を決めなかったとこではあるんだろうけども全てにおいてだけどあのなんていうのも時間の無駄だったりとかあのいろんなことがあるからもこの音声入力 Podcast で無駄なところを減らしていくで合わせて文章の方も手に入れてって言うまさきの話大逆転なるけど Podcast 初めて彼の話を真特にそうなので履いて考えるとね

--

はいということでどっちを優先するかでとこにはなると思うんだけど。にしても音質はちょっとあれだね。比較して欲しいんだけど、今回のこの配信と一個前も Google Keep を使って録音しているので。
さらに一つ前。何の話をしたっけな。インスタのエフェクトが検索できるようになったみたいな話だった気がするけど。

それに関しては今のところ一番手軽にできてある程度綺麗に入ってボリュームもちゃんと入るって感じている iPhone を耳にくっつけて電話する時みたいな話し方。はい、アンカーのアプリで耳から離した時点で録音ストップしてくれるので。そこで段落分けてとかやってます。

それが個人的には手軽で綺麗に簡単に取れる。後々の文章の整理に文章じゃない音声データの分割も含めては一番スマートにできるんじゃないかなと思って言ってるところなので。それが納得している録音の仕方なのでそこと比較してもらうともわかりやすいかなと。

音質関しては雲泥の差って言っていいぐらいかな。本当は音質どうこうってこのスマホレベルでマイク使ったりしないっていうレベルで考えてももっと綺麗に撮るんであれば途中でその説明会途中昨日前回か前回触れたかわかんないけどボイスメモ iPhone のデフォルトのボイスメモ使うだけでもだいぶ全然変わってくるのでまずボリューム声のボリュームが全然違う夜とかではもう大きい声出せないだとかっていう時に関してはささやく感じて話すことになると思うけどそうするとうんとねまこのアンカーをはじめ他例えば常套句とかでもそうだけど囁くような感じにしてしまうとボリュームがあった時にちっちゃすぎる城東区に関しては BGM と入んないからまだいいんだけど他の人の配信聞いた後に聞かれた場合とよね結構あの聞いてるががストレス感じるんじゃないかなと。アンカーに関してBGM をだいたい入れているので囁くような感じで喋った後だともう BGM に消されて聞こえなくなってしまうので。


はいちょっとなんか所々何回も途切れるね。もう5分割ぐらい勝手にされてるんだけど。もういっぺんに喋るつもりがちょっと厄介だなこれ。

でそこに一回途切れてしまうのと、どこまで話したっけっていうところで、文章をもう1回確認をしてるんだけどで、そこでちょっと軽くこの誤字とか脱字分割した状態でやった方がいっぺんによりも楽から待って今やってましたはい4ちょっと超えてと言うかよタバコ吸いたかったんで外というかベランダというかそこで吸いながら音声試しに録音してますだからボリュームもちっちゃい声スカスカだったり困ったり感じになるとこに対してこの雨だとかその程度のことで影響をどんぐらいてんのかそこを含めて試してますせっかくなのででもあんまを開けると止まってしまうっていうのがあるのかなもしかしたらこの Google Keep に関した例えば Google ドキュメントの文字起こしに関してはスマホじゃなくてパソコンの方の話だけどあのままくれてもずっと待っててくれるんだねでキーボードで考えるとあのエンターを加えたり丸とか点もなんてのタイピングでのタイピングを入れつつ音声入力も同時にできるんでそこに感謝すごい Google ドキュメントで考えていいなと思っていてではこの Google がの Google アシスタントの方になると Siri とは違って言葉で丸とか点とか改行って言ってもあそこはどうさせてくれないのではい今ももう文字としてテキストに残ってしまってると思うんだけどそこに対して Google ドキュメントの場合はキーボード併用することによってその待っててくれてる間に会議を加えたり句点読点入れられるので当然録音同時に言ったらそれも無理だから音声認識の音声入力な話になってしまうんだけど開いて後でまた飯に今雨

---

Send in a voice message: https://podcasters.spotify.com/pod/show/koukichi-t/message
00:01
前回に続いて、Googleキープを使って録音中です。
はい、ということで前回のやつ、実際に配信してみて、自分で聴いてみたところ、
ちょっと音声がダメだね。あれはさすがに厳しいかなーって言う。ただ文字の方は今もそうだけど、どんどん勝手に打たれていってるので
うーん、っていう感じだよね。複数のデバイスを使うんであれば、別に今回みたいな音声とテキスト両方を取得するっていうのは、いくらでもやりようはあるんだけど、
ただ2つの端末を使うってなると、ちょっと意味合いが変わってくるというか、そこまで力を入れてやるつもりもないし、
単純に2つのデバイスを使うっていう意味合いで、例えば、音声の録音に関しては、ボイスメモ。個人的にiPhoneでやってた限りは、
デフォルトのボイスメモっていうのを使うのが、音もはっきり大きく入るし、綺麗な気がするんだけど、
ボイスメモを録音しつつ、もう1台例えばスマホを持って、それこそGoogleドキュメントでもいいし、Googleキープでもいいし、
音声認識をさせて、そっちでテキストのデータを取得する。
対象はパソコンでテキストを文字起こししたっていいかもしれないけど、パソコンのGoogleドキュメントでも文字起こしはできるので、
それをやればいいって話ではあるけど、そうなるとね、本当にふと思ってた時に即やるってわけにはいかなくなってしまうので、
そうなるともう完全に考えてるとことは変わってくるというか、本末転倒な部分が出てきてしまうので、
そこを考えると、音質を犠牲にしてっていうところの方がいいのかなとは言っても結構音悪いよね。
この音聞いてもらえばわかると思うんだけど、特別音質にこだわるとかそんなことは全然なくて、
普段もうiPhoneで普通に話してるだけなので、それにしてもなんかスカスカな感じ。
スカスカでちょっとこもって響いてみたいな、ツイートの方でしたけどね、
フュージョンの軽いフュージョン、ドラゴンボールのフュージョンの声かぶってエコーみたいになるような、
あれの、ちょっとまた途中で勝手に途切れてしまいました。触ったりも何もしてないと思うんだけど。
ということで、今1回文章の方、勝手に文字起こしされていたものを整形してみました。
どのぐらいかかったかな。そんな大した分量ではなかった気がするけど、
それでも少なくとも5分はかかってるよね。もちろん適度なところでやめたけど、
交互のまんまで後々見返してみると文章の接続的に意味わかんなかったりとか、
同じ文末の語尾のところ、同じ言葉もひたすら続いたりとか、文章で見ると特に変には見えてしまうんだけど、
03:03
ただこの録音というか音声データを耳にしながら目で覆う人もいるかもしれないなっていうところで考えると、
あんまりガッツリ書き方変えてしまうとまた意味合いも変わってきてしまうので、
どっちがいいのかだけど、本当に音声認識させた文章っていう風に、文章は文章で見てもらうっていう使い方であれば、
ガッツリでも書いてしまった方がいいと思うし、
このポッドキャストの配信、これの説明文で目で覆いながら見て聞いてもらうのであれば、
あんまり文脈は変えない方がいいかなっていうのもあるので、ここは用途次第だよね。
なので、普通にテキストベースのブログに書く用の音声入力のついでに、
音声データも手に入れてポッドキャストも配信しようっていう2つを切り分ける形であれば、
文章はきちんと整形した方がいいだろうけど。
一番当初は多分それのはずだったんだよね。
テキストデータに関しては完全に普段書いているブログ用。
その時にDOSだから音声認識をしてるわけだから、だったらその音声はポッドキャストに使えるんじゃないかって。
その当時はポッドキャストやってなかったからあれなんだけど。
そういうとこだったから文章は文章で整形はきちんとすればいいんだけど。
ただやっぱり難しいのが、交互でこういう風にばーっと喋っていってしまうと、
一般的なブログの形式にはなかなかそぶはないというか、
逆に後でまとめようとした時に悩む部分が出てきてしまう。
これはもちろん、例えばYouTuberとかそういうのもそうかもしれないけど、
先に話す内容、見出しレベルから決めてとかそういうところを最低限しなきゃダメなんだろうけど、
それを今に至ってもまだやってないので。
ただこうやって文字起こしして内容がおかしかったりとか見ていくと、
自覚できるという部分もあるので。
後々、文字起こしした内容を修正、加える手間もどんどん身に染みてくるので、
何回も試しているんだけど。
ただ、今はスマホ一台でGoogleキープのおかげで音声入力とテキストを両方一遍に取得できているので、
より身近に手軽にこれができて、文字起こししたデータに触れる機会もどんどん増えていくと思うので、
でもすでに感じてはいたんだけど、
本当に誤字脱字直したり整形するというのは結構な手間なので、
そこを考えると先に見出しレベルのところぐらいは決めて、それに沿う形で話していったら、
目で見る方のブログ、そこを特にやるときには、
あんまり修正とか整形する箇所はだいぶ減らせるんじゃないかなと思うので。
ただ、難しいのが途中で触れたみたいに、思い出したときにふとやるっていうのとか、
06:05
あとは気持ち込みな感じ、その時の感情も含めて、
もちろん話す内容にはよるんだけど、
あんまり見出し決めてやるってなると、それも意味違ってきてしまう気がするし、
ちゃんと方向性を決めなかったところではあるんだろうけど、
全てにおいてだけど、時間の無駄だったりとか、
いろんなことがあるから、この音声入力ポッドキャストで無駄なところを減らしていく。
合わせて文章の方も手に入れてっていう。
さっきの話は逆転になるけど、ポッドキャスト初めてからの話は特にそうなので。
考えるとね。
何回も途切れるね、これ。
5分割くらい勝手にされてるんだけど、一遍に喋るつもりが。
ちょっと厄介だな、これ。
そこで一回意識途切れてしまうのと、どこまで話したっけっていうところで文章をもう一回確認をしてるんだけど、
そこでちょっと軽くこの5時とか脱時、分割した状態でやった方が一遍にやるよりも楽かなと思って今やってました。
でもちょっとこれあえてというか、タバコ吸いたかったんで、
ベランダというかそこで吸いながら音声試しに録音してます。
だからボリュームもちっちゃいし、声スカスカだったりこもったり感じになるところに対して、
この雨だとかその程度の音で影響をどのくらい出るのか、
そこを含めて試してます、せっかくなので。
間を空けると止まってしまうっていうのがあるのかな、もしかしたら。
このGoogleキープに関しては。
例えば、Googleドキュメントの文字起こしに関しては、
スマホじゃなくてパソコンの方の話だけど、間を空けててもずっと待っててくれるんだよね。
キーボードで考えると、エンターを加えたり丸とか点も、
手でのタイピングを入れつつ音声入力も同時にできるんで、
そこに関してはすごいGoogleドキュメントで考えるといいなと思っていて、
要はこのGoogleアシスタントの方になると、
Siriとは違って言葉で丸とか点とか開業って言っても、
そこは動作してくれないので、今も文字としてテキストに残ってしまってると思うんだけど、
そこに対してGoogleドキュメントの場合はキーボードを併用することによって、
その待っててくれてる間に会議を加えたり、句点等点を入れられるので、
録音は同時にってのは無理だから、
音声認識の音声入力の話になってしまうんだけど、
ということで試しに今、雨。
はい。また勝手に途切れたんで、これ6回目か7回目か。
もういいわ。5時経つうちにそのままにしておこう。
とにかくいろいろ試してきた感じだと、音声認識に関しては、
Googleがダメだなって思ってて、
Siriに慣れてるからっていうところかもしれないけど、
09:02
間違うところっていうのはやっぱりパターン化されていて、
例えば5時って言ってんのに、時間の5時になってしまうとか、Googleの方。
それ今回5時って言葉いっぱい使ってるから、もう嫌になってきた。
勝手に入力して5時って数字になって。
もうバカなのかなと。
だからSiriの方に関してもそういう点はあるんだと思うんだけど、
Siriを使ってる期間の方が長いから、
だからどこが間違うかっていうのは把握してるからなのかな。
いや、そんなことない気がするんだよな。
Siriの方が優秀な気がするんだよね、この変換に関して。
世間的にはどっちかっていうとGoogleの方がまともというか、
そういう話になってるんだけど、
個人的には全然そんなところ思わないかな。
とにかくイライラする。もう嫌になってきた。
と言っても冒頭から触れてるように、
Googleドキュメントで、Googleドキュメントじゃない、
このキープを使うことによって、
文字入力と録音と音声データと両方手に入るから、
これが一番今のところ楽ではあるんだけど、
だからApple側がSiriを使ってそういうものを用意してくれたら最高なんだけどね。
ということでまた勝手に分割されたらもう嫌になるので、
ここでやめておきます。
ということで今回は本来音質に関してというところを触れたかったんだけど、
結果的にこんな感じで話をしました。
ちょっとまだ思うところがあるので、
ブログ側にこの文章を整形ちゃんとして載せようかなっていうのと、
もう一点は、今まで試してきた音声入力と文字起こしとかそのあたり、
この2つを同時にやるっていうところの話を整理した上で、
もう一個Podcast配信しようかなと思います。
ということでまた配信するんでよかったら聞いてください。
さよなら。
10:49

コメント

スクロール