1. ごりゅごcast
  2. テキストが表示されると「音声..
2020-01-22 10:31

テキストが表示されると「音声入力」しにくくなるのではないか説 396

spotify apple_podcasts

喋るだけ喋って、後から文字にする。iPhoneとかの「普通の音声入力」とはいろいろ感覚が違うわけで、じゃあそれはどうしてそうなるんだろう、とか考えてみました。

00:00
こんにちは、goryugocastです。今日は音声認識の感覚みたいなやつの話を、
podcastの下書きの話をしてたら思ったので、そういう話をします。
前に話したのが、このpodcastで喋った音声データを、Vrewっていうサービスを使って、文字認識、テキスト化して、
それをブログのもとにするっていう話をしてて、時差のある音声認識みたいなことを言ってたよね。
っていう話を、自分でさあ言ってたんだけど、やっぱね、例えばiPhoneで音声認識モードにして文章を入力しようとして喋る時と、
podcastで好きなように喋ったものを全部終わってからテキストにするっていうのは、結構感覚は違うなあっていうのを思って。
まあ当たり前っちゃ当たり前ですごい当たり前のことなんだけど、要するに俺多分音声認識で文章を書こうとすると、思いっきり身構えていて、
好きなように喋れなくて、書かれた文字を見てしまうから、それを意識して好きなように喋れない。
今こういう感じで、あえて俺が一人で連続して喋るっていうのをやってみてるんだけど、理論的にはこういう感じで喋ったら音声認識で喋るのと全く一緒の気がするけど、やっぱそれはまだ自分にはできていない。
まあ環境も大きいよね。このpodcast収録の場合は対面に人がいて、その人に向かって喋りかける。
自分の考えをまとめるとか、自分の考えを喋るっていうのであったとしても、目の前にその人がいて、その人に向かって一応話すイメージでできる。
でもiphoneとかパソコンとかの音声入力モードになると、どうしても画面の中に映る文字だったりとかそういったものに目が行っちゃうから、
確かに言われてみれば音声で入力する機会増えたけど、結構不自然というか、正しくなんか日本語喋らないといけないとか、ちゃんと喋らないとうまく認識してくれないみたいなことは意識して途中で喋ってるのに止まっちゃったりすることもあるかな。
少なくともね、5分連続で喋るみたいなことをやったことはなくて、せいぜい1分、2分を音声認識で喋っておしまいで、しかもそれを見てしまうからまた考えてみたいな感じで、別にそれが悪いとかじゃないんだけど、それだとやっぱメモしかできなくて、
メモはメモで有効だからメモにはいいんだけど、もう一つなんか違う用途として、このまとめて喋ってしまって後で変換っていうのは違った使い道があるんじゃないかというか、なんかあるような感じがしてきているって思っていて。
03:14
確かに今音声入力でやるときって、例えば読んでる本のこの部分をメモしときたいみたいなところを、本の文字を読み上げてテキスト化するとかはめっちゃ長い文章っていうか、1ページ分ぐらい丸々とかでも余裕ですらすら読めるからできるんだけど、
自分でこう、頭で考えていることを喋って入力する場合は、どうしてもやっぱ長い文章喋れない。こうやってさ、1、2分一人で勝手に喋るみたいなことはちょっと難しいかも。
そう、それがね、なんでなんだろう。その止まっちゃうからなのかな。連続で認識してくれないからなのかな。テキストに変換されるものが気になって見てしまうからなのかな。
はるなの場合だけど、結構そのリアルタイムで変換されていくその文字列が気になる。
うん。なんかそれをね、乗り切ることができれば音声認識がもう一個便利になるかもっていう風に思ったり、逆な方向として音声を認識させるんじゃなくて、
まず一回録音して、録音したファイルをテキストにするっていうやり方をすれば、なんか今までとは違った音声認識によるブログを書くみたいなことが、
まあそのこの前ポッドキャストで話したことまんまなんだけど、それは人がいなくても一人でもできる可能性もあるような気がして、
なんかそうやってやったらうまいことこう、別の手段というか別の下書きの作り方みたいなことができるんじゃないかなっていうのを思った。
その話とは若干ずれるけど、音声認識、音声入力の次のステップとしてさ、
ダーって喋った内容をある程度ようやくまとめて綺麗な形に整形してテキスト化してくれるみたいな、
そういう音声認識、音声入力があってもいいんかなってちょっと思った。
ダラダラとなんか長い文章を喋った場合を、ダラダラ部分をカットしてくれるってこと?
そう、まあ少なくとも今もうできつつあるけど、あのーとかそのーとかっていういらない言葉、
喋ってる時はそんなに不自然に感じないんだけど、テキスト化すると文字にすると違和感のある言葉っていっぱいあるやん。
そういうのを全部消してくれて、
で、口語っぽいやつをもうちょっとあるやんみたいなのを直してくれるってこと。
わかんない。簡単なのかな。
まあやっぱそういうのをどうするかだよね。それがないと確かに、あるやんっていう風に言えないと喋っているように文章の入力はできないよね。
06:07
だからその辺の音声データをテキスト化して、それを下書きっていうか下に元にして新規で文章を書くと、
それに近いことがなんか自分の中でできてるんじゃないかなって思うんやけど。
変換をするってこと?
自分の中変換みたいな。
たぶんまとめて、まとめてじゃない。毎度都度都度入力をしようとすると、その変換をやってしまうから手間がかかってちょっと大変な気がするっていうのはある気がする。
あとはあれかな。ある程度最初から最後まで喋り通してしまった後にもう一回戻って、2週目ってことやん、要は。
ブログに書くときは?
だから書きやすいっていうのもあるんじゃない?
それはある。脳内で1回話してた内容を声にも出しているから、たぶん薄く記憶にも残っているはずで、
その文章、それを一覧で見ながら、こういうことを言ったけどこれは要らなかったとかこれは足りなかったみたいなものを、
なんていうんだろう、まとめて整理しているっていう感覚はある。
細かく言うと、たぶん脳内でまず何を喋ろうっていうのを考えて、第2段階として2つ目口から声に出して喋ってて、
3つ目が喋っている声を耳で聞いているとか。
自分が?
うん。で、その後最後にテキスト化したデータを目で見ながらもう一回みたいな。
そういう何回もやっているから早いっていうのは確かにあるかもね。
あとはね、テキストだとやっぱね、そういう意味ですごいなって、ポッドキャストをずっとやりながら言っといてあれなんだけどね、
目的のところ探すのが早いんだよね。
これを音声でこの時何て言ったっけって探そうとするとやっぱ大変で、
テキストになっていれば10分かけて喋ったものは2分ぐらいで読めてしまって、
ながらで聞けるとかテキストには乗らない間とかニュアンスとかが伝わるっていうのはあるけど、やっぱテキストって早いですね。
動画もそうだし、音声データも両方そうなんだけど、中身が何て喋ってるかとか、
何分何秒のところでこれを言ってるみたいなのを見つけるのがすごく難しくて、
テキスト化に使ってブリューっていうのはアプリ版もあって、
そのアプリとかに動画とか音声ファイル入れるとテキストでその何分何秒のところまで巻き戻したりとか早送りしたりができるから、
そういう使い方としても結構アリだなっていうサービスだったりアプリだったり。
動画ファイルを持っていれば動画のシークができるようになる。テキストでシークができるようになる。
09:05
確かにそのまんま過ぎてそうなんだけどそうだね。
あれはね、すっごい早い。セミナーの動画とか入れとくと、この辺でこういうこと喋ってたよなっていうのをテキストで探せるからめちゃくちゃ早い。
ブリューを褒めるばっかりのお話になってしまったね。
最初は何の話だったっけ?
音声認識の感覚みたいな話。実際ブリューは今のところ本当に動画のために俺は使ってないんだけど、
使っていて便利ではあるのであれは割とおすすめではないかと思います。
一応各プラットフォーム、WindowsでもMacでもiPadとかiPhoneのiOSでも動く。Androidも確かあったと思う。
MacでSafariだと非対応って言われます。
Macの場合はブラウザでやるならChrome、もしくはMac App Storeから落とすやつっていう。
もともと音声認識の話なので、ブリューが出てきてもいいのかということで、
音声認識のやり方っていうか、iPhoneの音声認識ボタンだけじゃなくて録音して話してみて後から文字にするとかっていうやり方も、
考えをまとめるとか文章にする手法としてありなんじゃないかなっていう話でした。
10:31

コメント

スクロール