Nobuhiro Seki
リッスン(LISTEN)というポッドキャスティングの、配信サービスでもないし、文字起こしサービスでもないし。
Mika Ueno
でもポッドキャストサービスっていいんじゃないですか。配信もするし、ポスティングもするようになったし。
Nobuhiro Seki
かつて創業者の近藤さんにもゲスト出演してたと思って、それ以来使ってますけど、最近一番安い有料サービスを使ってみているんですけれども。
今回そのサービスをした理由って、事前にリッスンを使うと文字起こしするだけじゃなくて、
誰が喋ったかとか、見出し作ってそれが目次になったりとか、全体のサマリー付けたりっていうのをしてくれるんですけど、
公開してからフィードすると、しばらくの間ってそれができてませんとか、最初は素の文字起こしだけですとか、
だんだんビルドされていくみたいなところがあって、もし事前に渡したらいいんじゃないと思って入手サービス使ってみたんですけど、
実際には1時間半ぐらいで割とすぐにできてくるっていうのは分かったんですけど、それ以外に事前にスケジュールして、
事前に文字起こしをして、気に入らないところがあったら直しておいて、公開時間になったら出すっていうこともできてきてですね。
それを実際やってみたら、同じデータを一般の文字起こしサービスみたいなやつに投げるよりも結構いいクオリティで返ってきてる。
文字起こしが結構よくできてるっていうことが分かって、数千円とか1万円ぐらい出すような企業向けの有償サービスよりも、
僕の声とかに慣れてるからかもしれないですけど、クオリティが良くて、月500円という感じで、
これPodcastの文字起こしがあって便利なんですけど、それ以外にも文字起こしにも使えるっていうところもあって、
やっぱり一般の人にどんどん使われていろいろフィードバックをもらえるっていうコンシューマーサービスのほうが、
B2Bで確かに起こすんだけど、それを実際に文字起こし出してる人たちが、ここは表現が違うってフィードバックして直すようなデータを結構上げてないんじゃないのかなみたいなことを思って、
リスナーを自分たちで使って、自分の話した内容が文字起こしが悪いと直すじゃないですか。
だからそういう意味でコンシューマーのサービス、僕ら今、有償つかってますけど無償の人たちもいっぱい使ってるということで、
やっぱりそういう形で大量にそういう情報を得ることによって質がすごい勢いで良くなっていくみたいな、
っていうのを久しぶりに見たなっていう感じをしました。
逆に言うと、企業向けに議事録を文字起こししてもあなた議事録入れませんみたいな、
そういうサービスやってるところだから、さぞクオリティ高いのかと思ってお試しアカウントから出してみても、
なんか今一つちゃんと使われてるようには思えないような、結構クオリティの文字起こしが出てきたりとかして、
なんかその辺がちょっともう、この文字起こし、ChatGPTとか出てきてから一気に皆さん使ってるんじゃないかと思ったんですけど、
1年経っても全然クオリティがあがってないっていうのがちょっとびっくりしたっていう話でございます。
Mika Ueno
なんか有料版にしてから、文字起こしはもともと精度高いじゃないですか、LISTENも。
なんですけど、なんかますます最近精度が良くなってきているのもあるし、
時々すごい繰り返しのやつがバーッと連続しちゃったりすることもあるんですけど、
有料版にしたら全然そういうことなくなったし、会話ひとまとまりで、
1行、1センテンスとして起こしてくれる量が結構増えてきてて、ちゃんと読み物として見れるレベルになってるのはすごいなと思って。
やっぱりそれは言語とかね、チューニングとかあると思うんですけど。
あと話者分離をしてくれるじゃないですか。
アップしてるのはMP3のファイルだから3人まとめて音源ファイルとして上げてるんですけど、
これが私の声です、及川さんの声です、関さんの声ですって話者をちゃんと認識して分離してくれるっていうのが、
それも相当精度高いし、あれはすごいなと思いますよね。
Takuya Oikawa
多分これ、近藤さんも言ってたかもしれないけど、Open AIのWhisperってやつ使ってるんじゃないかなと思うんですけれど、
多分それの使い方とかもどんどんこなれてきたりしてるんですかね。
Nobuhiro Seki
この前、公開しないっていう設定を使うと、実は文字起こしサービスとして使えるんで、
非公開のチャンネル1個作ってそこに文字起こしたやつを定期的に入れてるんですけど、
1回あったのが、同じ文章を繰り返し時々入っちゃうのがあったじゃないですか。
で、一番最初に特徴的に出てくる言葉を何回も連呼してるんですよ。
それって音源ファイルに入ってないんですね。
それが10回くらいその時書いてたのはちょっと覚えてないですけど、
例えばさっき言ったハリーポッター、関信浩、iPhoneとか、要するにこういうのがよく頻繁に出てくるんですよっていう名刺が5、6個あって、
それが10行ぐらいバーッと入って、そこから急に文字起こしが始まってるみたいなやつがあったんで、
もしかしたらそういう、例えば僕が挙げてるやつに顕著なそういう言葉とか、
テーマがこういうふうに寄ってるからそういう文字を最初にプロンプト的に渡すことによって、
もしかしたらチューニングしてるのかなみたいなちょっと思ったりして、
で、ただ間違ってプロンプトして渡してるやつが文字起こしで出ちゃったのかしらみたいな感じでちょっと思ったんですけど、
2度目は同じことは起きなかったんですけど、
だからそういうプロンプトで渡すのかチューニングの仕方も多分いろいろあると思うんですけど、
なんかやってるのかなってその時ちょっと思いましたね。
Mika Ueno
キーワードを渡す的な感じなのかな。
Nobuhiro Seki
うん、なんかね、それも取っときゃよかったんだよちょっと。
Mika Ueno
チューニングのやつはすごいなと思ってて、
例えば声の抑揚とかですごい面白かったっていうのと、面白かったっていうのって違うじゃないですか。
それがきちんと伝わるような文字起こしになっているんですよね。
Mika Ueno
ここで点打つとか、丸打つとかっていう、
なんかそれがどんどん進化してて、
読んでる文にはスーッと入ってくるから何にも感じないですけど、
改めて読んでみるとこれすごいちゃんと文脈とかも捉えてるんだっていう。
フィラーワードは完全に全部削除されてるし、
でも、とかいうものでも必要ないところはカットされているんですよね。
すごいなと思いました。
日本語と英語のチャンポンになることもあるじゃないですか、
チャンポンっていうか英単語を日本語なまりで話す時もあって、
あれ一回自分で、
これは文字起こしされた時に英語に置き換えと英単語のスペルにした方が分かりやすいから置き換えなきゃなと思って、
それを頭に念頭に文字起こしを見たら、
ちゃんとそれが日本人のバリバリの日本語で話したのに、
ちゃんと英単語に置かれてて、これすごいと思いました。
Nobuhiro Seki
もしかしたら僕が手で直したかもしれない。
Mika Ueno
いやいや、最初からそうなんです。
Nobuhiro Seki
今文字起こしを見たんですけど、
文字起こしされた最初の冒頭に、
今回の話題は何とかです。
文字起こしには以下の登録済み単語を優先してくださいっていうのが出てて、
その後に登録済み単語が連呼されてるんですね。
これ文字起こしの音声には入ってないから、
きっとこれがプロンプトで渡って、その後にデータを渡したんだけど、
そのログ全部間違いでこっち側に表示しちゃったんじゃないかなって思いました。
逆に言うと、画面で渡すときってダイアログが出てきて、
音声ファイルを上げて、
これってノイズリダクションしますかとかいろいろあるんですけど、
その他にタイトルとか概要とか、
そういったものもあらかじめ書いておけるんですね。
その後に最後、スケジュール配信か、
パブリッシュか、セーブかみたいなボタンになってて、
多分文字起こしする段階で、
いろんなメタデータみたいなやつをちゃんと入れておくと、
よりプロンプトに渡してくれて、
より精度が高くなるんじゃないかなって、
このデータを見て思いました。
もしかしたらそういうようなところを、
サービスからAPIに繋ぐところでいろいろやることによって、
チューニングの一部にしてるんじゃないかしら、
外から見た想像ですけど、そんな感じがしましたね。
Mika Ueno
毎週文字起こし見てるからね、
進化というか、スーッて良くなってのグラデーションのように感じますよね。
Takuya Oikawa
今リストの文字起こしのやつをバーッと見てたんですけれども、
確かに良くなってきてますよね。それもわかるし。
Mika Ueno
最初の頃は、結構直してるの多かったんですよね。
人にシェアする時もあるし、ソーシャルとかでコピペとかする時もあるから、
これはちょっと明らかに誤植とかそういうの結構あったから、
直してはいたんですけど、最近直す頻度が激減しましたね。
Nobuhiro Seki
あとはサマリンのところがね、あそこがやっぱりちょっとまだ難しいんだなって思います。
Mika Ueno
だから書籍に出てきそうな要約の仕方ですよね。
すごい綺麗にまとめていて、結構抽象化するような言い方とかもするんだけど、
もっと具体的にもいいんじゃないかなと思う時もあるけどね。
Nobuhiro Seki
ただこの続きを文字で読みたいなと思うときがあるんです。
僕と違ってそのときに続きを文字で読みたいなと思うときがあるんで、
そのときにLISTENで続きをバーッと見るみたいなことはあるかなと思ってはいるんですよね。
僕自身はどっちかっていうと聞いてるポッドキャスト全部英語なんでリッスンにはないんですけど、
やっぱり文字なのは文字の方が早く読めるっていうのがあって、
1.5倍とかにしてもやっぱり1時間のものは40分くらいになっちゃうんですけど、
文字だったら20分とか15分でいけるなって思ったときにやっぱり文字の方がいいやって思っちゃうんですよね。
そこが多分他の人と違うかもしれないですけどね。
僕割と文字と音声だと文字の方が頭に入ってくるので、
音声の方が入ってこないんですよ。
だから僕たちは歩きながらでもほんのちょっと気を逸らす瞬間に5分とか聞いてるけど全く覚えてないみたいなことくるそうで。
Takuya Oikawa
なんか音で聞いていると、音を聞いてたらちゃんと理解できるんだけれども、
ついつい音を聞きながらほかのことを考えちゃったりすることによって思考がぶれちゃうことは私よくあるんですよね。
で、ただ音を聞くっていう形にちゃんと聞いてる時っていうのは結構普通に入ってきますね でお二人に話したかもしれないけどあのオーディオブック.jpやっている音バンクっていう会社の創業者の上田さんと
どのぐらい前だろう1ヶ月前ぐらいかなちょっとお会いしていろいろ話を伺ったんですね 食事しながらその時におっしゃってたのが人間というのは基本的には
理解するためには頭の中で文字を音声に変えてるんだっていうふうに言われてたんですよ で
で実もう一つ言われてたのが実は例えば日本人っていうのを見ても具体的な数字忘れ ちゃったんですけれども
文字を目で見てそこから頭の中で文字に変換して理解するっていうことが不得意だっていう 人が確か30%とか結構な割合いるって言ってて
本当は、ま、ちょっと関さんのパターン逆なんですけれども 本当は音でやはりいろいろ情報取得する方が人間には自然であり負担が少ないんだって
いうふうに言われてたんですよね まあ確かにそういうのもあるかな前から思ってたんですよ僕はなんかその
例えば聴覚障害者とかまた別だと思うんですけれども 文字をこう文字でこう見た時って頭の中でなんかその読んでいる感じはする時があるんです
よね だからまあ確かにそう言われてみると音で聞かされた方がわかるっての自分の中で頭の中で
読んでるんだったらそうだなというふうに思ったりしました でもそれやっぱり学習障害的な話の中でよく出てきますよねその文字で読んでも理解
Nobuhiro Seki
できないから音声にするとかっていう 逆でそのだからよく音楽って歌詞付きの音楽って歌詞があるじゃないですか
歌詞全く入ってこないですよ覚えて全く覚えてないですよ もしくは歌詞で聞いても意味はわからないですだから
単なる音の羅列としてしか認識しなくてドレミファと一緒でその だから
あの歌の歌詞感動したよねとか言われたらハッて感じなんですよ 文字だ文章だと思って相当集中して聞かないと
えっと文章として認識できないんですよ だからポッドキャストあるいしても
ほんのちょっとしたつば鳩が飛んでると思った瞬間にそこからも全部 あのそこから2、3分聞いてるのは全部右から左に流れちゃうみたいな感じになって
よくその 2、3分戻すこと多いんですよあ全然聞いてなかった
だからなんかそれっていうのはそのさっきのまさにお絵かさんにとると逆のパターン なんですけど
だからあの人の話聞くときって相当集中しないと聞き漏らしちゃうっていうか いう感じなんですよね
すいませんあとからちょっとあの文章にしてもう一度もらえますかみたいな 下手すとそういう状況になっちゃうって感じですよね
文字に振ってるんですね 文字振りですね
Mika Ueno
この間日経でした記事ですけど 言語の習得は
音からっていう方がより音から入る方がより良いよっていうのがなんか学術的にも 裏付けられたみたいな記事が出てましたね
音から入るのは基本だと裏付けられたっていうことかな
Nobuhiro Seki
この学習男子って 外国語を習うときに日本だと英語ですけど
日本で音を聞くんじゃなくて文字を読んで読み書きを練習することが多いじゃないですか
だから読み書きはできるけど会話ができませんみたいな
それの逆がね会話はできるけど読み書きできませんっていう話で
でもこの話を聞くとやっぱり会話がすごい重要なんですっていう話なんですよね
Mika Ueno
聞いて話してっていう時の方が脳の動き方が違うなって最近感じることがあって
例えばなんか物を書いて整理するってのはよくやるじゃないですか
例えばアルトライン整理するとかね
いろんなことバーって自分で書いてそれを文字で整理していくっていうのはよくやる日記もそうですしやるんですけど
最近に人と話をしてて話をしてる時にまとまってないけどすって自分の中で出てくる言葉とかアイディアとかは
確かにそうだわみたいなのが瞬間的に出てくる経験が最近続いて
やっぱ話した方がいいのかもしれない聞いてた方がいいのかもしれないって実感したことがあったんですよね
コロナの時期とかも経て結構デスクワークとかねちゃんと文字で整理してっていうのは長かったので
こういう文字で整理するの大事だなと思ってたんですけど
やっぱり人と話をキャッチボールすることで出てくる自分の脳が刺激されることとかっていうのもあるなって最近ちょっと感じたことがありましたね
Takuya Oikawa
それはでも音声であるっていうことが手段の一つであり今の話だと人とのキャッチボール
要は一人で考えるのじゃなくて相手に話す相手話すっていうか伝えることによってもしくは相手から何か聞かれることによってより深まるみたいな
そっちの話かもしれないですよね
Mika Ueno
それもありますねそうだと思います
Takuya Oikawa
ただ一方でそういうことをやるときにテキストチャットでやるよりも音声でやった方が明らかに効率的であるし
かつそこにコンテキストの共有ができる部分がある文字だと文字だけしか残んないんだけれども
なんか顧客インタビューとかでもいつも思うんですけれどもあと研修とかでも話してるんですけれども
言い淀んだり何かそこで感情が高まってスピードが速くなったりっていうところにこそ何かすごい意味があったりするっていうのはテキストチャットだとなかなかわかんないところなので
音声で誰かと会話することによって生まれるそういったその創発的な気づきみたいなものとか価値っていうのはあるなというふうに思いますね
Nobuhiro Seki
おっしゃる通りそこで言うと空気とかもありますよね
だから今こうズームでやってると音はほぼちゃんと言ってるわけじゃないですか
だから言い淀んだりペースが変わったりできるけどやっぱり目の前にいると例えば息遣いとか目に画面に入ってる以外の場所の体の動きとかって結構見ちゃうっていうか入ってくるじゃないですか
例えば目の前にいてこうやって喋ってこれだとわかんないけど実はそっち側で貧乏よすりしてますとかって時にしてる時としてない時で明らかにこっち側が受けるインプレッションは違って
会話もスムーズにいかないかって変わるみたいなものもあるからやっぱりその情報量が明らかにテキストチャットよりも音声の方が多いし音声よりもそれ以外のより多くの視覚情報とかその触覚とかそういったものも全部入ってるはもちろん情報としては多いのかなっていう気がしますよね
多分僕もさっきの話で音声情報が全く使われてないわけじゃなくて実は僕結構音読してるんですよ文字読んでる時ってすごい頭の中で明らかに音読してるんですね
音読する時のあれって結局音読する領域とその問題を考える思考する場所が違うんですかってそういういろんなところを経て音声になったりとか聞いた内容をある意味解釈してその思考のところにも続けつけるっていうのを僕は多分聞き取ってそれを分析するところに変換するのの多分ファンクションがあんまり良くないんだと思うんですよね
だからちょっと他のことに気が行っちゃうとそのファンクションが止まって違うことしちゃってるから音は聞こえてるけど意味のある文章としては頭の中に入ってきてませんみたいな状況がすぐ起きちゃうんだよな
でも目からやってる時って目からすぐ音に変換するとこは多分近いからそっちの方が効率的に動くみたいなっていうのは多分あるのかなってちょっと今日聞いてて思いましたね
Takuya Oikawa
美香さんが共有してくれた日経の記事多言語の習得は音からってやつこれもちょっと記事を読んでみると言語習得したかどうかっていうのの質問が音で聞いてるからだからこういう結果なんじゃないかなとかってちょっと思っちゃったんですよね