00:06
こんにちは、いわみです。
11月21日の火曜日、いかがお過ごしでしょうか。
えー、今日は、高知はとってもいい天気で、
久しぶりにあれですね、晴れて19度ぐらいいったんですかね。
関東とか、その他はどうなんでしょうね。
たぶんだいたいこういうのって、日本全国晴れてるっていう感じかと勝手に思ってますが、
当たり前なこと言いますけど、自分が住んでいるとこは基準にすぐなるなって。
前はやっぱりちょっとその関東のね、天気図とか、
引っ越して2、3ヶ月は、僕結構まめにチェックしてたんですけど、
だんだんそれも気が向けばやるぐらいになっていたり、
週末は大荒れの天気になるって言ってたんで、
11月の終わり、寒くなりそうですけど、
文字起こしについてですね、ちょっと考えてみようと。
人間がやる文字起こしじゃなくて、スマホとかパソコンについての文字起こし機能について、
っていうことなんですが、仕事とかで使う人は結構いるのかなと思うけど、
なかなか使いこなすのは難しいなと感じています。
何が難しいのかっていうとですね、精度はとっても上がってるんですよ。
喋ってることをちゃんと文字起こしのソフトとかアプリにかけると、
ほぼ8割9割ぐらいの精度で日本語にちゃんと直してくれるんですよ。
録音したやつを文字起こしにかけると結構それはめんどくさいんですけど、
例えばボイスメモとかこういう音声のファイルを再生して、
Googleドキュメントの音声入力をオンにするっていう、
アナログで読ませるっていう方式ですよね。
ファイルみたいのでできればいいんでしょうけど、
多分できる機能はあるんでしょうが、無料でできる機能は僕は知らないですね。
今音声配信とかSpotifyとか一部はPodcastの内容を勝手に文字起こしして記してくれるって機能ありますけど、
そういうのを聞いて僕がまず思ったのはさっき文字起こしが難しいって言ったのとつながるんですけど、
話し言葉を文字起こししたものにどれほどの価値があるのかっていうことなんですよね。
特にこうやって考えながら喋られた音声っていうのは、
あんまり文字起こししてもほぼ意味がないっていうか、
使えないっていうか何を言ってるのかわからないもの。
喋ってるのを聞くとそれなりに人間のフィルター機能みたいなのが働いて、
ちゃんとピックアップしてくれるんですよ。
文脈とか構成みたいなのを手に入れ替えてというか、
理解したかもしくは理解したような気になるっていう補正機能みたいなのが多分強力に働くと僕は思うんですけど、
そういうのができる強い人が読解力とか察する能力って言われるのかもしれないですね。
察する能力って言われるのかもしれないけど、よしよしだなって思ったりしますか。
基本的にそういう会話とか対談の文字起こしとか、僕たまに仕事でやりますけど、
めっちゃ大変なんですよね。
何が大変なのかというと、話し言葉を読み言葉に直さなきゃいけないからで、
03:03
それをやるにはほぼ骨組みから取っ替えるぐらいの勢いで入れ替えというか構成が必要になって、
そこまで機械でやってくれたらいいけど、
チャットGPTとかは割とそれに近いことができるようになってすげえなって思いますけど、
それでも求めている精度にはまだ程遠いというか、
人間が書籍ライターみたいな編集者とかがやる精度にはまだ遠く及ばないと僕は思ってますけど、
だからその音声配信対談を文字起こしにする意味みたいなのがですね、
その語られた内容を元に本当にテキストを起こすっていうのが一番大変で、
ただ文字に起こすっていう、
しゃべった内容をそのままテキストに変換するっていうだけだったら、
それなりに時間はかかるけどそんなに大変じゃないんですよ、慣れたら。
試行停止でできる作業なんで、僕はそんなに得意じゃないですけど、
タイピングがそんなに早くないから、そういうのを仕事にしている人もいますけど、
今あんまり時給というか報酬は良くないですよね。
1文字1円もいかないから、5分の音声が例えば1500文字ぐらいだとすると、
5分間でいくらなんでしょうね。
ひどいやつだと何百円でもあるから、相当早くやらないとって思いますけど、
一方これ僕しゃべりながら思ったのが、もう一つの使い道があるなって思ったんですよ、
その音声を文字起こしする。
もう一つの目的ってのは何かっていうと、検索ができるっていうこと。
今のところの音声の文字起こしっていうのはこれに尽きるんじゃないかな。
その音声の中から勝手に文字起こしがされて何についてしゃべっているっていうのを、
概要だけでもAIとかでできるようになったら、
それが検索できるわけですよね。
その膨大なデータの中から。
それはでかいなと思いますね。
ほとんどの人はしゃべった内容に対してタグとかタイトルとか、
タイトルはつけるけど見出しとかは別につけないじゃないですか。
僕もやってないし、ブログとか論文とかそういうものだったら全部文字になってるから
全部検索できるわけですよね。
全部文字になってるから全部検索できるわけですけど、
全部検索できないものも中にはあるかもしれないけど、
基本的にはテキスト情報でネットに出回ってるものは検索ができると。
でも今のところ音声っていうのはそれがあまり進んでなくて、
でも今その文字起こし機能が進化していることで、
世の中の音声がテキストになってるっていうのは、
それは検索できるっていうことを考えるとものすごいことだなって思うんですよね。
しかもそれを例えば餌にというか、
その情報を教科書にしてAIがまた学習をしたらですね、
これはまた飛躍的に能力が上がりそうですよね。
書かれた言葉と喋ってる言葉って違うというか、
それをテキストにするから結局はテキストになっちゃうのかもしれないけど、
でもそこまで喋り言葉のニュアンスまである程度把握できるような知性みたいなものを
AIが持ったらすごいことになるなってさっきから同じことばかり言ってますね。
話し言葉をテキストに直すだけでは、
読み物としては全然使い物にならないから、
06:02
そういう意味での価値っていうのはまだ全然ないなと思っていて、
PodcastとかBUTTON.fmとか音声配信やってる人なら、
なんとなく感じたことはあるかもしれないけど、
やっぱり文字に直すっていうのはですね、
喋りにもなんていうかフィードバックがあると思ってるんですよ、僕は。
トークとテキストっていうのは基本的には別物なんだけど、
上位互換というか、
まとまったテキストを書ける人っていうのは、
喋りもそれなりに整合性が取れて上手いというか、
わかりやすく喋れる人がいるわけですね。
でも反対は起きないというか、
喋りが上手い人がわかりやすい文章を書けるかっていったら、
そんなこともないような気がするんですよね。
そうじゃない人もいるっていうことですけど、
それで何を言いたいのかというと、
自分の喋ったものをテキストに起こして文字起こしして、
それを自分で編集してブログなりノートにして、
両方やってると、
割と喋りが上手くなるんじゃないかなっていうことを思ったっていう、
そういうことですかね。
ふわっと思っていることをパッと言葉に出すっていうのは、
やっぱり喋る方が圧倒的に労力が高くなって、
やっぱり喋る方が圧倒的に労力がないわけだから、
やりやすいわけですけど、
まとめたりとか重複がないようにするっていうのは、
テキストの方が多分優れてるわけですね。
メディアとしてというか、媒体として。
いいところを両方とってですね、いくというか。
どっちかっていうとやっぱり、
時代としては今音声に向かっていると僕は感じるんですね。
テキストで情報を入手、インプットできる人の数はもともと限られているし、
より多くの人に深くメッセージを届けるには、
音声とか映像とかのほうが優れていて、
やっぱりその中でもやっぱり音声の力みたいなのが、
今結構見直されている、言われているし、
だからというわけじゃないけど、
でもあれですね、思考がクリアになりますよね。
自分がちゃんと喋れるように、
整合性の取れた文章を書けるようになると、
やっぱり思考がクリアになるし、
簡単に言って、僕はそういうのできたほうが、
生きてて楽しいと思うんですよ。
だからといって別に、
喋りがあっちこっち行く人というか、
考えがまとまらない人が、
ダメだって言っているわけじゃなくて、
今僕が喋っている内容も、
やろうと思ったら、
多分140文字くらいで、
今収まる内容を10分以上かけて喋っているということになりますけど、
でもそこは別に全く無意味だと僕は思っていなくて、
つまり、
これは喋りながら考えて、
自分の頭の整理になりますよね。
それを例えば文章に直そうと思ったら、
さらにそこで構造化が進んだりとかですね。
僕は多分そういうのは好きなんでしょうね。
情報を入れ替えて、
シュッとさせるのが好きなんですよね。
僕、小学校の頃とかの図工とかで、
木を削ってナイフにしたりとか、
彫刻刀を使ってハンガーを作ったりするの、
好きでしたけど、
基本的にはそれと同じことをやっているなというのを、
今喋りながら思いましたけど、
ちょっと時間もなくなってきたので、
こんな感じで今日は終わりにしたいと思います。
09:00
できたら、今喋ったことを200文字以内ぐらいで
まとめてみようかなと思いますが、
できたらそれを概要のところにくっつけてみたいと思います。
それでは、お聞きいただいてありがとうございました。
良い一日をお過ごしください。
さよなら。