ポッドキャストわかんないシーズン2
この番組は、ポッドキャスト配信者・制作者の目線から、ポッドキャスト制作の理想と現実をお話しするトーク番組です。
かねりん・ポッドキャストスタジオ代表、かねりんです。
今日のテーマは?
今日のテーマは?ってこうなんか区切ると、なんかフォーマットが限られますよね。
やめましょう。
今日も一人会なんですけど、
今日はね、生に近い音声を記録するっていうのはどういうことなのか、ということについて、最近考えていることを言語化していきたいと思うんですね。
アテンション・エコノミー
っていう言葉ご存知ですかね。
SNS上で何でもかんでもこう注意を引くような、刺激的な情報、刺激的な言葉に溢れているインプレッションを稼ぐため、
そしてまたSNSのアルゴリズムに従って、みんなコンテンツを拡散したいと思えば、アルゴリズムをハックするっていうような考え方がやっぱり自然になってくるんですけど、
そうするとね、やっぱり今のアルゴリズムであれば、そういうアテンション・エコノミーを助長するような形になってしまいますよね。
ショート動画とか、短いコンテンツがサクッと、ファストコンテンツっていうんですか、サクッと1分、2分ぐらいでね、いろんな情報がわかりますみたいなの大好きでしょ。
僕はあまりそういうのが好きではないんです。過去に何回も言ってますけど。
なるべくね、編集コテコテにするっていうのも、散々もうラジオとかテレビの業界でやってきてるじゃないですか。
それはそれって感じでね、それが全部良いとか悪いとかじゃなくて、それはもう世の中に溢れているんで、世の中にあんまないものを逆に作りたいよね。
世の中にないものであれば何でもいいのかっていうと、ないのはないなりのなんか理由があるよねって話があるんで。
世の中に今ないけれども、ちょっと視点を変えたらこれは価値を帯びるよね。それは今じゃなくて数十年後かもしれないけどさっていうものを考えてるんですよ。
そういうことを考えると、なるべく音質が良いというか、音声で言うと圧縮、デジタルデータなんで圧縮されているかされていないかって言ったら、圧縮されていない元のデータに近いものをそのまま取っていくっていうことがやっぱり必要だよねっていうことで考えたりするんですよ。
それはなんで必要なのかっていうと、なるべくリアルワールドってアナログでしょ。空気が振動して生体から空気を伝って、相手の耳の鼓膜に届いて認識するわけでしょ。
それをマイクの振動をキャッチする場所のところで捉えて、それをデジタル信号に変換してこうやって声をデータ化して飛ばしてるわけじゃないですか。
で、それってなるべく全くその本物のまま記録するっていうことにロマンを感じるわけですよ。今で言うと100年前のラジオの音声とかって結構ガビガビで、これ実際喋ってる人はこんなガビガビの状態で喋ってるわけないんで、本当の声の質感だとかってもう失われてしまってますよね。
で、それってこれからの時代、これからじゃあ100年後も同じようなことが言えると思っていて、僕たち人間の耳の基準で言えばね、多少圧縮されてようが、どえらいサイズの大きいWAVEの生のファイルで録っておこうが別に耳に効く分には別にそんな分かんねえし、そもそも再生するスピーカーがスマホのちっちゃいスピーカーとかだったら再生しきれてねえから意味ねえじゃん。
っていうそういう話も聞こえてくるんですけど、それはすごく点で物事を捉えてるなと思っていて、例えば今AIこんだけ発達してて100年後にどうなってるのかわかんないじゃないですか。だから音声ってね、人間に聞かせるものじゃなくて、AIに聞かせる、AIに食べさせるものっていう感覚でね。
これからのデジタルのもの、アナログをデジタルに変換するときですね、つまりこうやってマイクであれば収録、声であればこうやってマイクで収録だし、映像であればビデオで撮影ですよね。アナログのものを切り取ってデジタルにしてますよね。デジタルにするのは何でかって言ったらAIが認識するためですよ。AIはデジタルなんでデジタルじゃないと認識できないですよね。
AIに見せるために僕たちは音声撮ったり映像撮ったりしてる。そんなような考え方にシフトしていった方がこれからのコンテンツ制作を大きく見せることないんじゃないかなっていうことも思うわけですよ。
一番最後出口は人間ですよ。人間が人間のためにいろんなものを作るんだけど、今まではそうだったけど、これからはその間にいろんなAIが入ってくるんですよね。で、そうなってくると僕たち人間の耳だと違いが全くわからないようなことでも、AIからしたら全然違うよねっていうものって多分いっぱいあるんですよね。
AIの持ってる耳と人間の持ってる耳って全然違うんで。で、そういうことを考えると考えたときにこれは自分で聞いてもわかんないから一緒だよとか、これ自分で見ても大して違いないから一緒だろうっていうような考え方。
要は自分のこの感覚機関に縛られたものの考え方では、これからの時代の変化ついていくことはできない。ついていくことができないとどうなのかっていうと、自分が今ひしこいていろんなことを考えて作っているものっていうものがこれからの時代に適応していかない古いチンプな古ぼけたものになっていく。
それはつまりわかりやすく言うと白黒映画みたいなもんですかね。白黒映画だったり音のないサイレント映画みたいな映像みたいな。そういうイメージですかね。
結構何というかガチャッとモードが、時代のモードが変わっていくんじゃないでしょうかね。新しい時代の常識っていうのは必ずそこにAIが介在してくるんで。
僕らがわからなくてもAIが差を感じることはあり得るなぁと。多分いっぱいあり得るなぁと。であれば僕らのこのポッドキャストを制作しているっていう目線で言うと、なるべく生の状態の本物の音を残しておきたいなっていうのが一つの観点なんですよ。
これは今音質的な話をしてますが、もう一個観点はその喋っている中身ですよね。外向きに話している内容なのか、自分だけに対して話している内容なのかで、人間って話す内容全然変わるでしょ。
それは日記帳に書くことと新聞の当書欄に書くことは違いますわな。当たり前ですけど、じゃあどっちが価値があるのかねって考えたときに、人間を、AIが人間を理解するために、AIにより人間を理解してもらうために必要なものって何っていうと、
誰かに見られること聞かれることを意識した情報ではなくて、本当に自分の心の中で思ったことをそのまま何の忖度もなく記録するっていう、そういうことは面白い試みだと思いますよね。
なぜかというと、AIってネットから情報を拾ってくるんですよね。ネットにない情報って拾ってこれないんで、それは学習できないんですよ。だからAIの捉えている僕たち人間っていうものは、あくまでも僕らが与えた情報、つまりネット上にほとんど転がっている情報、外向きに公開情報として出している、成形された作り物の僕たちの自分たちのアウトプット。
そういうことはないわけですよ。圧倒的に情報が欠落してますよね。僕たちが心の中で思ったことって言語化されないからAIがその情報をインプットすることはないでしょう。
そういうことを考えていくと、最近出てきたリミットレスAIっていうデバイスがあるんですよ。
本当に小さい親指くらいの大きさのクリップのマグネットの端末なんだけど、それを首から下げたりTシャツにペチッと貼り付けておくと、これは100時間とか200時間くらい連続稼働するのかな。
喋ったこと全部要はそこで記録していくんですよ。で、AIで文字起こししてって自動的にサマリして、この全部保存しておいてくれるんですよ。
すごい、なんか言ってることはわかるけど、つまりそれをやるとどうなるかっていうと、常時回ってるんで、ぶつぶつ一人言ったりすること増えそうですよね。
なんか思いついた時にぶつぶつ喋っていれば、それは首元のデバイスが全部常時録音なんで、ずっと全部拾って、全部それを文字起こししてくれるから、日付ごとにやってくれるみたいだから、後から検索しやすいと。
で、文字になってて文字検索ができますと。で、そこ気になったらポチってやればそこの音声が再生されて聞けるっていうね。
そういう意味で言うとね、それって結構人間の生の活動に近い記録が取れますよね。
わざわざ録音を回すっていうその機能、行為はやっぱりかなりハードルあるんですよね。
常時録音で常につけていて、それを忘れていれば自分の喋ったこと、誰かと何かを喋った、どこ行って誰かと何かを喋ったこと全部記録されると。
それは面白そうだなって。
それだからメーカーのね、歌いモークとしてはやっぱりそのビジネスとか会議の効率化ですよねみたいな文脈がやっぱり濃いんだけど、
全然そんなところに面白さを感じなくて、やっぱり人間の何気ない僕たち一人一人の人間の日常生活全部声で記録してそれが全部文字起こしされていくと、
どんなふうになるんやろうなって。
まあそれがねプライバシーポリシー的にどうなのかとか勝手に使われないのかとか、それが情報漏洩したらどうだこうだ危ないだなんだっていう分そういう観点はもちろんあるんだけど、
一旦そういう観点を忘れた上でワクワクのところだけ考えると、
それって結構僕たちが日常取りこぼしまくっていたものが拾い上げられるデバイスだなと思うよね。
僕もあんまり外に出て人と話すこと機会自体あんまり多い方じゃないんだけど、
それでも結構ねお店とか行って和菓子屋さんとか入ったりするとね、必ずと言っていいほど店員さんと喋るんだよね。
何かこういう話する。
この間もねこの洋館、この蒸し洋館と練り洋館の違いについて教えてもらったりね。
この辺は最近和菓子屋さんは昔はこれぐらいあったけど今はこれぐらい減ってて何でっていう話とか。
そんなようなね雑談みたいなものをやっぱり15分20分ぐらいするんだよね。
当然そんなもん録音してないし、ちょっと録音していいですかなんて言った瞬間にもうその会話の生の会話じゃなくなるよね。
向こうも構えるし。
だからまあそういうこと考えるとさ、日常を記録していく。
まあそれって多分よくよくはさ脳の中にチップが埋め込まれてさ、耳から入ってきたその情報をその脳の中で全部それをデジタル化して文字起こししてみたいな時代が多分きっと来るのかもしれないけど、
そこまで言うとちょっとまだSFチックだなって思うじゃない。
でもだからその人間の脳みそにどうのこうのじゃなくて、人間の活動にすぐ付随する形で録音デバイスがあって、要するにそれってちっちゃい録音機だよね。
ICレコーダーだよね。今までも散々パラあったし、そんなスパイグッズいっぱいあるから盗聴みたいな話じゃないですか。
もちろんマナー的にね、これは録音どういうもなく録音するのどうだこうだっていう論点あるんだけど、まあ一旦その辺は外しといてっていう話ですよ。
でさ、それは僕今要するにこれ、AI系の、AIに感度の高いインフルエンサーが何人か宣伝をしていてね、すごく興味を持ったんだけど、でもやっぱちょっとまだゴミっぽいなっていうふうな感覚を得てるんですよ。
で、過去にそういうデバイスっていくつか出てきて全部ゴミになったんだよね。今回はゴミじゃないっていう確信的な何かがあるかっていうと別にないんですよ。
日本語にはちゃんと対応してるから、日本語の文字起こしもちゃんとやってくれるらしいんだけど、それはまだ精度は微妙だっていうような話があるんで。
じゃあiPhoneの文字起こし機能と比べてどうなのかなとか、いつも僕が使っている録音した音源をGoogleのGeminiに放り込んで文字起こしさせたりしてるんだけど、それの精度と比べてどうなんだとかっていうと、多分精度悪いと思うんですよ。
そうなってくると、精度あまりにも悪いと語字脱字だらけだったり、全然わけわかんない日本語になってたりすると、もうそれ全部ゴミだし、それを元に何かコンテンツにしようとか考えたときに、修正する手間の方が余計にかかるよねってなると、なんかそれはあまり意味ないなって思ったりしますね。
なので、特定のちょっとニッチなものが好きな、というかトレンドものが好きなAI系インフルエンサーがポジショントークでそういうものを紹介、プロモーションで紹介していたりする程度であって、まだ一般のところでこれはすげえすげえっていう声が全然起こっていないっていうことを考えるとやっぱりゴミなんだろうなって思うわけです。