AIポッドキャストの概要
みなさんこんにちは、ロボシンクの矢野哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者、中級者向けに、AIを分かりやすく解説する番組です。
今回のテーマは、ポッドキャスターがAIポッドキャストを作った話し、について話していきます。
はい、ということで今日は、AIポッドキャストについて話していきます。 AIポッドキャスト、皆さんは聞いたことがありますでしょうか。
AIポッドキャストって言うと、最近出てきた単語なので定義っていうのはまだ曖昧だと思います。
基本的にはですね、AI音声によって制作されたポッドキャストを意味する言葉だと思います。
結構ですね、海外のポッドキャストでも、AI音声によって制作されたポッドキャストっていうのが出てきています。
日本でもAIポッドキャストっていうのは、ちらほら見るようになりました。 ニュース記事をAI音声が読み上げるニュースポッドキャストなどですね。
ちなみに私が運営するポッドキャスト、耳で学ぶAI、ロボシンクではですね、台本作成から収録、全て人間の手でやっています。
情報収集の部分だけAIを使っています。 あとはノイズ除去ですね。
ただ、私がポッドキャストで扱っているトピックっていうのがAI関連ということで、
AIポッドキャストのトピックっていうのは避けて通れないものっていうふうに以前から思っていました。
実験的なプロジェクトとしてですね、自分でAIポッドキャストを実際に作ってみました。
今回はですね、AIポッドキャストを作って得た知見やですね、感想、考えについて話していきたいと思います。
今日話すポイントは主に2つです。 AIポッドキャストで使われている技術、
AIポッドキャストにはどういった技術を使うのかという点ですね。 2つ目に、AIポッドキャストを作ってみた感想ですね。
使用技術の詳細
実際に私がAIポッドキャストを作ってみた感想っていうのを正直にですね、このポッドキャストで話したいと思います。
はい、では早速話していきたいと思います。 まずですね、最初に私が作ったAIポッドキャストをちょっと聞いてみましょうか。
ジャンルは語学学習となります。 英語リスニング向けのポッドキャストです。
台本から音声まですべてAIを使って制作しています。 ちょっと聞いてみますね。
皆さんこんにちは。リスニング系ポッドキャスト、隣のアメリカ人のエイデンです。 この番組は隣にアメリカ人が座っていて何か話しているというシチュエーションを再現した番組です。
会話を耳でインプットし、あなたのリスニングを強化していきますよ。 会話内容について質問をしますので、しっかり聞いてくださいね。
はい、いかがだったでしょうか。すべてフルAIボイスで作られた番組となります。
もともと作成した経緯としては、AIの技術を使ってポッドキャストでリスニングを行うことができるようになりました。
テクノロジー関連のニュースポッドキャストも最初は考えていました。 ただ、今回は語学学習のジャンルでAIポッドキャストを作ってみました。
次に、このAIポッドキャストで使われている技術の話をしたいと思います。
最初はクロードも考えていました。 でも実際に使ってみると、ちょっとクロードだと少し制御が難しかったんですね。
なので、GPT-4.0に落ち着きました。 実際に使ってみると、ちょっとクロードだと少し制御が難しかったんですね。
余談ですけど、先週オープンAAから発表がありましたね。 GPT-4.0がより自然な文章を生成するようにアップデートしたと。
で、あとファイルアップロードの処理性能というのも上がっているようです。
結構SNSでもチャットGPTの精度が上がった気がするという話も目にします。
機械的な文章の処理性能も上がっているようです。
機械的な文章からより人間的な文章を生成するようになったというふうに公式は説明しています。
はい、ですいません。話をAIポッドキャストに戻しますね。
英語の台本というのはGPT-4.0で作成をしました。
日本語の翻訳というのも台本に組み込んでいます。
これはですね、GPT-4.0 miniというモデルを使っています。
理由としてはAPIの料金が安いからですね。
このポッドキャストはすべてAPI経由で作成をしています。
なのでAPIのコストっていうのも外せない注目ポイントなんですね。
で、APIの安さだけで言うとですね、ここではDeepLのAPIも選択肢に上がっていました。
DeepL、翻訳ツールとして使った人も多いと思います。
で、APIの安さで言うとDeepLも選択肢になるんですけども、今回はChatGPTを選択しました。
理由としては直訳、日本語訳を直訳せずに、より自然な日本語訳にしたかったからですね。
今回のケースではふわっとした翻訳でOKなのでChatGPTを選択しました。
ただですね、英語の文章というのを忠実に翻訳をしたいときは、
DeepLが選択肢になると思います。
今回のケースではDeepLではなくてChatGPTを選択しました。
で、肝心の音声部分ですね。テキストから音声に変換するタスク。
今後の展望と課題
これはですね、OpenAIのTTSという技術を使っています。
TTS、Text-to-Speechの頭文字を取った略ですね。
TTS、Text-to-Speechの頭文字を取った略ですね。
テキストからスピーチを生成する技術となります。これを使っています。
全体のワークフローをプログラミングでコードを書いて実装しています。
最終的なチェックというのは人間の目と耳でやっているんですけども、
制作工程というのはほぼほぼ生成AIとプログラミングのコードだけで完結するようになっています。
実際にですね、AIポッドキャストを作ってみた感想としては、
作っている時は楽しかったですね。
AI音声の技術を比較したりですね、番組はどんな構成にしようとか色々悩んだり、
そういった時間も楽しかったですね。
ちょっとした文化祭前夜みたいな感じで作っている時っていうのは楽しかったです。
作っている時はですね。
公開してから約1ヶ月くらいでしょうか、
運営していくにつれてこんなことを考えるようになりました。
AIポッドキャスト、どうやって差別化していこうかと。
AIポッドキャストっていうと作るのは難しいイメージがあります。
ただですね、実は結構簡単に作れるんですね。
現時点においては、AIポッドキャストの番組っていうのは少ないです。
ただですね、今後AIポッドキャストの番組っていうのは増えてくると思います。
なぜなら作るのが簡単だからですね。
実際にGoogleのNotebook LMというツールがあります。
このNotebook LMでは新しい機能として、
ワンクリックでAIポッドキャストが作れる機能っていうのが実装されています。
以前このポッドキャストでも触れましたけども、
簡単にですね、AIが会話をし合うようなポッドキャストっていうのが作れるようになっています。
これはですね、まだ英語版のポッドキャストしか作れないんですね。
ただ、おそらく先で日本語版も対応してくると思います。
あとはですね、このNotebook LM以外でも、
AIポッドキャストが作れるサービスっていうのはいろいろ登場してきています。
なので、AIポッドキャストを作れるっていうことは、別にアドバンテージでもなんでもないんですね。
で、あの、AIポッドキャストが誰でも作れるようになっている時代に、
どうやって差別化をしようかっていう問題が出てきます。
ちなみに私はですね、これに対しての答えっていうのは見つけることができていません。
いろいろ考えはあります。
こんな番組構成にしたらリスナーは聞きやすいだろうとかですね。
こんな動線にしたらリスナーは使いやすいのではっていうですね。
いろいろ考えはあるのはあります。
ただですね、これがその差別化につながるかと言われたら、うーんって思うわけですね。
確かに、AIポッドキャストによってですね、制作にかかる時間っていうのはかなり短くなります。
私ですね、この今のポッドキャストですね、耳で学ぶAIのポッドキャスト、
結構制作に時間がかかってるんですね。
手動でやってる部分が多いので。
で、これがですね、AIポッドキャストになると台本作成から音声の収録、
全てAIがやるので、作業時間っていうのはかなり短くなります。
で、今はですね、APIの料金も安いので、1エピソードにかかるコストっていうのもとても安いです。
こうしたものは一見ですね、AIポッドキャストのメリットのように感じます。
非常に短い時間と安いコストで、AIのポッドキャストを作れると。
ただそれはですね、裏を返すと他の人も同じことができるわけですね。
なので、別にその点っていうのはアドバンテージにならないと思うんですね。
制作時間が短い、コストが安いっていうのはですね。
で、実際どうでしょうか。これってポッドキャストだけの話でもないですよね。
コンテンツ生成と差別化の難しさ
音楽生成AIや動画生成AI、画像生成AI、いろいろなものがあります。
で、こうしたものを使えば少ない制作費と時間でコンテンツが作れるようになると。
ただこれはですね、裏を返すとみんな同じようにコンテンツを作れるという話でもあります。
で、そうした時に他とどうやって差別化をしていくのかっていうことがですね、
結局はAIコンテンツの中で一番重要になってくるんじゃないのかなと思ったりします。
で、その差別化の部分を担うのはですね、AIではなくて結局は人間じゃないのかなと思うわけですね。
これに対して皆さんはどう感じますでしょうか。
世の中には3タイプのコンテンツがあると言われています。
テキスト、動画、音声ですね。
テキストはブログであったりとかオウンドメディアですね。
動画はYouTubeとかYouTubeショートとかですね。
音声はポッドキャストや音楽とかですね。
どれもですね、AIを使えば今の時代簡単に作れるようになっています。
クオリティは一旦脇においてですね。一旦脇において話すと、
どれもAIを使えば誰でも簡単に作れるようになっています。
特にテキストなんかは一番すごくて、結構AIが生成したテキストコンテンツっていうのは私たちが思っている以上に溢れています。
で、近い将来ですね、AIが作ったコンテンツが溢れるような時代になると、
すでに今も溢れていますが、より溢れる時代になると。
そうした時に差別化をするのってかなり難しいと思うんですよね。
今も似たようなコンテンツっていうのはたくさんあります。
ただ先では、もっと同じようなコンテンツが溢れる世の中になる可能性は高いと。
で、AIが制作したコンテンツが溢れるような時代になると、こんなことが起きる可能性はあると思いませんか。
人間が作ったコンテンツが逆に価値が出てくると。
前にネット記事だったかな、ちょっと面白い話がありまして、
人間の独自性の重要性
オープンAIの社長いますよね、サム・アルトマン。
サム・アルトマンが別でやっているプロジェクトで、ワールドコインというものがあります。
最近はワールドに名前を変えたんですかね。
簡単に言うとですね、ワールドコインの目的っていうのは、
すべての人々にグローバルなデジタル通貨と、
あとはIDを提供することを目的としているプロジェクトですね。
このIDの付与方法というのが結構面白いんですけど、目の光彩をスキャンするんですよね。
目の光彩っていうのは、何て言ったらいいですかね、
虹彩るって書いて光彩って読むんですけど、
それぞれの目の中の瞳の色であったりとか模様っていうのは、
指紋のようにその人独特のユニークな特徴らしいんですね。
確か指紋とか、あとは顔認証、
それよりも目の光彩認証の方がセキュリティは高いと。
なのでこのワールドコインでは目の光彩認証っていうのが採用されているんですけど、
オーブって呼ばれるボールみたいな専用のデバイスがあるんですね。
そこに目を近づけて目の光彩をスキャンすると。
それでワールドコインの登録が完了してIDが付与されると。
日本だと東京と大阪と名古屋、あとは福岡ですかね、にオーブが設置されているようです。
こういったワールドコインっていうプロジェクトがあるんですね。
これが出始めた時にですね、面白い考察がありまして、
ちょっと元吉忘れちゃったんですけど、光彩認証で登録するっていう作業は、
人間であることを証明する作業だと。
なんでこういうことをするかっていうと、将来AIを搭載したロボットがたくさん登場してくると。
よくSF映画とかであるアンドロイドみたいなものですね。
そういったアンドロイド、ロボットがたくさんこの世の中に溢れるようになった時に、
人間であることが一つのユニークポイントになると、という話があるわけですね。
人口よりもロボットの方が多いと。
そんな時代に突入したら、人間であることの証明っていうのが重要視されるようになると。
SFみたいな話なんですけども、そういった話を聞いて、
確かにそういう可能性もあるのかなと、ちょっと考えさせられました。
コンテンツに話を戻すと、ロボットよりも現実的な話だと思います。
すでにAIが作成したコンテンツっていうのは、インターネット上にたくさん溢れています。
YouTubeとかもすごいですよね。
このままの勢いでAI作成のコンテンツが増えていくと考えるとですね、
人間が作ったコンテンツの価値っていうのが相対的に高まる。
そんな話もですね、あり得るのかなと思ったりします。
実際はですね、AIをうまく活用して、そこに人間の独自性とかセンスとか、
そういったものをうまく盛り込んだコンテンツっていうのが支持されると思います。
無条件に人間が作ったコンテンツっていうだけで評価されることはないと思います。
ただ、AIと人間の良い部分を組み合わせたコンテンツっていうのが支持されてくるのかなと思います。
それほどコンテンツ制作の分野にAIっていうのは入り込んできていますし、
この流れっていうのは止まらないと思います。
画像であったり動画であったり、あとはポッドキャストのような音声もですね。
今回、AIポッドキャストを作ってみましたけど、実験的な試みとしてスタートしました。
今後どうなっていくのかっていうのは正直ですね、ちょっと予想ができない部分があります。
AIで簡単にコンテンツを作れると、なんていうと聞こえはいいんです。
ただですね、実際にやってみた感想としては別の悩みも出てきたぞというのが正直な感想です。
差別化をどうするかという別の悩みが生まれました。
それであるならばですね、巡り巡って人間が作ったコンテンツの方が
差別化とか独自の戦略を取りやすいのかなぁと考えたりもします。
結局ですね、人間の手でやった方が早いのではと考えたりもしました。
AIポッドキャストの文脈においてはですね。
AIポッドキャストのリンクは概要欄に貼っておきますので、興味のある方は覗いてみてください。
はい、今日はこの辺ということで、本日も聞いていただきありがとうございました。
番組ではこのように耳で学べるAIを毎週発信しています。
通勤中や家事の合間にAI情報をキャッチアップできます。
毎週水曜朝に更新していますので是非フォローをお願いします。
また、生成AIの最新情報や知見をお届けするニュースレターも配信していますので、こちらも是非概要欄にリンクを貼っておきます。
お相手はロボシンクの矢野てっぺいでした。また次の配信でお会いしましょう。