1. おちつきAIラジオ
  2. ポッドキャスター失業の危機!?..
2026-02-20 1:07:09

ポッドキャスター失業の危機!?音声生成AI ElevenLabsの実力と、AI時代の対談の真価(ep.45)

spotify apple_podcasts

今回の深掘りテーマは「AI音声生成の進化」。かつては自分の声のAIを作るのに何時間も原稿を読み上げる必要がありましたが、今やたった10秒のデータで人間の声を完コピできてしまう驚きの現在地へと到達しています。番組序盤では、本物のしぶちょーとAIボイスを聞き分けるガチンコクイズを実施!かねりんも見事に騙されてしまったその恐るべきクオリティは必聴です。さらに、お馴染みのゆっくりボイスから最先端ツール「ElevenLabs」に至るまでの技術的な進化や、声の権利に関するディープフェイクの脅威についてもやさしく解説しています。AIが流暢に喋り、ポッドキャストすら自動生成できてしまう時代に、あえて人間がマイクに向かう「対談」の価値はどこにあるのか?テクノロジーの光と影を見つめながら、おちついて一緒に考えてみましょう。

【目次】

() オープニング:日々のAIニュースにおちつきを

() 今日のテーマ「なぜAI音声生成はこれほど進化したのか?」

() 【クイズ】どっちがAI?本物のしぶちょーの声を当てろ!

() 音声合成の歴史:ゆっくりボイスからWaveNetへの進化

() 音声生成のパラダイムシフト:波形予測から言語モデルへ

() 最新ツール「ElevenLabs」の紹介と驚きの機能

() 声の権利とディープフェイク:AIボイスを使った詐欺の脅威

() AIが完璧に喋る時代、ポッドキャストと対談の真の価値

() 幻のボツ回をリベンジ?AIかねりん生成計画の幕開け

() エンディング:おちついて過ごしていきましょう

【今回の放送回に関連するリンク】

ElevenLabs

https://elevenlabs.io/ja

WaveNet

https://deepmind.google/research/wavenet/

WALL-E

https://www.microsoft.com/en-us/research/project/vall-e-x/

【今回の要チェックキーワード】

メルスペクトログラム(Mel-spectrogram):音声を「時間×周波数の強さ」の画像的表現に変換し、周波数軸を人間の聴覚に近いメル尺度にした特徴量である。多くのTTSで中間表現として使われ、テキスト→メル→波形という二段構えの構成を作りやすい。

 Neural Audio Codec(ニューラル音声コーデック):音声を連続値の波形ではなく、離散的なトークン列へ圧縮(エンコード)し、そこから復元(デコード)する仕組みである。音声をトークン化できると、生成モデルを「言語モデル的」に設計しやすくなる。

 Codec Language Model(音声トークンの言語モデル):ニューラル音声コーデックが作った「音声トークン列」を生成するモデルである。テキスト生成のLLMが単語トークン列を出すのと同様に、音声トークン列を出して音声を作る枠組みであり、ゼロショット音声合成や音声変換の基盤になり得る。

WaveNet:音声波形をサンプル単位で逐次生成するニューラル生成モデルの代表例である。高品質化に寄与した一方、逐次生成は計算コストが高く、後続研究では高速化(並列生成・軽量ボコーダ)へ発展していった。


ElevenLabs:AI音声合成および音声生成技術を提供する企業である。自然なイントネーションや感情表現を重視したニューラルTTS(Text-to-Speech)を主力とし、少量の音声サンプルから特定話者の声を再現する「音声クローニング」機能で注目を集めた。

WALL-E:音声を“トークン列”として扱い、言語モデルのように次トークン予測で音声を生成する「Neural Codec Language Model(神経コーデック言語モデル)」である。

—----------------------------

【この番組への参加方法】

おちつかないXポストを見かけたときは?

→気になるXポストのリプ欄に

@ochitsuki_AI

#おちつきAI

をつけて下さい。

しぶちょー&かねりんが直接見に行き、手動判定します(配信ネタにもします)

判定結果は、公式Xアカウントの引用ポストで、

☕️:怪しい。注意が必要なポスト。

🍵:安心して読んでいいポスト。

【番組の概要】

日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。

★ご感想やコメントは、番組公式ハッシュタグをつけてX(旧Twitter)でポストしていただけるとありがたいです。

【番組公式 ChatGPTチャットグループ】

https://chatgpt.com/gg/v/691b48555b8481a3a24cb14ea712ab3d?token=-JYncy7OaplgoZBg1Bgh2A

【番組公式ハッシュタグ】

#おちつきAI

【番組公式X】

https://x.com/ochitsuki_AI

【公式ツール】

・おちつきAI RAG

https://ochitsuki-airag.com/

・GPTチャット

https://chatgpt.com/gg/v/691b48555b8481a3a24cb14ea712ab3d?token=-JYncy7OaplgoZBg1Bgh2A

【パーソナリティ(MC)】

▼しぶちょー

・AIエンジニア

・技術士(機械部門) 

「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI(ディープラーニング)の実装スキルを証明する「E資格」を保有。機械(ハードウェア)への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞 審査員特別賞を受賞。著書に『集まれ設計1年生 はじめての締結設計』(日刊工業新聞社)。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海 共同代表も務める。」

https://x.com/sibucho_labo

https://voicy.jp/channel/3963

▼かねりん(金田勇太)

・KANERIN Podcast Studios 代表

・一般社団法人 地方WEB3連携協会 理事

「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。多様なパートナーと共に、未来へつなぐ声の原典を共創している。」

https://x.com/kanerinx

https://voicy.jp/channel/2534

【プロデューサー】

かねりん https://x.com/kanerinx

【サウンド・アーキテクト】

Aviv Haruta https://x.com/oji_pal

【カバーアートデザイン】

UTA https://x.com/uta_dib

【制作/著作】

KANERIN Podcast Studios

--------------------------------------------------

※画像引用元:https://www.arbaaa.com/ai-tools-101-step-by-step-elevenlabs-guide-to-create-realistic-ai-voices-more-2/

【各種ポッドキャストスタンドへのリンク】

Spotify

https://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2o

Apple Podcast

https://podcasts.apple.com/us/podcast/id1841316430

Amazon Music

https://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/

YouTube

https://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCD

LISTEN

https://listen.style/p/ochitsukiai

サマリー

今回のエピソードでは、AI音声生成技術の驚異的な進化に焦点を当て、ポッドキャスターが直面する「失業の危機」について深く掘り下げています。かつては数時間の音声データが必要だった声のクローン作成が、現在ではわずか10秒のサンプルで可能になるという現状が紹介されました。番組冒頭では、しぶちょーのAI音声と本物の声を聞き分けるクイズが行われ、その高いクオリティにカネリンも騙されるほどでした。 音声合成の歴史は、ゆっくりボイスのような断片をつなぎ合わせる方式から、WaveNetによる波形生成、そしてVALL-Eに代表される言語モデルを用いた音声トークン生成へと進化してきました。このパラダイムシフトにより、大量の学習データなしに、短い音声サンプルから特定の声色やニュアンスを再現できるようになっています。最新ツール「ElevenLabs」の紹介では、その高度な音声クローン機能や商用利用の可能性が語られる一方で、声の権利に関する法的保護の欠如や、AIボイスを使ったディープフェイク詐欺の脅威といった倫理的な問題も提起されました。 AIが完璧に話す時代において、人間がマイクに向かい合う「対談」の真の価値とは何か、そして一人語りポッドキャストの未来についても考察。最終的には、AIカネリン生成計画という形で、AI技術を番組制作に活用する可能性についても触れ、テクノロジーの光と影を冷静に見つめる回となりました。

オープニング&AI音声生成の現状
おちつきAI
おちつきAI
おちつきAI
AIエンジニアのしぶちょーです。
AI素人のかねりんです。この番組は、日々のAIニュースで驚き疲れたあなたに、ゆっくりじっくりAIを学んで落ち着いていただく番組です。
はい、ということで始まりました。おちつきAIラジオ、毎週金曜日の深掘り回です。早速本題に行きたいと思います。
今日のテーマはこちら。
なぜAI音声生成はこれほどまでに進化したのか?でございます。
はいよ。
AI音声生成のお話です。我々ポッドキャスターとしても見過ごせない話題ですね。
ほんとそうだよ。どれくらいの現在値なのか知りたいな。
AIが音声を生成してしまうと。そのままだったけどね、AI音声生成ってのは人の声をAIで生成しましょうよと。そういう技術なんですね。
結構これって割と身近というか、ツールとして広がっていたので、遊んだこともある人もいるかもしれないんだけど、
生成AIの時代よりも、ちょっと前に流行っていたのは、おしゃべりひろゆきメーカーって知ってる?
よくTikTokとかで喋ってるひろゆき?
そう、西村ひろゆきさんの声が、誰でもテキスト入れたら西村ひろゆきが喋ってるみたいな。
あれあるじゃん。
あるね。
あれが結構走りというか、話題になったのが走りなのね、音声生成って。
あれってかなり、もう本当に西村ひろゆき言いそうなこと言えれば、
それってあなたの感想ですよねみたいなやつ、すごいクオリティ高くさ、言ってくれると。
そうね。
で、あれ出たのがさ、2022年の9月とかなのね。
そんなか。結構早いね。
早い。だからチャットGPT出るより前に出てたのよ。
あ、そうか。そんな時音声生成AIあったんだ。
そう、あって、結構AIってすごいよねみたいな。
ちょうどスティーブルディフュージョンとかも流行ってて、画像も作れるし西村ひろゆきも作れるみたいな。
謎のなんか、なんで画像と西村ひろゆきが作れるんだみたいなね。
魔法が現れたみたいな。
そうそう、そんな時代だったのよ。
オープンAIの前にそんなのあったんだ。
そう、すごくね、もう結構話題になってたし、それなりにみんな使ったこともあるよって人がいると思う。
そういう技術なのね。
で、僕も使ったことあるのよ。自分の音声作ろうと思って。
自分の声のね。
そう。めちゃくちゃ大変なんだよね。
大変なの?
大変。
自分の声提供するのが?
そう。で、自分の声だけじゃなくて、テキストが現れるのよ。作ろうと思ったら。
なんかこう、早口言葉じゃないけどさ、こういう文章を読んでくださいってテキストが現れて、それを読む。
で、それが一個のデータになって、登録されて。
原稿読まされる感じね。
そう。多分西村ひろゆきメーカーレベルのものを作ろうと思ったら、多分8時間とか10時間分くらいの音声がいるのよ。
そんなにいるんだ。
めちゃくちゃいるの。
へぇー、それ無理だな。
そう、俺無理だと思って。一番軽いプランで作ってみたんだけど、それでも2、3時間読むのよ。
それでも2、3時間?
そう。
だるい。
2、3時間読んで、ほんと国語の音読みたいなやつをずーっとして、うわーっと思ってできたのが、それもPodcastに使ったことあるんだけど、
へぇー、うん。
まあまあ微妙なのよ。
微妙なんだ。
まあまあ微妙。
声は似てんの?
やっかん似てる。なんだけど、
完璧じゃない?
ちょっと、全然完璧じゃない。
若干2時間半、3時間頑張ってこれ、まあこれか、でも使えなくはないなーぐらいのが2年前ぐらいだったんだけど、今は全然そうじゃないですよ。
アリー、精度上がった?
10秒。
10秒?
10秒。
適当じゃん、そんなの。
10秒あったら、結構その人の声が生成できてしまうんですね。
へぇー。
だってさ、ソラとかさ、動画生成で、なんかアニメのさ、声とかも再現してるじゃん。
あ、そうなの?
そのー、ルフィの声とかさ、ナルトの声とかさ、なんかドラえもんの声とか、そのー、まあ完全にちょっとね、著作権は一旦無視して、
そういうものを生成すると、喋るのよ、ちゃんと。
へぇー。
セリフをね。
それはなんかもう膨大なデータ読み込んでるからとかじゃないの?
いやそう、まさにそうなんだけど、そこの結構技術が面白くて、じゃあどういうことが起こってるのかっていうのを、今日は知ってもらう回でございます。
はいはい。
AI音声クイズ:しぶちょーの声を見破れ!
ですが、まあこれでね、じゃあ音声先生なんぞやみたいな質問、あのー説明をしていってもいいんですけど、
ここからちょっと問題形式で。
あ、そう。
問題形式とかちょっと問題出します。
これさ、何?今日これ聞いたら何?みんな使えるの?その10秒で自分の声やってさ。
うん、使える。使えるというか、そういうものを最終的には紹介します。
あ、そう。
ちょっとお金かかるけど。
あ、お金かかる?
サブスク、サブスクはかかるんです。
でもそれさ、何?ポッドキャストで読ませても使えちゃうぐらいの感じ?
それを今から判断してもらいましょうというのがこのクイズでございます。
はいはい。
さあこちら、今からどっちが支部長でしょう?
あ、何?音?
始まります、はい。
音聞こえんの?これ。
私が作ってきた音声AI支部長と私が収録した音源がありますんで、
カネリンに2つを聞いてもらって、どっちがAIかどっちが支部長カネの判断してもらいます。
外した場合は、えーともう解散ですね、はい。
マジ?
AIの、でもAIだから。
しっかり聞くわ。
明らかに、まあAIの支部長と、
うん。
あ、でもあれちょっとね、カネリンにMP3を今から渡すから。
あ、はい。
これを再生してもらうと。
はいはい。
で、ちょっとあの音源の方にはね、それちょっと貼っ付けてもらって。
OKOK。
はい、編集してくださいというものです。
OK。
今からAとB2つの音声を、
うん。
ディスコードでカネリンに送るんで、
はい。
聞いてみてくださいと。
あ、自分でね。
はい。
ほいよ。
それではまずA。
はい。
A流します。
はい。
どうも、支部長です。
今週も落ち着きAIラジオやっていきましょう。
今日のテーマはこちら。
なぜAI音声生成はこれほど進化したのか。
うぉーい。
うぉーい。
Bいきますよ。
はい。
どうも、支部長です。
今週も落ち着きAIラジオやっていきましょう。
今日のテーマはこちら。
なぜAI音声はこれほど進化したのか。
ちょっと待って、ちょっと待って。
うん。
もう一回聞いていい?
いいよ。
どうも、支部長です。
今週も落ち着きAIラジオやっていきましょう。
今日のテーマはこちら。
なぜAI音声生成はこれほど進化したのか。
今、Aもう一回聞いた。
Bいくよ。
はい。
どうも、支部長です。
今週も落ち着きAIラジオやっていきましょう。今日のテーマはこちら。なぜAI音声はこれほど進化したのか
ちょっと待って、ちょ待って。はい。両方AI。両方AIです。違います。どっちかがAIでどっちかが。マジで言ってる?はい。支部長です。
であればBがAIかな。正解はAがAIです。マジで?
はい。落ち着きAI記憶で終わります。ありがとうございました皆さん。マジ?はい。 え?ちょっと待ってよ。おいおいカネリン。わざとやってるでしょ。なんかAIっぽく喋ってるでしょ。
Bはちょっと俺がAIっぽく若干喋ってはいる。そういうのはなしだよ。いやでも。ちょっともう一回聞くよ。
どうも支部長です。今週も落ち着きAIラジオやっていきましょう。今日のテーマはこちら。なぜAI音声生成はこれほど進化したのか
もうさAでさ違和感があるのはさ今日のテーマはってところがさ。テーマでしょテーマ。今日のテーマって言ってるところしか違和感ないもん。
そうでしょ。B行くよ。うん。どうも支部長です。今週も落ち着きAIラジオやっていきましょう。今日のテーマはこちら。なぜAI音声はこれほど進化したのか。
まあでんまーとか言ってんじゃん。ハイアウトだよこれ。それはでんまーって言わないもん支部長は。
いやこれ寄せたの。寄せた。ちょっとAIには寄せてる俺はね。喋り方はね。いやいやいや。この寄せられたらもうあなた。いやいや。でも寄せてわかんなくなるってやばくない?
まあそうだね。そうだね。AIに生成した音声がやばくない?そうだからAですって言われてもテーマぐらいしか違和感ないよ。でしょ。言われなかったらもうスルーだよね。
このクオリティ。まあちょっとこれはその2使ってる2の中でもちょっとハイクオリティのやつでやってはいるんだけどこのぐらいのものが簡単に生成学習できてしまうと。
そのぐらいのクオリティのものができちゃうのよこれが。しかもこれはそのテキスト2スピークって言ってTTSって言うんだけどそのテキストを書いてどうも支部長ですと落ち着きAIラジオやっていきたいと思いますみたいなテキスト書いてそのまま読ませてるだけだから。
なんでこのぐらいのクオリティのものがパッとできちゃうし変換とかもできるのなんか例えばカネリが喋って俺のこの学習したモデルを使ったらカネリが喋った声を俺の声で上書きするみたいなこともできて結構ねすごいクオリティなんですよ。
じゃあ喋ってる人をすっかり入れ替えれるってこと? そう。 じゃあ俺と支部長入れ替えできるってこと? 入れ替えもねできると思う。 へえ。喋ってる音源とだけ提供すれば。 深井そう。
ほわぁ。 そういうこともできるような時代になってきてしまっているんですよ。これやばくない?俺もねキモって思ったもん。
これやばいな。 やばいでしょ。 もうだって人が喋ってるものは勝つみたいなこと言ってんじゃん。AIに勝つのはトークだみたいな。 そう。言ってるけど。 負けとるやん。負けた。今日。
もうね。見分けられない。 見分けられない。 俺の声を散々生というかね、こうやって対談で聞いてるカネリンが、ちょっと俺がAIに寄せただけで、どっちがAIかもわからなくなると。
ほんとそうだよ。 そのぐらいのクオリティのものが。 AIに寄せられるのはちょっと卑怯だったけど。 いやちょっと面白くしようかなと思って。頑張ったやつ。普段言わないような、どうも支部長ですみたいな。高めに出してみたいとかね。
でもそのね、チューニングでわかんなくなるのヤバいでしょ。これはね、結構な、10秒じゃない。これはね結構な量を学習させてる。
ああそう、これは10秒じゃないんだ。 10秒じゃない。ただ結構な量なんだけど、正解データみたいな。テキストと与えてるわけじゃなくて、ただ俺が雑に喋った時間。
そのポッドキャストとかの収録音源をそのままボンって入れてるだけ。それだけでこのぐらいのものができる。ちなみに10秒のやつもある。10秒のやつは無料でできるやつだったからすごくクオリティが低いんだけど、一応10秒のやつも聞いてみる。
聞いてみよう。 この後聞くとなんかしょぼってなるんだけど、10秒だとこんぐらいだねみたいな感じだね。これが10秒。 10秒バージョンね。
10秒バージョンは全然ダメよ。 10秒バージョン音声C。 Cです。
再生しまーす。
どうも、渋長です。今週も落ち着きAIラジオやっていきましょう。今日のテーマはこちら。なぜAI音声生成はこれほど進化したのか?
うん。これは全然だな。ノートブックLMみたい。 そうでしょ。ただまあなんかちょっと声の質としては近いとこ行ってるよねみたいな。これは本当に10秒ぐらいの。
10秒だとこのレベルってことか。 そう。10秒でお金かかんないようなしょぼいやつでやるとこのぐらいのレベルなんだけど。それでもこの10秒のクオリティが、俺が2時間とか3時間かけて作ったモデルのクオリティよりも若干高いぐらい。
ああそうなんだ。最初のA、Bは何時間ぐらいって言ってたっけ?
これね、あのポッドキャスト2本分だから俺の。2時間ぐらい俺が適当に喋ってるやつを。
それをバーンてぶち込んだの? ぶち込んだだけ。 へーなるほど。あ、それも原稿読まなくていいんだ。
読まなくていい。だからカネリンとかも正直最初カネリンのやつで作ろうかと思ったもん。 おーなるほど。いいねそれ。
カネリンの声2時間入れて、入れれるじゃん別にいくらでも喋ってるからさ。 そうだね勝手に入れられちゃうね。
勝手に入れてさ、なんか被害のことでも喋らせてやろうかと思ったけど、ちょっとあの倫理的にあれだなってやめました。
それでもう見分けつかないレベルまで来てるってことだね要するに。
そう。このぐらいのものがパンとできてしまうと。 まずこの事実を知ってもらおうかなと思ってこの問題をやったんだけど。
知らしめられましたね。
知らしめられたでしょ。でも俺まさかカネリンが正解できないと思わなかったわ。
最悪だなマジでこれ。最悪。
いや意外だなって思ったのさ、前さ落ち着き、あの作法会かなんかでさ、動画でさ、どっちがAIでどっちが実写かみたいなやつ結構正解してたじゃん。
した。
なんかその神秘感というか、なんか見抜く力めっちゃあんなカネリンって思ってたけど、思い込みでした僕の。
ちょっとやめて、なんかちょっと商売に響くんで。その前情報がね、ちょっと前提情報が欠けていたんでね。
そうね、ちょっとね、あの引っ掛けはあったからね正直ね。でも頑張って、何回収録したかこのAIっぽい。
AIっぽく喋るやつ。
AIっぽく。でわざとちょっと間を切ったりしてさ。
今回で証明されたことって俺の神秘感とかじゃなくて、支部長のAIに寄せる技術が高まったってことだね。
そう、散々聞いてね。
そこですよ。
もうインストールしたもんだって。そんなインストールするかってさ。
そこのさ、基準点がずらされたらさ、何にもクイズになってないってことに気づいて。
いやいやいや、そんなことはないよやっぱ。そうやって俺がAIに寄せたけど、やっぱAIはもうわかるよっていう。そこよ。そこが知りたかった。
あ、そう。
いやいやいや、こんなんわかるからっつって。それだけ逆にでもやっぱね、リアルにできてしまうと。多分相当リアルだと思うね。
声の感じと喋り方も、テマーのところ以外は何にも特にスーッと聞けた。
スーッと聞けたでしょ。なんか恐ろしいなと思って。気づかないよね。普通にさ、俺が配信の一部をAIでやってたとしても、気づかないレベル。
気づかんね、あれは。
だからね、こういうサービスが普通に使える時代になってますよというところで、このサービス何なのかっていうのは後で紹介するんだけど、最初にちょっとここからちょっとお勉強ゾーンというか、軽くね、今日は話していこうと思うんだけど。
音声合成技術の歴史と進化
音声生成の歴史と、なんでこんな10秒とか、今までの苦労がなく音声が生成できるようになったのかと。その仕組みの話をちょっとしたいなと思ってて。
まず、もともと従来の音声合成みたいなものってどういうものだったかっていうと、結構これも有名なんだけどゆっくり実況みたいなさ。
はいはいはいはいはい。
あるじゃない。棒読みちゃんね。
それなー。わらわらーってやつね。
そう、わらわらわらーみたいなさ。ニコニコ生放送とかでコメント読み上げるような。ああいうのあったじゃん。
何言ってんだお前。
うまいうまいうまいうまい。ラメーみたいなやつね。
はいはいはい。それが何?あれAIなの?
あれはAIじゃないんだけど、音声合成。だから音声をテキストから音声を作るっていうのの結構走り。
で、あれって何やってるかって言ったら、もう登録された音声の断片みたいなものをつなぎ合わせてるのね。
タイプライターみたいなもんか。
そう。なんかもう断片と断片がつないでるからそのつなぎ目がすごく不自然に聞こえたりとか、
なんかそのうまく音程が普通の発音とは違うような感じにして滑らかさに欠けるような。
なんかもうあれがでも頭に染み付いちゃってるよね。
そうなんだよね。
世代的なやつ?
あれがすごい面白いなと思うのは、全然さまだゆっくり実況って淘汰されてないわけよ。
ああそうだね。今でもさ。
コンテンツとしてあるじゃん。
見れるもん。
そう見れるし。
見える。
あれ聞きすぎて聞けるような体になってんだよ我々はね。
そうだな。世代的になんじゃこれって聞けねえよって人もいるのかな。
絶対いると思う。世代的に何これって。結構ある程度上の人とか。
逆に若い人。
ある程度下の人。ニコニコ動画世代じゃない人は何これってなってる人もいるかもしれないんだけど、やっぱこのゆっくりボイスと知られているね。
そうか。
あれはね、あれアクエスっていう会社がやってるんだけど、アクエスとか株式会社アクエストってところが改正しているアクエストークっていうものなのよ。中身はね。
昔からずっとあるの?
昔からずっとあるし、今も使われているのは、そのなんか馴染みして始まれてるっていうのもあるんだけど、めっちゃ軽量なんだよねあれって。
変わりそう。
早い。とにかく。リアルタイムで音声合成するのがむちゃくちゃ早いから。
あのゆっくり実況?
そう。だからそのコメント読むとかにもすごく使われてる。まだまだ全然実用されてる技術ではあるんだけど、まあまあ人間の声ではないよねと。
そうだね、ロボットだよね。アクエストっていう会社は何十年も進化してないんですか?この会社は。
いやでもね、軽量にしたりとか、ゆっくりボイス以外もいっぱいやってはいるみたい。だからあれは文化としてすごく馴染み深いから、別にあれが急に滑らかに喋りだすってことはなくて。
滑らかに喋ったら需要なくなりそうだよね。
そう、あの形が大事じゃん。ゆっくりボイスのね。で、音声合成ってそういう。
頭流れてくるもんな。
あれすごいよね。
何言ってんだお前。わらわらわら。だめだろそれ。
ゆっくりして言ってねーみたいな。いやあれ全然見るからね、ゆっくりボイスの動画。今でも見る。
うんうん。
まあそういうものだったので、最初はね。あれも結局断片、音の断片をつなぎ合わせるような方式で音声合成をしていたというのがあると。で、天気が訪れたのは2016年。
はい。
ここでウェーブネットっていうですね、ディープラーニングを使った音声合成のそういうモデルが出ると。これディープマインドが作ったんだけど。
ディープマインドなんだっけ。
あのGoogleに今買収されたんだけど、もともとあの将棋のさ。
はいはい。
AIアルファ語とか作ったところだよね。
アルファ語系のやつ。
で、ディープマインドのウェーブネットって何をしたかっていうと、音声そのものを生成するようなモデルなのでそれは。
音声そのもの。
だからさ、音声をつなぎ合わせて音を作るんじゃなくて、何もないところから音声自体を生成できるっていうAI。そういうものが出てきたんですよ。
はいはいはいはい。
それは何をしてるかっていうと、次の波形の形を予想していくっていう感じだよね。
波形の形か。
そう、音声の波形あるじゃん。
なるほど。
われわれもうね、親の顔より見てるかもしれない。ポッドキャスターがね。
ほんとそうだよね。
あの波形あるじゃない。
波形しか見てないよ。
そうそうそう。波形見て、ここで俺フィラー言ってんなみたいな波形の形でフィラーがわかるみたいなさ。そのくらいになってくるじゃん。
うんうん。
ポッドキャスターやってるとね。
そうね。
そういう波形の、前の波形から次の波形の形を予想するみたいな。そういうモデルなんだよねこれって。
それをその人の声に合わせて学習して、この人の声だとこの波形の形で次これだよねっていうのを予想してくれるみたいな。こういうモデルが出たと。
なるほどね。
これによって人の声を生成できるようになったのね。
はいはいはい。
ちょっとかなりざっくりした説明なんだけど、ただこれすごく人の声を作れる。だからつまり西村ひろゆきの声もこれでできてるんだけど大体。
ウェーブネットの仕組みでできてるんだけど、何が良くなかったかっていうと、めっちゃ大量のデータが必要なのね。
さっきのあれ8時間分とか?
そう結局テキストから音声を生成するんで、そのテキストと対になった音声がまずいるよねと。
じゃあ全部ああいう絵を描く傾向みたいなのが全部いるってこと?
そうそうあらゆるパターンのああいう絵を描く傾向だけだと、結局さああって書いたらこのああだよねっていう一致になっちゃうじゃん。
じゃなくてもっと言葉ってさこの言葉の後はこれが来るよねとかさ発音の流れっていうのがあるじゃない。
それを大量のデータから学習してるわけ。この人の声色の場合はこういう波形になるよねっていうのを全部学習したデータが大量にないとその人っぽい声作れないと。
波形なんだ。
そう波形をとにかくその前の時系列の流れから予想するという学習なんだけど、
これまずすごいデータがいるしすごい学習時間かかるっていうリスクもあるし、あとやっぱ科学習っていう問題もあって。
科学習、学習しすぎる?
そう、学習しすぎてフィッティングしすぎちゃうと精度が逆に出なくなると。
えーなにそれなんで。
これはねちょっとまたG検定お勉強会とかで。
あーG検定のネタこれ。
結構出てくる科学習ね、オーバーフィッティングって言うんだけど、AIでよくよく出てくる。
学習しすぎて、例えるならばテスト勉強をしすぎて、もしの内容にしか特化できなくなっちゃうみたいな。
他の応用が効かなくなっちゃうみたいなね。
もしの勉強を一冊のドリルでしすぎた結果、そのドリルの内容を全部覚えちゃって、
そのドリルを解くにはめっちゃ得意になるけど、じゃあ次違うものを持ってきた時に全然解けないみたいな。
応用できないみたいな。
そう、一問目は答えが2だなっていう風に覚えちゃうみたいな。解き方じゃなくて。
なんか人間ぽいじゃんなんかそれ。
これ科学習って言うんだよ。
丸暗記しちゃってみたいな。
丸暗記しちゃう、そう。丸暗記して反過性能って言って、他のタスクに用いた時に全然精度が出ない。
それだけに特化してしまう。学習しすぎるとそういうことが起こるのね、AIって。
この科学習を時系列データ、横軸に時間軸を持ってるようなデータって結構科学習起こしやすいっていう特性があって、
だからそうやって学習が崩壊していくっていうリスクもあると。学習は難しいよねと。
なるほど。
っていうのもあるのと、あと一番の問題は転移ができないと。
転移。
だからカネリンボイスを作るとするじゃない。そのカネリンボイスとして学習した結果を
支部長ボイスに転用できるかというとできないのね。それはもうカネリンボイス用のモデルになっちゃう。
他の何にも使えないカネリンのためのモデルになってしまうと。
だからそれ人それぞれすごい大量のデータを使ってその人の声を学習していかないといけないと。
こういう問題があったので結構音声を作るのって、その人のすごく大量の音声のデータがないと近づけないっていうので、
なかなか難しかったと。それこそ8時間とか12時間ぐらい喋りっぱなしで文字を読んでいっぱいデータを貯めていかないと、
西村裕之ボイスみたいなやつが作れなかった。
なるほどね。
これが2016年。それの人っぽい声は作れるんだけど、とにかくデータがいると。
っていうものがあったんだが、それがパラダイムシフトによってガラッと変わっていくわけですね。
パラダイムシフト:言語モデルによる音声生成
またなんか方式がガラッと変わったのかな。
方式がガラッと変わったと。それも生成AIの分野の技術によって変わったと。
何が起こったかっていうとですね、簡単なし言語モデルと同じ扱い方をできるようになりましたと。音声も。
ValueEかな、ValueEっていうですね、マイクロソフトが出したテキストツースピークのモデルがあるんですけど、
これが2023年の1月に出てるんですが、これが大きなパラダイムシフトを起こしたと。
いつ、今年?
2023年。
結構前だね。
3年前だね。これ何をしてるかっていうと、もともとさっきも言ったように音声専用の、その人専用のモデルを作って、その人の音声を生成するという時代から、
言語モデルを使って音声を生成するという時代になりますと。
言語モデル。
そう、大規模言語モデル。今あるじゃん。LLMね。
はいはいはい。
われわれってさ、そこに文章を入れると次の単語を予想するっていうタスクをして、なんかこう文章が出てくるじゃない。
これと同じ方式で声も生成できるようになったっていうことなんだよね。
へえ。うんうん。
でもちょっとね、難しい話なんで、すごくざっくり説明するんだけど。
波形じゃなくなったってこと。
あ、さすがカネリンも。
シナプス?シナプス来てる?
シナプス、あ、違う、ちょっとそこで止めとけばよかったものを。
あ、そうか。
一同 笑
どうなってんの?
それはジョークだけど。
イメージできる?それなんか。
いや、でもね、音声をトークン化したんですね。
トークン化、はいはい。
トークン。だからもうそのIDとして扱うようになったと。
ID?
うん。
わからんな。
だからこの波形のこの秒数のこの瞬間の音っていうのは、この番号ですよみたいな。
うんうん。
結局文字もそうじゃん。あ、とかこの単語ってこの番号ですねっていう、そういうねIDみたいなやつが言語モデルもついてるのよ。
へえ。
で、ベクトル化されてるから。
データベクトル情報。
ベクトルの。
意味領域。
そう意味領域みたいなとこに行くんだけど、それもそれと同じ。音の波形のこの瞬間の音はこのベクトルのこの位置だよねっていう風にID化してすごいでっかい領域に保存しておくというか学習させるみたいなね。
なんかさ意味領域っていっぱいあるの?なんか。
ある。
なんかさ、ライオンのっていう意味と怒っているという意味みたいないろんな意味があるじゃん。
このトーンで喋ってるときはなんか悲しそうみたいな。そういう漢字を表す意味領域みたいのもあるの?なんか。
そうそうそうそうそういうこと。それの音声版の領域があるっていう感じかな。
全くそのテキストの言語モデルと同じ領域を使ってるってわけじゃないんだけど、音声版のそういう領域があって、
それってさ、なんか領域っていうと三次元的なイメージをすると思うんだけど、なんか空間みたいなね。じゃなくて三次元以上の次元数を持ってるから、
人間の頭では想像できないような空間なんだけど、そこにこう転写されるというかね、音声が。トークン化されて。
だから元々波形っていうその波の情報だったものを1個のそのIDを持たせてトークンにして保存しておくと。
そうすることで、なんとなく発音とか意味とか、あと声のトーンとか、その人の声色みたいなものを抽象的な領域に転写できるね。
はいはいはいはい。それで人の声変わっても転用できると。
そう、そういうこと。
悲しそうな喋り方みたいな。
この人の声色っぽいところはここだよねみたいなのを持ってこれて、で次のじゃあ音ってどれだろうっていうのも予想するっていうことができるようになったと。
だから言語モデルと同じよね。そういう扱いをすることになったことで何ができるかって言ったらインコンテキストラーニングって言って。
インコンテキストラーニング。
まあそのこれ前もちょっと出てきたんだけど、学習をさせずにそのプロンプトの中で学習させることができた。
プロンプトの中で学習。
そう、だからプロンプトの中にその人の音声をちょっと与えてあげると、この人の音ってこんな感じだからこの辺にあるよねっていうのを学習してくれると。
意味領域から濃いところ。
意味領域からここら辺の音だって言って、違うここら辺の音からこのテキストが入力されたからこのテキストで音を出そうっていうとその人っぽい声がすぐできると。
よかったようなわからんような。
まあ結局はもともと個別のモデルを作らなきゃいけなかったところに大量のデータをいろんな人の声を学習することで。
それっぽい声似たところのやつ出してくる。
そう。
支部長っぽいなんかあれだね低音の人たち中低音の人たちみたいな似たところ取ってくんだ。
そう。いろんな人が学習されてて、本来学習されてない領域もあるんだけど、そこはその人とその人の中間みたいなところだから、そこも別に音が生成できるのね。
中間を取ったの出てくるんだ。
そう。だからこの人の音って大体ここら辺だよねってのがわかったら、その人っぽい声とか、あと発音とかニュアンスみたいなものは別に違う領域に学習されてるから、それを取ってきてってやると、なんとですねもうちょっとこういう人の声ですよっていう風な入力を入れてあげるだけでその人っぽい声が出せると。
じゃあコワイロはまずそれで似せつつ、関西弁にするとか名古屋弁にするとか入れ替えるだけで自由自在。
そう、自由自在に。名古屋弁はね、残念ながらあんまなんか今から紹介するツールの中にはなかった気がする。
学習するための教材が河村たかしとかだとちょっとだいぶ偏った名古屋弁になってまうけど。
学習データがあんまりないかもしれないから。
そうなんだよ。
ごめんねちょっとね、あんまり深く説明してもなと思ったらかなりざっくり説明してるんだけど、そういう形で一個のモデルを作るから大量のデータを学習したその空間があって、そっから辞書的にこの人の声これっつって引っ張ってこれるようになったと。
なるほどね。
和写エンビディングって言って、和写もそうなんだよ。こういう声質の人ってここら辺だよねみたいなやつがベクトル化されて埋まってるから、それをこうピッて持ってくるっていうことができるようになったと。
それってさ、声質ってのは要はあれですか、周波数のこの帯域みたいなので判別してるわけ。
いやもっとね、抽象化されてると思う。帯域とか。
成分、どれぐらいの低さの成分が多いみたいな、そういうデータが入ってるってこと?
それも入ってる。メルスペクトルグラムっていうさ、スペクトルグラムってあるじゃん。横軸を時間か、縦軸を周波数で、あとはその周波数の濃さで色のヒートマップみたいな感じで表示されてるスペクトルグラムっていうものがあって。
あの赤いやつかな。
そう、ここら辺の周波数すごい赤いよねみたいな。であれをメル尺度に変えたのがメルスペクトルグラムっていうのがあるんだけど、メル尺度って人が聞きやすいような。
普通のスペクトルグラムだとあまりにも周波数がまっすぐすぎて、人の過長領域みたいなところじゃないところまで結構大きく表示されてるから。
いつも編集するときにオーディションとかで出てくるやつだ。
ああそうそうまさにそれ。
赤いやつ。なるほど。
あのメルスペクトルグラム。
があるんだデータとして。
そうデータとしてあるからこれからこの人の音声ってこのぐらいこんな感じだよねっていう風に生成するみたいな。そういうモデルがあるって感じだね。
これを学習してるメルスペクトルグラム。
でメルスペクトルグラムはその人の音声の分析みたいなもんなんだけど、
このメルスペクトルグラムからその人の音声自体を生成するってことができなかったんだよ本来。
これかなりその人の音っぽいものを表しているんだけど、ここから予想できる波形って無数にあって定まらないのね1位には。
なんだけどこれを使ってその人の声を生成、再現するってことがやっぱり学習したデータの中からできると。
これもデータとして学習されてるし、その一個の要素としてね。
っていうのでいろんな形で音声っていうのは抽象化されて学習されてると。それがそのコーデックランゲージモデルっていうもの。
そっから音声を引っ張ってこれるようになったから、すごく短い音声でもその人っぽいものが持ってこれるし、
長く入れれば入れるほどより精度の高いところから引っ張ってこれるっていう感じになってると。
すごくざっくり言うとね。ちょっと厳密性は欠けるんだけどもこんな感じなのね。
だからわざわざ学習してないってこと。探しに行ってるからその人の音を使って。
探しに行ってるだけ。もう学習してあるものがあるから。
すでに学習済みのモデルから探しに行くっていうことになってるから、そもそもその1のテキストと言語、音が1セットになってる人がないと。
学習モデルとして。その人の音さえあれば別になんとなくここら辺だよねっていうのが見つけられる。
だから音声生成ってのは爆速になったわけ。
なるほど。10秒でも良くなったな。
そう10秒でもいいし、俺のポッドキャスト2本分ぐらいの音声を入れたらかなり人間かAIか分からないぐらいの音声が生成できると。
なるほどね。
そういう技術になっております。
それがもう今は標準的ってことね。
標準的です。でそのサービスを結構手っ取り早く使えるよというもの。
ElevenLabsの機能と声の権利問題
そういうサービスをちょっと紹介しますけど。
お願いします。
それがEleven Labsっていうものですね。
聞いたことあるよ。
これがね、俺も最近知ったの実は。
聞いたことあるよねEleven Labs。
色々できるよ。
これツールの名前?
ツールの名前。Eleven Labsっていうところで、2022年に創業したスタートアップ。
で本拠地は明かされてないんだけどロンドンかサンフランシスコぐらいにあるだろうという風に報じられていると。
海外の企業ね。
で音声合成を中心としたテキストトゥスピークというものを中心としてます。
テキストの読み上げとか、AIボイス、あとボイスクローンだね。
ボイスクローン。
あとボイスチェンジャーもやってますと。
ボイスクローンはさっき俺がやったやつだね。
これ何?さっき作ったやつこれ?これでやったの?
僕がやったのはこのEleven Labsに課金してやってます。
そうですか。
10秒でやるやつは課金しなくてもできたかな確か。
10秒でやるやつ全然だったね。
あれもちょっと音質次第だと思うけどな。
上手くやればそれなりのとこはいくけど。
だから自分っぽい声を作りたいのであれば、このサービスに課金するといいと思います。
例えば他に何か使い道あんの?これリスナーさん的に。自分のじゃなきゃダメなの?これ。勝手に人のやつやったらダメ?
勝手に人のやつもできてしまうけど、ここがねまた難しいところで。
ちょうどその話後でしようかなと思ってたんだけど、声の権利ってあんの?みたいな話をね。
はい。そんな議論今まであったんだろうか。
あのね、声単体の権利、これを守る法律って実質ないんだよね。
声の権利。
カネリンっぽい声、カネリンの声が今世の中にいっぱいあるじゃん。俺もそうだけど。
これが勝手に使われる。俺が喋ったこと自体は勝手に転用されたら、おい俺のコンテンツだろってなるけど、
この声を使って学習したものを成果物として何らかの形で転用することを止めようと思った時に、止めるのが結構難しいと。
そうだよね。今まで言ったテキストとか動画とか絵とかだったら、権利でどうのこうのって言っとるもんね。声ないの?
そう、だから声って著作物でもなければ何でもないわけ。
あ、そう。動画は著作物なのに。
そう、動画は著作物なんだけど、声はなかなか守れない。だからこそ声優さんたちが勝手に声を学習されて、めっちゃ使われてるじゃんね。
もう何も商売できんくなるじゃん。
だから声優業界はそれに対して、結構生成AIの無断使用禁止みたいなところで声名を出してると。それはそうだよね、声で活動してる人たちだから。
逆にAIボイスっていうのを作ることで、自分のね、それを売り出すっていうことで、それが商品になるじゃん。
それ、自分の声をここ以外で販売することを禁止しますよっていう形で禁止するっていう技はあるみたい。
あえて商品にすると、される前にね。
自分で。
そう。
じゃあここで自分の声を商品にして売っときゃいいんかな。
そこで売っとくとか、あ、そう、イレブンラボは結局それはできるの。自分で作ったモデル、自分の声を商品として使わせるってことができると。
で、お金払ってもらって。
お金払ってもらう。使用料。
で、それで払って、なんかエッチなこと言わせて楽しむのに使うみたいな人が出てくると。
出てくると思う。だから、カネリンと支部長の創作BLみたいなやつを本物の人に作ってもらうことができる。
なるほどね。
それでちゃんとね、お金払ってもらって。
お金払ってもらって。
ってことだよね。
それはコンテンツとして優勝利益を買ってたら、勝手に作られた支部長カネリンBLのボイスドラマみたいなやつが、もしかしたら販売される可能性もあると。
販売してほしいね。買うわ。
逆輸入。そんな逆輸入ある?
使ってほしいよね、自分の声とかさ。需要ないよね、そんなさ。
でも、例えば、最近読み上げだとヒカキン・ボイスとかもあるよね。
ヒカキンさんの声で読み上げてもらえるよみたいな。
やっぱ有名人だよね。重要案の方。
でも実際販売もできるよっていうプラットフォームになってるのが11LABOS。
そういう使い方もできるし、それはある種勝手に使われるっていうことによるカウンターにもなるみたいな。
ただ勝手に使われたら結構困るっちゃ困る。
いろいろとAIボイスを使った犯罪とかも出てきていて。
香港とかだと、確かこれ去年だったかな。
AIで作ったその会社の社長の声でディープフェイクを作って、
その会社に大量の送金をさせたみたいな詐欺事件があった。
はいはいはい。もう俺俺詐欺のレベル超えてんじゃん。
その人の声だからね。やばいよね。でもそれ騙されるじゃん普通に。
騙されるね。発信元とか確認する癖つけないとダメだね。
しかも最近出すのはリップシンコロって言って、
喋りの音声と口の動きを一致させるっていう技術があるのね。動画の。
だからマジでその人が喋ってるような動画を作れちゃう。
動画も引っ付けて。
ウェブ会議かビデオ会議でそれを使ってうまく偽装して。
どうにもならんなそれ。どうにもならんね。
どうにもならんし、しかもなんかね、面白いって言ったらあれだけど、
かなり巧妙だなって思ったのが社長だけじゃなくて、
いつも言ってる同僚みたいなやつをディープヘイクで作って。
そこで2人いるから信頼させるみたいな。
それぞれ合意してるからみたいな感じで詐欺を行ったと。
なんかもう機械的に電話確認するみたいなプロセス挟まないとダメだよね。
いやそうよね。本当にこれ防ぎようがないじゃん。
なかなか。
本人にかけるしかないよね。
本人にかけて。でも本人も本当に本人かどうか分からないからそれ。
電話も転送されるかもしれないしもしかしたら。
それはもうプリズンブレイクじゃん。
何も信用できない。
何も信用できないと。
だから結構センシティブというか、
電話での本人の声が信用できなくなったりとか、
結構その家族の声を使った犯罪みたいなもの。
あと音声が本人の証明にならない時代になってしまうんじゃないかっていう懸念もある。
そうだね。
こんだけうまく喋られると。
その声を守る権利というか法律っていうのもちょっとその技術に追いついてない部分があるので。
今までだってそんなことできなかったもんね。
そう。
権利も何もさ。
できなかったししかも時間がかかったのさっきも言ったように。
法律で保護する必要がなかったよね。
必要がなかった。12時間もそのために喋って、その人の声を録音しないとできないと。
しかもテキストと一緒にね。
一部の芸能人の有名罪みたいな感じだったんだろうな。
そう。それを使ってその人のAIボイスを作ってマネタリズするっていうのがビジネスとして成り立ってたんだけど。
そこのハードルがあまりにも低くなったゆえに結構今そういう問題が出てきているというのはありますと。
なるほどね。時間の問題だよね。そんなアップしてない人でもさ。
10秒足らずの会話を横で録音されたらもうそれでね、クローン作られちゃうんだから。
そうなんだよ。
みんな被害にありうるよね。
ありうるし、結構イレブンラボーズで便利だなと思うけど怖いなと思ったのは和写分離できるの。
だから俺とカネリが2人で喋っているものをそのまま上げてカネリの声だけ和写分離させてそっちを学習させるってことができるから。
声の高さであれして。
そう。和写分離どうやってやってるんだろうね。多分高さでやってるんかな。
和写分離完璧にできそうじゃんそれ。
だから学習データとして使うやつの和写分離をちゃんとしてくれるから。
だからカネリちょっと電話しようぜって言ってさ、2時間ぐらい喋ったらもう音声取られてるよね。
もうそれでクローンだ。
それでクローンできちゃうみたいな。
これもうあと1年ぐらいしたら2時間もいらんわな多分。
もっと早くできるようなね。
っていう感じのね。
AI時代のポッドキャストと対談の価値
イレブンラボーズはそれでも悪いことに使うようなあれではないけど、そういう感じでいろいろとできますよと。
さっき今日説明したような技術よりさらに応用したような技術がいろいろと使われていて表現力も上がっていると。
ちょっとお金の話をすると。
高い。
課金はですね。
高そう。
俺が使ってるクリエイタープラン、これじゃないとさっきの支部長ボイスみたいなのができないんだけど、これが月額で22ドルです。
初月50%オフって。
だから初月50%オフで今使ってて、この収録が終わってなるべく早く解約しようかなと思ってます。
解約しちゃうんだね。
だって忘れるから。
そうだね。あんま使い道ないね。
どうやって使うかなって。もうちょっと面白いこといろいろやってみて、飽きたらやめようかなって思ってるけど、そうすると忘れるんだわ解約を絶対。
そうねそうね。
ちょっとねこれは、スターターは5ドルです月額ね。
スターターだとクローンができないのか。
クローンがね、確か一番精密なクローンみたいなやつができないと。
はいはいはい。それはちょっと良くないね。
だからまあ最悪クリエイターにしないと今みたいなやつができないと。で一応その読み上げれる文字数も決まってると。月間でね。
じゃあまあ一発1ヶ月だけ11ドルでやって。
22ドルだね。22ドル、あそう半額で11ドルでやって、そうすると自分の作った声で10万文字までは読み上げられるから。
10万文字ってどれくらいだろうね。結構だよね。
えっと俺のポッドキャスト1時間分の収録で大体1万文字ぐらい喋ってるから。
あそう。
10本分ぐらいだね。
10時間分ぐらい。
10時間ぐらいは喋れるんじゃないかな。だから余裕よね。
まあお試しには全然いい。
お試しには全然いいと。だから11ドル払ってちょっと自分の音声作ってみて。
作ってさこれ置いてさ、回復したらもう販売はできないの?それ。
いやちょっとどうだろうな。多分できないんじゃないかなさすがに。
できないよね多分。みんな最初しか契約しなくなるわ。
そう。スタータープランは入門プランで、商用利用は解禁されるし、短いインスタントボイスクローンって10秒のクローンが作れるようになると。
あさっきのね。
そう。
Cバージョン。
まあYouTubeのナレーションとか副業レベルのコンテンツだったら十分これで使えるかなと。
クリエイタープランはプロフェッショナル用途のプランで次10万文字までの利用とさっき言ったプロフェッショナルボイスクローンですね。
私がやったやつが使えるようになると。かなり本格的なナレーションとかクローンの音声生成みたいなやつが可能になると。
プロは、プロプランはもう本当に法人とか制作向けのチームの上位プランで、その生成できる文字数が爆発的に上がっていたりとか、
あとその結局プロフェッショナルボイスクローンみたいなやつって一枠しかないのよ、クリエイタープランだと。
2個とか3個作ろうと思うと、なんかその枠を買ったりとかしなきゃいけないんだけど、プロプランだとそれが多分いっぱいついてるよって感じかな。
なるほどね。
っていうサービスなんで。
ちょっとお試しどうぞ。
こういうものがそのぐらいのお金でできるので。
現在地を知る意味ではいいかもね。
そうやってみるといいと思います。ただ、ポッドキャスターじゃないと自分が喋ってる音声2時間分なかなかないなとは思った。
そうだね。
1時間とか2時間とか。
そうだねそうだね。
1時間ぐらいあればできるんだけど、高度な音声。なるべく2時間ぐらいあった方がよりいいよねっていうのがあって。
なかなか2時間じゃあ今から音源作りましょうって普通無理だな。
そう。
確かに。
2時間なんか頑張って喋ってみる適当に。
なんか読み上げてみるとか。
朗読みたいになっちゃうとちょっとぎこちないだろうしな。
誰かと喋ってる音をひたすら録音しておくとかかもしれないけど。
そのぐらいあるとさっきみたいなやつができるんで、ぜひとも試してくださいという感じだね。
はい、試しましょう。
ということで音声生成のもうこれでだいたい50分ぐらいだね。
はいはい。
なのでこういう現在地があるよと。
うんうん。
でやっぱその最後に話したけど声の権利っていう部分で割とセンシティブなことにはなってると。
うん、そうね。なんか嫌だな。もうなんか手遅れな気がするよね。
だいぶもう動画の分野でも使われてるもんね。結局動画生成で声が生成されるのはこの技術を使ってるから。
うんうん。
そうか、絵がどのコーナーって言ってるけど声ね、もうどうにもならんでしょこれ。
後から規制しようつってもはぁーって感じだよね。
そうなのよ。
うん。
でポッドキャストね、人が喋ってるのは勝ちだぜって言ったけど。
うんうんうん。
絵が喋っても人っぽくなっちゃうってちょっとあれだよな。
だから結局さあれでしょ。やっぱりさこの対談は。
いやそう。
いいわけよ。
そう。やっぱこの。
声は似ててもね、中身が。つまらなかったじゃんこの間。
ん?つまらなかった?
失われた僕の失われたあのパートのやつ。
あーあれね。あれさーそうそうそうそう。
声は似せれてもさ、生の対談はできないわけでさ。
そうそうそうそう。
そこじゃないすか先生。
いやそう思ったね。だからさ、次思ったのが、一人喋りのポッドキャストきついなって思った。
でしょでしょ。
うん。
そうなのよ支部長。
いやもう私は一人喋りポッドキャストとしてずっとやってきて、誇りを持ってやってるわけですよ。
そうねそうね。だから僕も感じたわけですよ。ボイシーずっとやっててさ。意味ねえわと思って。
なるほどね。
これは対談だって思ったわけよ。
いややっぱね対談、やっぱねポッドキャストって、やっぱ二人だよな。二人以上だよなって思った。
そうだね。じゃないとクリエイションできない。
そうなんかAIにこう手がかかるというか、首元にもうなんかかまを突きつけられたような。
うんうんうん。
そのぐらいもうできちゃうじゃんと思って。多分何も言わなかったら誰も気づかないAIのポッドキャストできるよ。俺の多分一回分ぐらいだったら。
いや気づかないよ。俺も気づかないと思う。
そうかなりも気づかなかったぐらい。なんか支部長さん今日微妙に発音おかしいとこあるなみたいな。
そうね。
そのぐらいの感じで多分全然AIのポッドキャストできちゃうと。
原稿そのまま読ませればいいってことだもんね。支部長だったら原稿しっかり書いてるから。
そう俺書いてるからさ、マジでそのままそれぶち込めば一回分できちゃうから。マジかと思って。
マジかだよね。オートじゃん。ポッドキャストもそういうゴミがいっぱい溢れてくんじゃない。
いやそうよ、最近AIでさ、効率的にやりますぜみたいな。
ビデオポッドキャストもAIでできるようになりましたみたいなさ、すげーあるけど。
それってなんか意味あんかなって思うよね。
思うね。
効率的にできましたよ以上の意味がないなと思ってさ。
あれじゃん、情報商材系のこの間のさ、あれと一緒じゃない?
音楽、AI音楽大量に作って大量にアップして、稼げますぜみたいな。
稼げますぜってカズウチ当たるぜっつってみたいな。
ポッドキャストもそうなるってことだよね。
そうそうそう。
ひとりがたり系は特に。
そうなってしまうと、なんか埋もれるというか。
結局、質なのよコンテンツってね。
中身?
中身だから質が良ければひとり喋りでも勝てると思うんだけど。
量があまりにも粗雑なものが物量で押し寄せてくるなと思った。
埋もれるね。発見しにくくなるか。
そう発見しにくくなる。効率だけ高めて量出せばいいと思ってるんだったら、やっぱそこってコンテンツの価値上がってかないし。
なんかそうやって粗雑なものが増えていくと、この分野ってこのぐらいなんだよねっていう感じになるじゃん。
そうだね。
すごく危機感を覚えたね。
そうだね。
ポッドキャスト、ひとり喋りでも可能性も追求したいんだけど。
ひとり喋りなるほどね。
ただやっぱさ、今年のジャパンポッドキャストアワードのノミネート発表されたじゃん。
あーなんかチラッと見た。
あれさ、ひとり喋りのポッドキャスト一個もないよね。
対談かね。
全部対談。
全部二人以上だから、ポッドキャストってそういうもんなんだなって思ったね。
そうだよね、やっぱり。
面白いんだろうな、そっちの人間関係とか。
BLだな。
BLに通ずるんだな、やっぱな。
そういうことだと思う。
やっぱ絡みだよ、絡みを。
絡みがコンテンツだよな。
そう、と思ったね。絡みはまだAIにはできないよね。
とかリアルタイム性とか。
そうだね、リアルタイム性もそうだし。
AIカネリン生成計画と今後の展望
だからあれだよね、例のAIエージェント同士で会話をしちゃってみたいな、そういうことになってくるんでしょうけど。
そうね。
面白いんでしょうか、それは。
取り組みとしては最初キャッチだと思うね、AI同士が。
AIに生成されたトークじゃなくて、
AIエージェント同士がその場その場で自律的に会話してるよみたいなやつがコンテンツになる。
コンテンツとして出てくるっていうのは近い未来ですぐあると思うよ。
それが破綻してようが、破綻してなかろうが。
面白いんかな、それ。
それ、負ける時は来るのかな、人間同士の対談より面白いよ、AIの方が。
そういう驚き屋さんはいるだろうね。
で、その裏では人間が全然プロンプト書いてましたよみたいなこともあるだろうし。
なんか容易に想像できるね。
もう驚きパターンがインプットされてるね。
そう、こういう驚きだろうなみたいな。
ということでね、もうちょっと音声生成。
とにかくでも触れるってことは大事だと思うんで、カネリンもなんかやってみてこれ。
これね、クローンね。
AIカネリンをちょっと使う。
あとぶっ込むだけだもんね、俺あるから。
そう。
どーんって。
自分の2時間分ぐらいぶち込めば。
たくさん入れればもっとすごくなるってこともないもん。200時間分ぐらい。
いや、マックス2時間半とか3時間ぐらいだった気がする。
それ以上はもういい、いらねえわみたいな。
いらねえわな。
分かりましたよ。じゃあやるかな。
だからね、ちょっとカネリン、そのAIカネリンさえできれば、あの失われた回もカネリンをテキストで足して、
音声版としてつまらないカネリンを生成することができる。
つまらないカネリン生成してほしくないね。
初見さんがそれでなんかこの人つまんないなって。
ちゃんと面白カネリン版にアップデートして、ちょっと声で補完したいんだよな。
なるほどね。
それはね、これでできるなって思った。肌感覚的に。
うんうんうん。
なんかカネリンいるじゃんみたいなさ。あれいるこれ?みたいな。
俺は変わらないけど。
帰ってきたカネリン。
ちゃんとカネリンが帰ってきたみたいなさ。これ使えばできるなって思った。
それストーリーとして面白いかもしれない。
それはね、ちょっとね、やって、何だろう、アンサーバージョンとしていつか上げたいよね。
いいかもしれない。中身のテキストはあくまでもAIで面白いの作るの?
そう、中身のテキストはカネリンを、あれちょっと急いでやったから。
うん、もっと面白くしてって。
なんかね、カネリンっぽくないカネリンの抽出をされてる。
じゃあ31.1話でリベンジ回だな。
そう、31.1話リベンジ回。
幻回。
幻のカネリン回を、カネリンをAIで復活させよう。
AIカネリン完成版をちょっとやりたくて。
面白いかもしれない。
それこれでできるなっていう。
それの肌感覚をつかむって意味でもちょっと音声生成を今回テーマにしたってのがあるね。
はいはい。
俺もね、この原稿書く上で色々試すからさ。
じゃないと試さないからね、音声生成なんて。
なかなか。
そうだね、そうだね。
すごいね、これはいいなと思ったわ。
ちょっとしばらく何、支部長の一人のやつとかやってみたらいいじゃん。
AIで。
いやー。
原稿読ませて。
原稿読ませるか。
いやーなんかやだな。
誰からもツッコミ入らなかったらどうする?
1話分ぐらいやってもいいなちょっと。
ちょっと、風邪ひいたんですか?ぐらいのコメントだったりして。
確かに。
いつもよりなんかハキハキ喋ってますねとか言われたらやだな。
滑舌がいつもよりいいですね。
いいですねみたいなね。
立ち直れない。
ちょっと一回それ、そうだな、この回が出るぐらいの時に。
出る前に。
来週ぐらいやってみようかなちょっとな。
この回の直前ぐらい。
直前ぐらいやってみようかなちょっとな。
多分気づかないよ。
でもちょっと課金せっかくしたからさ、ちょっと1ヶ月はちょっとね、10万文字分ぐらい生成しないとさ。
10時間分使えるならね。
10時間分使おう。
いいな、俺台本書かないからそういう風に使えないんだよ。
あーそっか、まあそうだね。
俺はねちょっとね、台本書いちゃうからな。
それやっぱ書いたまま読むから、交互で書かないとってことだよね。
その通りに読んじゃうから。
あ、そうだね。
ブログの記事貼ったらなんか変な風になるよね。
ブログの記事貼ったらやっぱちょっと書き方違うから。
まあPodcastをちょっと効率的に作りたくて。
データ効率。
効率的っていうのは、ノーのリソースがさ、夜ヘトヘトなのよね、収録するとき。
あ、そっかそっか、もう1日ね、本業でね。
だからもう、あとはもう、俺が書く原稿って面白いのよ。
面白い。
面白いから、俺はそれを楽しんで読むだけっていう状態にしときたい。
そうするとノーのリソースなくても楽しく読めるから。
っていうので、読み言葉で書いてるってのがある。
はじわけするとさ、この文とこの文のつなぎの。
そっかそっか、そのリアルタイムで処理しなきゃいけなくなる。
そう、処理しなきゃいけない部分があるから、
ちょっともうヘトヘトになった状態でも楽しくPodcastを撮るために極力ノーを使わないっていう意味で、
あらかじめ隙間時間で書けるように文章を書くのよ。
じゃあこの収録とかもうだいぶ疲れてんだもん。大変じゃん。
この収録はカネリンがだいぶ補完してくれるから大丈夫。
あ、そう。役に立ってる。
カネリンが喋ってくれるし、結構こういうパスもくれるからさ、全然大丈夫。
そうか。
大丈夫でございます。
ちょっとやってみよう。
これさ、じゃあさ、俺今課金して、タイミング的にいいの?これ。
どういうこと?タイミング的にって。
原稿できてからの方がいい。
あー、そういうこと?
復活させるAI原稿、できてから読み込ませるんでしょ?要は。
そうそうそう。で貼り付けていくっていう感じなんだけど。
でもカネリン余裕があるときでいいよ。だって編集はカネリンが。
俺がやってもいいけど。
いやいや、編集はやるけど。
そのAIの中身のテキストはどうやってやるの?面白い?
中身のテキストはカネリンっぽいやつをもうちょっと学習させなきゃいけないなと思って。
それで支部長がなんか生成してくれるの?
そう、それは俺がピックアップしなきゃいけないんだけど。
で、できたらじゃあ課金してこの中ぶっ込んで音声作って切り張り切り張りするの?
あとはもうさ、テキストがバーって出てくるから。
切り張りしんど。
切り張りがしんどいんだよ。
しんどすぎる。
そう。
それAIでできないですか?
それAIでできないっす。
音のタイミング合ってないからさ、全部俺の言葉のタイミング合わせて切り張りして張ってく。
タイマーは生成できないの?対談。
タイマーは生成でき。
支部長とカネリンでこれ対話させたやつ出してみたいな。
いやそれできないな。
できないか。
そこはすげえアナログなんだ。
アナログ。
だる。
だからその音声全部カネリンがひたすらなんか独り言喋ってるやつを切って張っていくっていう作業があるから結構だるいよ。
カネリンその時間があるのかなっていうのはあるけど。
やってみようやってみよう。内容が面白かったらねいいよね。
そうね。内容が面白ければ。
面白い開始がまず出てくるのかっていうところだよな。
いやでもなんかね結局。
いけそうなの?
うん。そのAIカネリンを作る時に使った番組の内容が結構強めカネリンだったのね。独り喋り強めカネリンだったから。
なんか全てを否定するぜみたいなさ。
女の子寝言ですわみたいなやつばっか入れちゃったから。
寝言とかぜぜひひみたいなことばっか言ってたんだよ。
ぜぜひひみたいなやつがめっちゃピックアップされて。
仕事やめろみたいな。
なんかなんでもいい。基本こうね。
うがった見方をして否定するみたいなさ。
なんかそういう謎の抽出をされてしまって。
否定レベルじゃん。
悪いとこばっか協調されたみたいな。
だからさなんかさ。
あれスタンガンの下れがあったのね。スタンガン。
スタンガンなんて危ないよみたいなさ。なんかわけわかんない。
つまんなこいつみたいなさ。
正義の味方の警察官じゃん。
警察官が現れてしまったから。
そうじゃないカネリンを。
優等生じゃないカネリンをちょっとピックアップして過去のやつからね。
なかなか難しいバランスじゃない?この俺のね。
そうまあでもバランス。会員よって全然違う喋りしてる時あるじゃん。
そういうね。やっぱ抽出する会をピックアップしていかないと。
うんうん。そうかそうか。そこが大変だね。
結構ね10個直近で回してなんか同じような傾向の会だったからそこが強調されたのですごくね。
スキルズの中に。
なるほど。これが一番重要な情報だみたいな。
そうそう。その結果なんかすごいなんか全てを否定するダークカネリンみたいなやつができて。
全部ぶち壊して否定。
なんかねそう真面目面白くないカネリンみたいなやつができちゃった。
そうかちょっと違うなそれは。
面白カネリンができたらちょっといいね。
いやもうできないでほしい。
あのあれせっかくだからもうちょっと擦っていきたいよねあの回。
もうさなんかできないでほしいっすもう。
確かに。
僕のアイデンティティを再現無理みたいな。
いやそうねそう。
なってほしい。
なってほしいが。
できちゃう。そこだよね。
でどうなんだろうな上手くスキルズをカネリンの面白さを幻覚化することができればなんかね近いものはできちゃう気がするなという感じですね。
楽しみにしてましょう。
エンディング
はいだからこの回はAIカネリンリベンジリベンジというかAIカネリンの生成に続きますという感じですね。
はいはい。
はいということではい今回の原稿こんな感じでございます。
はいよ。
はい音声生成いかがだったでしょうか試してみてください。
はい。
はいということで今回はここまでとさせていただきますまた次回お会いしましょう。
番組公式ハッシュタグはシャープ落ち着きAIひらがなで落ち着きアルファベットでAIです。
番組の感想はXなどSNSでハッシュタグをつけて書き込んでください。
今回の話良かったな落ち着いたなという人は星5レビューで応援してください。
はい。
次にXで気になるAI関連のポストを見かけたときはそのポストのリプランに公式アカウントをメンションしてください。
はい。
それではまた1週間落ち着いて過ごしていきましょう。
さよなら。
もうアフタートーク喋ることなくてふーって言ってるじゃん。
そういえば言い忘れてたけど落ち着きAIラグ作ったじゃん。
はい。
あれさすごくなんか使ってくれる人がいて。
マジ。
おかげでAPIが引き上がってしまってですね止まってました。
お金が発生しちゃってんの。
お金が尽きて止まってました落ち着きAIラグ。
本当。
だから追いかけにしましたんでまた使えるようになりました。
マジっすかありがとうございます。
ちょっとパワーアップさせてくんで。
性能上がってるあれ。
ごめん何にもやってない。
ちょっと性能上げてきますんで。
ここから。
テキストは一応とっておいてあるからね。
はい。あれちょっと追加でどんどん上げていくのとモデルもパワーアップさせていきますんで。
ありがとうございます。
使えるようになってきます。
ありがとうございます。
新しいポッドキャストの体験を作っていきましょう。
お願いします。
AIでね。AIを使って新しい体験作っていくっていうのがいいよね落ち着きAIで。
本当それ実践編だよね。
実践編さっきの話もそうだけどねAIカネリの話もそうだけど。
最終ゴールはもうこれAIが2人で喋ってるみたいな感じだろうね。
エージェントカネリ。
そこゴールにしちゃう最終的に。
そのまま実装してさよならって。
それもう落ち着かないエンドやなバッドエンドやねそれどっちかってさ。
僕たちがいなくなっても続く番組みたいな。
それは良くないよなんか。
良くないか。
BLエンドにしよう2人が優しいキスをして終了みたいな。
いいね。
そういうBLエンドにしましょう。
いいねいいね。
そっちでしょハッピーエンド。
なんかスピンオフみたいなのが派生してめっちゃ盛り上がるみたいな。
マルチエンド系な感じだね。
いろんなエンディングあるよみたいな。
なんかIPみたいにしてねなんかいろんな同人誌が出たりさ。
使ってみんな。
じゃあもう本当に音声販売しなきゃいけないね。
販売しなきゃいけないし。
いいね。
ということで。
方向性来ました。
それでマネタリズムしていきましょうじゃあ。
IP販売。
今日も可愛かったです。
取ってつけたように。
ではバッドエンドです。
01:07:09

コメント

スクロール