00:00
どうもみなさん、クドラジへようこそ。この番組は、年間200作品以上のアニメを視聴するアニメオタクのクドが、アニメとAIを駆使して人生を楽しむ番組です。
本日は、2026年の6月4日の木曜日となっております。
はい。なんか早いね。早い。なんかもう木曜日か。
ついこの間ね、あの月曜日、なんかすごい天気異常みたいな話した記憶があるんですけど。
まあ私月曜日ちょっとボットキャストも休みして、病院に行ったりしてましたが。
本当にね、かあ、すい、もっく、今日もですね、朝から色々仕事のこととかね、AIと壁打ちしながらやってたんですけど。
あっという間に時間が過ぎますね。
結局ですね、昨日だよね、言ったの。ブッチされたやつ。ドタキャンされたっていう話したじゃないですか。
ミーティングがね、夜10時半、ビデオ通話したいですっていうふうにクライアントから言われたから、
10時半に待機して待ってたのに、一向に来なくて、結局その後温泉不通というか、連絡が一切取れないってなってたって言ったじゃないですか。
あの後ですね、どうなったと思います。
あのメールがね、来てね、別な方に決まりましたって。
来ました。はい、なので、他の方に決まったそうです。
まあ、だろうねとは思いました。
ただ、昨日も言ったけど、ミーティングのさ、その時間というかまで組んだんだったら、連絡しようよね。
普通は連絡するよね。
まだメッセージのやり取りの段階でさ、
まだ私が提案してて、そこからまだ何の温泉連絡もなくてって言うんだったら、
普通にね、ダメだったんだなってわかるんだけど、
こっちはさ、ビデオ通話したいですって向こうから言われて、この時間でどうですかって言われたんですよ。
だからこの時間でっていうふうに言って、
まあ、そこで気づくべきだったのかわかんないけど、
私がこの時間でいいですって言ったら、
一回変更されたんだ、この時間がいいですって言ったら、
すいません、ちょっとこの時間無理なんで、こっちの時間に変更できませんかって言われたから、
分かりました、じゃあそっちの時間でお願いしますっていうふうに送ったんですよ。
そっから何の温泉も来なくて、何の連絡もなくてっていう感じだったんで、
でもそれだったら普通行くじゃん。
それでさ、まだ確定してないから行かないとはならないでしょ。
もう私としては面談、ビデオ通話するつもりで行ったのに、
なんか向こうはもう決まったからいいやみたいな感じでさ、
俺ほっとかれて、何なんて感じなんだよね、本当に。
03:05
なので正直このクライアントとはもう仕事はしたくないかなって、
思ったりはしちゃいますよね、そういう扱いを受けると。
なんかまだ一言、すいません、ちょっと他の方に決まったんでっていう連絡があればさ、
そうなんですねって言って、なんかちょっとこっちもそれならしょうがないかなって思うけど、
こんな捨てられたみたいな感じにされると、じゃあもういいわみたいなふうにはなりますよね。
なので、いろいろAIとかで便利になりつつある時代ではありますが、
本当そういう基本的なコミュニケーションとかね、人間とのやりとり、
法連想ですよ、それこそ法連想。
法連想はね、ちゃんとやろっていうこと、報告連絡相談、ちゃんとやりましょうってことです。
その辺ができないと、特にフリーランスとかは大事だね。
結構ね、いろいろ私もいろんな人から話聞きますけど、
フリーランスって言ってしまえば大半が、私もですけど、
一般の会社員っていうレールの上で走ることができなくなった人。
言ってしまえば社会不適合者に近いっちゃ近いのかなと思ったりするんですけど、
だからね、ちょっとそういう人とのコミュニケーションが苦手な人が多いイメージ。
私もあんま得意ではないけど、自分なりに一生懸命メッセージ返したりとか、
なるべく人に迷惑かけないように丁寧に報告連絡相談するように心がけてはいますけど、
やっぱりどうしてもそういうのが苦手な人とか、ちょっとおざなりな人がね、
ちょっと多いっていう印象はやっぱりあるんで、
皆さんはもし仕事ね、会社に所属しててもですけど、
フリーランスは特に1回のメッセージのやり取りの良し悪しで、
今後の仕事が決まる決まらない、生活していけるかしていけないかが決まる大事なものになるので、
AI使ってメッセージ考えてもいいと思うんですけど、
ちゃんと報告連絡相談はしましょうというお話でございました。
その反面ですね、動画制作のお仕事あったじゃないですか。
あっちのクライアントはね、すごい良いクライアントでした。
もう仕事完了しました。
無事その納品も完了して、仕事ももう一区切りというか完了して、
お互いに評価も済ませてっていう感じなんで、
あのクライアントは本当に良いクライアントでしたね。
また依頼してもらえたらなって思うような、一緒に仕事したいなと思えるぐらい。
ただそのクライアント自身があんまりそういう外注に慣れてないからか、
06:04
今後ちょっと流れが分かりませんみたいなところも丁寧に言ってくれたから、
分からないんだなっていうふうにもう把握できたし、
なんかすごく丁寧というか、
私も今回依頼してもらったお仕事、言ってしまえば初挑戦だったんで、
ちょっと不安の部分はあったんですけど、
お互いに初心者っていうかね、
感じですごく丁寧に、ちゃんとスムーズに進められたなと思って、
そっちはすごい良かったんですけどね。
良いクライアントもいれば、変な悪いクライアントもいるということで、
皆さんもちょっと気をつけてください。
ということで、そんな感じで少しずつお仕事も進んでおりますということで、
頑張っていきたいと思います。
ということで早速本題に行きたいと思いますが、
その前にお知らせです。
最近サブスタックでクドマゴを始めました。
アニメやAIの最新情報からちょっとした日々の気づきまで、
ゆるっと毎日お届けしています。
概要欄のリンクから是非無料で購読してみてください。
ということで、今日の本題はAIの話になりますが、
いわゆるクロードとかチャットGPTとかみたいな、
LLMの話ではございません。
どっちかっていうと、このポッドキャストにもちょっと関わってくるというか、
関係あるお話かなと思うんですけど、
皆さん、イレブンラブズ?
イレブンラボ?ラブズ?ラブズかな?
私はイレブンラブズっていう風に呼んでるんですけど、
日本語だと研究所のことをラボっていう風に言ったりしますが、
それで言うならイレブンラボかなと思うんですけど、
英語だとどっちかっていうとラブズにラブンに聞こえるんだよね。
LABSがついてるんですけど、そのイレブンラブズ、ラボズ。
ラボズが言いにくいからね。イレブンラブズでいきます。
イレブンラブズっていうサービスが昔からあるわけなんですけど、
これ何かっていうと音声合成サービス、AIサービスになります。
基本的にはって話ですけど、
今は音回りのAIのことは大体このイレブンラブズでできてしまう。
基本はズンダモンとかあるじゃないですか。
あとゆっくり実況みたいなやつ。
テキストを打つとそのテキストのボイスを喋ってくれるってやつね。
でも使ったことある人も結構多いんじゃないかなと思うんですけど、
09:02
それが基本的に提供されているサービスではあるんですが、
それ以外にもテキストからスピーチ、音声に変換する。
逆もあったかな。スピーチトゥテキストとか、スピーチトゥスピーチみたいなものとか。
喋った音声をそのまま別の人が喋ってるかのように音声にするとかね。
みたいなのもあるし、
あとは翻訳のやつね。日本語で喋って英語で出てくるみたいな。
そういった機能もあったりして。
本当に音回りで今すごく有用なツールだと私は思ってるんですけど、
SEとかBGMの作成とか音楽の作成もできるんですよ。
最近ミュージックV2だっけな、モデルが出たりとかして。
音楽のクオリティもすごい高いんですけど。
だから本当にクリエイターで動画作ったり、
物作ってる人で音回りどうしようかなって考えてる人はこの11LOVESめちゃくちゃおすすめで。
さっきダザーンのところで言った動画制作の案件に関してですけど、
私これ11LOVESめちゃくちゃ使ってます。
めちゃくちゃ使ってます。
動画内でBGM、SE、あとはボイスですね。キャラクターのボイスなんかもあるんですけど。
全部11LOVESで作りました。
全部じゃないな、一部SEとかで作らせるんだけど、
ちょっと再現が難しいというか作成がちょっと難しかった音とかもあって、
そこだけはちょっと普通のフリー素材の音を使ったりとかっていうのはありましたが、
でもそれ以外はほぼ全部この11LOVESで作っています。
しかもMCP連携させているので、私が一個一個生成するっていうよりかは、
クロードコード上で動画の構成を全部考えてもらって、
その動画の構成に合わせたSEをこれとこれとこれが必要ってなって、
それをAPIで叩いて生成するっていう感じになってるんで、
めちゃくちゃはかどりました。
これがなかったら今回は仕事にならなかったっていうレベルで、
マジでめちゃくちゃ助かりました。
最初BGMとかもちょっと普通のフリーの動画とかがいいかなとも思ったんだけど、
やっぱりBGM探してくるのも面倒だし、
これがいいのかな悪いのかなってもうちょっと分からなかったんで、
試しにBGMも11LOVESでやったんですけど、
これがめちゃくちゃ良かったです。
最高、最高です。
私クリエイタープランだったんで、
クレジットが13万だっけ、あれ?
12:00
めちゃくちゃクレジットもらえるんですよ。
初月半額で入れて、
プランでサブスクのプランがあって入れるんですけど、
クリエイタープランに入ると、初月11ドル?
本来は22ドルくらいなんですけど、
初月は11ドルくらいになっていて、
それで課金したんですけど、
クレジットが13万かな。
13万クレジットあって、
無料で1000クレジットだっけ、
もらえるんですよね、毎月かな。
それと合わせて13万1000クレジットがある状態なんですけど、
結局動画2本作って、
結構いろいろ生成したりはしましたが、
今現在クレジットがいくら残ってると思います?
13万1000クレジットあって、
結構いろいろ作ったんですよ。
BGM作って、SE作って、ボイス作って。
ボイスとSEは生成されたのを聞いてみて、
これちょっと微妙だなとか、違うなとか、
ボイスはイントネーションが変だなとか、
変な間があるなとか、結構あるんで、
再生成は結構繰り返したんですけど、
それをやって今残ってるクレジットが、
12万7576クレジット残ってます。
全然減らないんですけど。
1万も使ってないってことだね。
全然めちゃくちゃ残ってる。
もっと使い道あればいいんだろうけど、
動画作る仕事納品して仕事終わっちゃったんで、
クレジット余らせてるんですよね。
次課金は一旦止めようかなと思ってるんですけど、
しばらく使わないからね。
クリエイタープラン悪くないんだけど、
料金もそこそこ22ドルだから、
3500円くらいかな。
全然いいんですけど、逆に余っちゃうっていうね。
こんだけ使えるのかっていうのを実感しました。
でも実際に仕事で使うってなったら、
クリエイタープランがいいのかな。
一つ下にスタータープランってのもあるんですよ。
普通そこからでいいと思う。
13万クレジットもあっても、
使い切るのはなかなか手段の技だと思います。
なので皆さんはぜひ、
もし課金したいってなったらスタータープランから。
スタータープランはね、
15:06
今私はクリエイタープラン、月額22ドルで、
スタータープランが6ドルなんですよ。
クレジットが3万クレジットなので十分です。
全然スタータープランでもよかったんですけど、
初月11ドル、半額の11ドルだったから、
6ドル払ってスタータープランでね、
クレジット足りませんとかっていう風になるぐらいだったら、
最初から11ドル払って使えた方がいいかなと思ってね。
他にもオーディオの高音品質が高いとかね、
っていうのもあったりするし、
あと今日ちょっとメインで話したい、
プロフェッショナルボイスクローンっていうのが作れるっていうのもね、
あったりして、
だからクリエイタープランを課金したんですけど、
っていうかあれだね、
さっき私12万1000クレジット、
無料のクレジット含めてって言ったけど違うね、
今見たらクリエイタープランの付与されるクレジットっていうのが、
毎月、
ん?あれ?じゃあなんで?
まってまって、俺じゃあもともと、
あれ?12万1000クレジットの付与になってますね、
ということは、
毎月もらえるクレジットって1万クレジットか、
あれ?
あってる?
かもね、もしかしたら1万クレジットなのかな?
もしかすると、
それに課金分の、
クリエイター分の12万1000クレジットが掛け合わさって、
13万1000クレジットになったのかな、
なるほどなるほど、
本来は1万クレジットもらえるんで、
それじゃ足りない人はスタータープラン、3万クレジット使って、
全然足りるんですけどね、
私も今回散々動画作ったけど、
いくらだ?
1300…
ん?3000使ってないか?
1200…
3300ぐらいか、
ぐらいしか使ってないので、
まだ十分、スタータープランにしたとしても、
まだ十分の1ちょっと使ったかなぐらいの感じです。
結構BGM、
BGMはそんなにたくさん再生成することはないですけど、
BGMはちょっと生成にコストが少しかかりますね。
でもまあ、
作った動画の長さとかにもよるのかもしれませんが、
私の作った動画はそんなに長いものじゃなかったからね、
BGMの長さもそんなに長くなる必要はなく、
コストが少し抑えられたのかなと思いますが、
SEはもうめちゃくちゃコスト安いですね。
SEってだって本当に一瞬しか流れないからね、
例えばドゴーンとか、ピキーンとかね、
18:00
っていう音だけなんで、
SEはまあ生成、本当にやりたい放題って感じですけど、
あとはボイスが、
ボイスは文字数によって結構コストが変わってきたりするんで、
一気に生成するっていうよりかは、
細かく分けて生成した方がいいのかなと思いますけど、
っていう感じでございました。
ございましたじゃない、とりあえず11LOVESね、
私、クリエイタープランにずっと課金しておりました。
本来の目的としては、
その動画制作で音が必要になったから、
BGM、SE、あとボイスが必要だったから、
もう11LOVESに課金しようと思って、
思い切って課金して使ったら、
もうめちゃくちゃ良かったっていう話だったんですけど、
どうせだったらちょっとやってみたいなと思ってたことがあって、
それ何かっていうとですね、
さっきも少し言ったんですけど、
PVCと読まれるもので、
Professional Voice Cloneっていう機能が、
クリエイタープランに入ると使えるんですね。
さっき言ったスタータープランでいいって言いましたが、
スタータープランの場合、
このProfessional Voice Clone、PVC機能は使えません、残念ながら。
今回初月、半額で入れたっていうのもあるから、
だったらこの1ヶ月間の間に、
ちょっとこのPVC機能も使ってみようと思って、
使ってみました。
使ってみたっていうのかな。
利用してみたかな。
同じか、同じですね。
使ってみたんですけど、
これそもそも何かっていうとですね、
クローンっていうふうにあるように、
人の声、私の声ですね、
駆動の声を学習させて、
駆動のクローンを作るっていうものになってます。
言っていること分かるかな。
今皆さんが聞いているこの声は、
私が自分の声、
自分の喉というか腹から出している声を届けているわけですけど、
これを音を収録して、
音声データ、MP3とかWAVファイルとかで作って、
それをEleven Labs上にアップロードするんですね。
アップロードすると、
より最高品質の音声を求めるんだったら、
3時間分ぐらいの音声があると、
品質が高いらしいんですけど、
それぐらいの音声をアップロードしておくと、
そうするとEleven Labs側で処理がなされて、
私がいちいち喋らなくてもですね、
テキストで打つとそのセリフを喋ってくれるようになるという機能でございます。
21:05
そんな別に今更珍しい機能でも何でもないんですけど、
それがPVC、Professional Voice Cloneと呼ばれる機能になっております。
自分の声のクローン、
私自身は正直自分なんで、
AIに喋らせるぐらいだったら自分で喋るわみたいな感じじゃないですか。
でも、私が使うというよりかは、
私のボイスが使えるようにしておけば、
誰かしら、私の声を使って動画作りたいとかいう人がいるかわからないけど、
そういう人が便利というか、使えるんじゃないかなと思って、
作ってみたという感じです。
なので作ったはいいけど、私全然使ってません。
当たり前ですけど、自分喋れますからみたいな感じのものがあってですね。
別途収録するのもめんどくさいじゃないですか。
私めんどくさがり屋なんで、だったらこのPodcastしかないでしょ。
これ今皆さんが聞いているこの音声。
最近だともう40分とか、この前なんか1時間こうやって喋ってたわけですよ。
あの音声データを使わないなんていうのはもったいないわけで、
なのでその音声データをアップロードしてですね。
アップロードできるサイズが最大で1.5ギガまでだったかな、合わせて。
だからMP3でアップするのが多分いいのかな。
WAVファイルだとちょっとデータ量がすごく重いので、
多分アップロードすると容量がいっぱいいっぱいになっちゃうっていうこともあって、
最高比率を求めるなら3時間以上の音声データが必要なのに、
WAVファイルにすると全部入らないみたいなこともあるんで、
できればMP3でいいのかなと思うんですけど。
それで1.5ギガの中に収めつつ、3時間分ぐらいの音声をアップロードしていけば、
それなりの品質の音声が作れるということで、
私も最近実は喋ってたこのPodcastの音声データをコツコツね、
11lovesに学習させていたという感じです。
今はもうすでに3時間分以上溜まってるんで、
一応最高品質っていう状態になってます。
っていう感じで、私駆動のボイスクローンが、
今11loves上で公開にはなってないかも、まだ。
24:00
これちょっとね、私も使ってみてちょっと思ったんだけど、
ちょっと難しいっていうか、よくわかんないんだよね。
なんかね、体験、作成する側の話だけど、
でもね、利用する側としてもちょっと体験がね、
ちょっと微妙なところがあるんだよね、UXっていうのかな。
なんかその音声の視聴をするとね、
いろんな音声がガチャガチャガチャガチャの複数に重なって聞こえてくるみたいな、
なんかバグだと思うんだけど、みたいなことがあったりとか。
あとなんかその、自分の音声作ってアップロードまでは行けるんだけど、
これどうやったら世界に自分のボイスクローンを公開するのか、
みたいなところが非常にわかりにくいんですよね。
なんかただ作って終わっちゃいそうになりそうで、
なんか作ったら、共有っていうところからね、
なんかボイスライブラリーに公開するみたいなものを選ばなきゃいけないらしいんですけど、
それがね、1回その音声の編集かなとかやっちゃうと、
リセットされるのかな、ちょっとよくわかんない。
結構ね複雑です。
私やってみたんだけど、もっとわかりやすいのかなって思ったんだけど、
ちょっとややこしいです。
なので、ネット上にいろいろやり方載ってるとは思うんだけど、
実際やってみるとね、
公開されてんのかな?どういうこと?よくわかんないなみたいな感じになるんですよね。
これは実際にアップロードして自分のボイスクローン作ってる人はわかるかもしれないんですけど、
結構いろんな人がね、自分の声で音声、ボイスクローン作ってたりするんですけど、
ただ私も今回、実際いろんな人のボイス使わせてもらいましたが、
クオリティはね、結構極端ですよ。
すっごいクオリティが高い音声もあれば、
ちょっと全然使い物にならねえなっていう音声もめっちゃあります。
男女とか関係なく。
シンプルにまず音が小さい。
なんかボソボソなんか言ってんなみたいな音声もあるんですよ。
同じ音量ですよ。同じ環境で聞いてるのに、
再生すると、すごい綺麗な音質のやつはめちゃくちゃクリアーで、
すごく綺麗に聞こえるんだけど、また別のやつを聞くと、
ボソボソボソって言ってて、めっちゃ音小さいみたいなのもあって、
結構クオリティはマチマチって感じだね。
だから自分でその音声、ボイスクローン作る場合は、
27:00
なるべく綺麗に音が録れる環境で録った方がいいかな。
最低限ちゃんとしたマイクはあった方がいいと思います。
少なくともiPhoneとかの内蔵マイクとかで録るとかは、
あまり現実的ではないのかな。どうなんだろう。
iPhoneとかスマホの内蔵マイクの方が逆に綺麗っていうパターンもあるからね。
わかんないけど、でもプロの人はちゃんとしたマイクである程度録ってると思うんだけどね。
私は昔からこのPodcastもですけど、
SHUREのMV7っていうマイクを愛用し続けているわけですけど。
マイクで思い出したけど、この前先週か?
先週、しゅうへいさんと面談したじゃないですか。
面談したんですよ。
その時に言われたのが、
今まで面談した人の中で一番音がいいですって言われたんです。
しゅうへいさんはしゅうへいさんで私よりもいいマイク使ってるんだけどね。
SHUREのSM7Bだっけ?
私のSHUREのMV7よりももう一個上のランクのマイクがあって、
私も当時それ欲しかったんだけど、高くてそこまで手を出せないから。
MV7は当時いくらだっけ?
2万くらい?2万3万くらいだったんで、それくらいだったらと思って。
SM7Bは5万くらいするんじゃなかったかな?
もうちょっと高いんだよね。
ということで、ちょっとやめたんですけど、
しゅうへいさんはそれを使ってるってことで、
やっぱりいいマイク使ってるなーとか思ったけど。
でも面談を受けた人の中では、ちゃんとしたマイクを使ってるっていうのもあるから、
一番音がいいですって言われました。
これちょっと今回の話とは関係ないけど、
オンラインミーティングする人、多分これ聞いてる人の中にもいると思うんだけど、
いいマイク使ってオンラインミーティング参加するとね、
100%ではないけど、結構なパターンで言われるのが、
なんかマイクの音質良くないですか?って言われます。
これ私の実体験ね。
結構いろんな面接とか面談とか、
仕事に関係なくオンラインで参加するようなところに行って、
挨拶とかするじゃないですか。
するとですね、他のみんなが、
それこそノートパソコンの内蔵マイクとか使ってるんだと思うんですよ。
あとはイヤーポッツとかね、使ってマイクで参加してると思うんだよ。
30:05
それは否定するわけじゃないけど、
それと比べたら、こっちはマイクに2万かけてますからみたいな。
オーディオインターフェース使ってますからみたいな環境で喋ってるんで、
そりゃいい音になるわけよ。
だからね、音がいいだけでね、
ちょっと評価が上がるという、評価が上がるわけでもないけど、
ちょっと好感度が良くなるっていうのはあると思うよ。
印象が良くなるっていうのはありますね。
だからね、マイクいいの揃えておくっていうのは、
いい音が出せる環境を整えておくっていうのは、
めっちゃ大事だと思います、今の時代。
しかもほら、ビデオツアーとかってさ、
結構顔出ししないで音だけで参加することもあるじゃないですか。
そういう時、やっぱ音の情報ってすごく大事だと思うので、
その時にザーってノイズ入ってるようなやつとか、
音小さいとか音でかすぎるとか、
はっきり聞こえないようなパターンだと、
向こうもこいつ何言ってんだろうみたいな、
そっちが気になっちゃって入ってこないんだよね。
私もたまにあります。
マイクもそうだし、ネットもそうなんだけど、
オンラインでミーティングやるのに、
どっかのカフェのWi-Fiとかから参加してる人とかってたまにいるんだよ。
クライアントっていうか、面談相手とかでね、
会社の採用担当の人とかいるんだけど、
まずネット環境悪いから映像が乱れるし、
かつ音も後ろのカフェのガチャガチャ音みたいなのも入ってるし、
マイクの音質も悪いからボソボソ言ってて、
何言ってるかわからなくて、
すいません、何て言ったんですかみたいなこと結構あるんだよね。
あります。
なので、本当にね、
オンラインミーティングとかオンラインで何かそういうやりとりすることが多い人は、
マイク、ちょっと金かけたほうがいいと思う。
これはもう本当に実体験ですけど、
1回いいマイク使って参加すると、
多分確実に言われると思う。
全員ではないと思うけど、
確実に、あれ、何々さん、何か音良くないですか?みたいな。
絶対言われるから。
だってそもそもみんながやってないからね。
みんながやってないからこそ音良いと、
あれ、何か音良くないですか?ってね、
多分言われると思うんで。
嬉しいじゃないですか、やっぱ。
音良いですねって言われるの。
音悪いですねって多分言われないと思うんだけど、
ちょっと聞こえづらいなーってよく言われる人は、
多分それ遠回しに聞こえづらいよって言われてるからね。
めちゃくちゃオブラートに包んで、
33:00
すいません、ちょっと音が聞こえづらくてっていうのは、
あなたのマイク環境最悪ですって言ってるのと同じだからね。
そこは逆に、音良いですねってちょっと言わせてみたくないですか?
っていうね、ちょっと話が逸れましたけど、
とにかく音大事ってことね。
なんでそんな話になったんだっけ?
とりあえず、私は音声の、自分のボイスクロール作ったりはしてますけど、
自分で使うことはあんまりなくて、
自分の声でしゃべる機会の方が多いという状況です。
だからこそ、みんなに使ってもらえたらなというふうに考えてはいます。
ただ、現状まだ公開されてない。
今日もちょっと編集したんですよ。
今日編集したわけじゃないのかな?
この前はボイスを追加してそのままにしてたのかな?
完成の手続きみたいなのが毎回必要だったりして、
ややこしいんですけど、
さっき公開というか、完成というふうな状態にして、
この後私が共有設定を変えれば出来上がって、
みんなの元にライブラリーに追加されるという状態だと思うんで、
そしたら多分みんなも使えるようになるんじゃないかなと思います。
一応、駆動っていう名前で登録してあって、
駆動、ナレーター括弧JPとかみたいな名前で作ったかな?
AIの名前考えてもらったんですけど。
もし見つけたら使ってみてください。
ちなみにこの音声、使ってもらえるとお金が入ってくるんですね。
すごいよね。
だからいい音声を、いいボイスクローンを作っておいて、
たくさん使われるとそれだけ収益にもつながるということで、
そういったところに興味ある人もぜひ使ってみるといいんじゃないかなと思います。
収益を得るには自分がボイスクローンを作らなきゃいけないんですけどね。
当たり前だよね。こっちは提供してる側で、
ボイスを実際に使う側は利用者っていう形になるので。
11 Loves 一応アフィリエイトのシステムもあるんで、
今後、11 Loves のアフィリエイトリンクなんかもNodeのほうには張っていこうかなとは思ってます。
今回、仕事で11 Loves 使ってみて本当に良かったんで。
ちょっとまだまだ、API とか MCB から使うのはすごく便利ですね。
これが最強です。
一部、音が変とかイントネーションの調整がしづらいっていう場合は、
手でやったほうが早いっていうね。
36:00
GUI 上で11 Loves のサイトにアクセスしてやったほうが早いっていうのはもちろんあるんですけど、
基本的には MCB API でコンピューターから叩かせたほうが早いです。
一気に生成してくれるし。
そっちがお勧めなんですけど。
どちらにせよ11 Loves めちゃくちゃ良いサービスなんで、
ちょっとアフィリエイトリンクなんかも貼っておこうかなと思います。
よかったらそちらから11 Loves 使ってみていただけると嬉しいです。
っていうところかな。
一応言っておくと、もう一個ちょっとややこしいんですけど、
IVC と呼ばれるものもあるんですよ。
これはインスタントボイスクローンっていうふうに呼ばれるもので、
さっき私が言ってたプロフェッショナルボイスクローンとは全く別物。
全くでもないのかな。別物ではあるんですけど。
良い声、良いボイスクローンを作る場合は、
さっき言ったプロフェッショナルボイスクローンでいいんですけど、
ちょっとした音声の収録でできるんだよね。
ここだ、書いてあったわ。
インスタントボイスクローンが、
必要なデータの量が数分でOKなんですよ。
かつ作成される時間もほぼすぐに作られます。
本人確認とかも特にいらないみたいです。
手軽なんですけど、本人に似てるかって言われると、
かなりそこは微妙というか控えめになってます。
このクリエイタープランで使える、
今回私が作ったプロフェッショナルボイスクローンというのは、
最低でも30分。
理想は2時間から3時間の音声データが必要で、
本人確認も必要、そして学習にも時間がかかります。
実際作ると2時間から6時間ぐらい待たされるみたいなことも書いてあったんで、
結構待ちます。
本人確認は必須、自分の声のみ必要になりますが、
その代わりかなり高品質で本人に近しい音が出せるという違いがあります。
ただ、Ivcはクリエイタープランじゃなくても作れると思います。
ただ収益化とかは確かできなかったはずですね。
確か収益化とかはできないはずなんで、
そこだけは気をつけていただけるといいかなと思います。
あとは、これはわざわざ言う必要もないかなと思ったんですけど、
一応伝えておくと軽くね。
ボイスクローンを作るときのコツがあるみたいで、
39:01
これはEleven Lovesの公式サイトで言われているものなんですけど、
一言でまとめると、
ガーベージイン、ガーベージアウトというふうに英語で書かれているらしくて、
日本語で言うと質の悪い素材からは質の悪い声しか出ないということらしくて、
当たり前なんですけど、
いい音、いいボイスクローンを作りたいんだったら、
いいボイスを収録してアップロードしましょうというものになっています。
7つのコツというのは、完璧な録音から始める、
表現豊かで多様な音声を入れる、
0.3秒から0.5秒の無音を入れて自然な間を教える。
なるほどね。間も大事なんだね。
私はあまり意識していなかったけど。
データセットをきれいにする、録音条件を一定にする、
適切なデータ量、
設定を調整、
本番前にストレステストというのがコツらしいです。
詳しくは公式ブログに書かれているものなので、確認してみてください。
ここまで意識してやっている人はなかなかいないかなと思うんだけど、
私の場合はPodcastでただしゃべって、
それから収録したやつをアップしただけなので、
そこまでのクオリティはあまり期待できないかなという感じですけどね。
あとはProfessional Voice Cloneの公式ドキュメントに書かれていることで言うと、
必要なデータ量は、さっきも言いましたけど最低30分、
推奨は2時間から3時間。
理想は3時間に近いほどいいそうです。
長尺の場合は30分前後に分割してアップロードするのが推奨されています。
マイク距離は握り拳2個分。
そういうのもあるんだね。
音量は-23から-18デシベル。
RMSピーク-3デシベルか。
防音環境単一話者のみ。
本人確認が必要であると。
自分の声であることを確認するプロセス。
失敗したら24時間後に再試行。
もしかしたらあれが本人確認なのかな?
なんかね、音声アップロードした後に、
急にその、
録音っていうか、
登録画面で収録して音を提出するところがあるんですよ。
あれもしかしたら本人確認なのか?
これなんか毎回やらなきゃいけないのかなと思って、
これ何なんだろうって思ったけど、
これ多分本人確認なんだろうな。
なるほどね。
だから他人の声をアップロードっていうか、
学習させたりではできないってことなんだろうね、多分ね。
42:03
なるほど、そっか、そうだよね。
ファインチューニング、学習が走って完了を待つ必要があります。
対応言語は幅広いが、
元の言語と違う言語を喋らせるとアクセントが残る、
発音が不正確になることがあると。
歌唱は非対応、歌ですね。
歌にはちょっと非対応していると。
入力音声の特徴はそのまま全部コピーされる。
口癖、ノイズも込みで再現されるので、
素材名称が重要。
やべえ、どうしよう。
口癖。
私も結構いろいろ口癖ありますからね。
人それぞれあると思うんだけど、
何だろう、例えば。
私がよく言う言葉。
でも私はいとかうんとかも結構言うね。
えーとかあのーとかも言うし、
あれはフィラー音って言うんですけど、
何だろう。
何だろうもよく言うね、何だろう。
あとシンプルにとか、
いわゆるとか、結構言いますよね。
自分でも気づいているのもあるから、
たぶん聞いているみんなの方が、
ヤクドウ口癖でよくこれ言ってますよって
たぶんあると思うんだけど、
そういったのもなんか再現されちゃうそうです。
やべえな、やべえやべえ。
まあ喋らせない限りはたぶん言わないとは思うんだけどね。
なんか急にさ、
書いてもいないテキストから音声作ると思うんだけど、
書いてもいない音声が急に入ってくるってことは、
たぶんないと思うんだけどな、さすがに。
さすがにないとは思うんですけど、
まあそういったのもノイズとかも込みで
再現されちゃうらしいんで、
ノイズはほとんど載ってないかな。
でも、
ゼロとは言い切れないですね。
一応、アドビューオーディション上で
編集かけた音声をアップロードしてはいますけど、
ノイズゼロとはちょっと言い切れないんで、
私の音声はそこまでクオリティー高いとは言い切れませんので、
興味がある人がちょっと使ってもらえたらなと思います。
というところですかね。
そんな感じで、
今、通知が来てたわ。
ボイス駆動ナレーターJP is ready to useって来てる。
Your professional voice is ready to be used withmodel 11 Multilingual V2
って出てますね。
ということで、私の声公開されました。
なので、よかったらぜひ使っていただけると嬉しいなと思います。
まとめると、11Labsはものすごく音を回り、
AIにいろいろ作らせたりする音回りは、
45:03
本当に何でもできるって感じなんで、
SEもいけるし、BGMも作れる。
もちろんボイスもいける。翻訳とかもね。
日本語で自分で喋って、
英語の音声を作成するなんてこともできたりするんで、
非常にいろいろなことができるんで、
もしよければアフィレートリンク貼っておくんで、
よかったらそちらから使っていただけると嬉しいかなと思います。
あとは、話し逸れた時に言いましたけど、
マイクとか音の環境、みなさん整えましょう。
みんなやってないから。
みんなその辺、手抜いてるというか侮ってると思うんだけど、
そこで抜きんでましょう。
カメラをこだわるでもいいと思うけど、
カメラの映像はね、
私もあんまり苦手だからやってないからあんまり言えないけど、
ネットワークの環境とかね、
使ってるツール、
Zoomとかもさ、
Google Meetとかもね、
Google AI Proとかのユーザーとかだと、
ビデオの映像が1080pになったりして綺麗になったりしますけど、
そもそも私、
カメラの映像が別に一眼とかで撮ってるわけじゃないから、
綺麗じゃないからね。
ちょっと難しいですけど、
音は大体でもどのツール、
ZoomでもGoogle Meetでも、
カメラオフでもね、
アピールできるというか、
いい音で聞いてもらえるっていうことができるんで、
マイクいいですよ。
投資する価値あると思います。
特に在宅で仕事してる人とかは絶対ね、
音、いい環境にしてみてください。
私のみたいにマイクとオーディオインターフェースまで用意しなくてもよくて、
今だとね、
USBで使える高品質なマイクとかもあったりするんで、
Amazonとかで1,2万円も払えば、
そこそこいいマイク買えると思うんでね。
ぜひぜひ、
内蔵マイクとか、
AirPodsのマイクも微妙かな。
使ってる人多いから余計思うけど、
ちゃんとしたマイクでやって、
周りのみんなを驚かせてください。
音いいなというふうに言われてみてください。
めちゃくちゃ嬉しい気持ちになります。
今回はここまでにしたいと思います。
コメントやお便りで皆さんのご意見ご感想お待ちしております。
サブスタッフでクドマガも毎日配信してますので、
よかったら概要欄のリンクから無料購読してみてください。
ここまで聞いていただきありがとうございました。
それではまた次の配信でお会いしましょう。
バイバイ。