2025-06-06 08:45

859😱音声AIの罠…ごめんなさい…もう自分が分からなくなってしまいました…Fish AudioボイスクローンAIがやばすぎる!

※リンクはアフィリエイト広告を含みます


✅️関連リンク

🔗え、俺?ボイスクローンAI「Fish Audio」がやばいw 自分でも判別不能…?無料/数十秒録音しただけなのに…

https://note.com/koukichi_t/n/n1abeceeee05b

Fish Audio

https://fish.audio/?aff=QLO4F7WRJEUDC


🔗 乗っ取られました!(嘘)AI音声Elevenlabsで声をクローンした結果…

https://note.com/koukichi_t/n/nb1470c62f170

Elevenlabs

https://try.elevenlabs.io/xslt0g6h60gj 


✅️ 目次

[] 前回のElevenlabs音声クローン配信について[] Elevenlabs音声クローンのイントネーションに関する課題[] 今回の冒頭音声はAIボイスクローンでした!(Fish Audio)[] Fish Audioで生成したAIボイスクローンのクオリティがやばい[] 利用したFish Audioサービスの詳細と私の録音環境[] 自分でも見分けがつかなかったFish Audioの音声生成技術[] Fish Audioでの音声生成プロセスとリスト表示の確認[] Fish Audioのプレミアムプランを検討中[] Elevenlabsの新機能と私の利用状況[] Fish Audioの料金体系はElevenlabsより安い[] Fish Audioプレミアムプランでの音質向上への期待と「やばさ」[] Fish Audio無料プランの文字数・生成回数制限について[] より自然な音声のための再生成と調整方法[] Fish Audioの再生成のしやすさと無料枠の利用状況[] 今回の収録目的:Fish Audioのすごいクオリティを伝える[] 今後の音声関連技術の試用と情報発信今回の収録では、前回に引き続き音声関連の話題をお届けしました。特に、前回試したElevenlabsという音声クローンサービスについて触れ、音質や声は悪くないものの、イントネーションに課題があったことを話しました。これは、サンプル音声の選び方にも問題があったかもしれません。


そして、今回の配信の冒頭で聞いていただいた音声は、実はAIで作ったボイスクローンでした。これは「フィッシュオーディオ(Fish Audio)」というサービスを使って生成したものです。このFish Audioの音声クローンが本当に「やばい」と感じた経験について詳しく話しました。あまりに滑らかで、自分で生成したにも関わらず、一瞬自分で録音した音声かと思ってしまうほどでした。脳がバグるような、その見分けがつかないレベルのクオリティに驚いています。


Fish Audioは私が以前から触れていたElevenlabsと比較しても、特に価格面で非常に安いです。無料プランでは生成に回数や文字数の制限があり、短い文章を分割して生成し、自分で組み合わせたり、発音がおかしい部分を何度も再生成したりする工夫が必要でした。しかし、その結果としてかなり自然な音声が得られることも分かりました。


現在、Fish Audioのプレミアムプランも検討中です。有料プランにすれば、音質がさらに向上したり、生成の制限が緩和されたりする可能性があります。そうなれば、さらに区別がつかなくなるだろうと感じています。今回の配信の主な目的は、このFish Audioのボイスクローンの「やばさ」を皆さんに伝えることでした。今後も音声関連の新しいサービスを試して、情報発信を続けていきたいと思っています。


#聴くまとめ #AI #Elevenlabs #音声クローン #テクノロジー #効率化 #イレブンラボ #生成AI #ビジネス #ライフハック #ポッドキャスト #AIクローン #音声クローン #ボイスクローン 


--


✅️YouTube収録/ポッドキャスト/ライブ配信関連機材

🎙️今回の収録機材

🎙️Fifine K688 

Amazon https://www.amazon.co.jp/dp/B0BK49VSMD/?tag=kt_podcast-22

楽天 https://a.r10.to/hRfVPj

AliExpress https://s.click.aliexpress.com/e/_ol07z9 


📷️WEBカメラ:Insta360 Link

https://www.amazon.co.jp/shop/kt.pics/list/KUI7D4JMYJF6?ref_=aip_sf_list_spv_ons_mixed_d⁠


📎まとめ:YouTube収録/ポッドキャスト/ライブ配信関連機材

https://www.amazon.co.jp/shop/kt.pics/list/KUI7D4JMYJF6


✅️使用アプリなど

音声編集:Adobe Audition

https://prf.hn/l/vwza4G3/ 

動画編集:Adobe Premiere Pro

https://prf.hn/l/614bQWX/ 

全部入りCreative Cloud 

https://prf.hn/l/3PqjAQJ/ Adobe Fireflyhttps://prf.hn/l/9O5qVXD/

--


✅️買ったやつ。ガジェット関連おすすめなどまとめ

Amazonマイストア

⁠⁠⁠https://www.amazon.co.jp/shop/kt.pics

Amazonの新機能です。楽天ルームみたいなかんじのやつ。

カテゴリ分けして載せてるので、気になるものあればコメントなどもらえたらポッドキャスト内で紹介します


--


✅️関連SNS

ブログ

⁠⁠https://koukichi-t.com/

Twitter(X)ポッドキャスト用

https://x.com/kiku_matome

Twitter(X)中の人

https://x.com/Koukichi_T


✅️YouTube

ガジェット本音レビューチャンネル

https://www.youtube.com/channel/UCZzl7IurT1V8-HPrF0S07GQ

SNS関連情報チャンネル

https://www.youtube.com/channel/UCkDwn4gZY8VYHAxCkHynTWw


--


この番組はkoukichi_tが、SNS、エンタメ、ガジェットの話題を余談だらけで紹介していくポッドキャスト、まとまらなくてもまとめ「聞くまとめ」です。倍速再生、ながら聞きで情報収集に活用してください⁠⁠

※アフィリエイト広告リンク含みます⁠


以下でも聞けます!「聴くまとめ」で検索!

Apple Podcast/Amazon/YouTube/Spotify


Summary

音声AI技術の進展は驚異的であり、特にフィッシュオーディオと11LABOという音声クローンサービスに関する体験が紹介されています。発音やイントネーションの課題に直面しながらも、AI技術の可能性に驚いている様子が描写されています。

音声AIの体験
2025年6月6日、昼の収録です。
今回も前回に引き続き、音声関連の話題になります。
前回の配信、聞いてもらえたでしょうか?
前から触れてた11LABOっていう音声クローン作れるサービス、それを使って配信しました。どうだったでしょうか?
とにかくね、イントネーションがやばい。
11LABOって、音声クローン作成したりとか、テキスト読み上げさせたりできるサービスで、めちゃくちゃ有名なとこなんだけど、
それがね、なんかちょっと微妙だっていうところに前から触れてて、
1回もボットキャストでその音声クローンを使って配信したことなかったので、前回試した感じになります。
気になる方はぜひ聞いてみてください。
音質とか声は似てるし悪くないんだけど、とにかくイントネーションがやばい。
前回の中では触れられなかったんだけど、とはいっても問題は俺の方にもあって、
サンプル音声を過去の適当な配信の音声アップロードしまくって、上限の2時間を埋めたって感じになります。
その結果、出来上がった感じが前回のやつです。
声とか音質は問題ないんだよね。
声に関してはかなり近いというか、そのままかなという感じです。
ただ本当にイントネーションやばくて、みたいな中、今回も同じような話に触れようと思います。
気づいたでしょうか?
実は今まで、AIで作ったボイスクローンの音声でした。
いや、マジでやばいんだけど。
音質的に気づく人もいるかもしれないけど、喋り方的には、
淡々とした文章にとりあえずしておいたので、
さっきみたいにヤバくない?みたいなそういう感じは多分表現は難しいかもしれないけど、繰り返しやればもしかしたら再現できるかもしれないけど。
そう、というとこで結構ね、やばい。
聞いた人がどう思うかってわかんないけど、
今ここで聞いてもらったのは、俺が今まさしく収録している音声なので、
いつものマイクの環境で録っています。
対して今回使ったボイスクローンのサービス、フィッシュオーディオっていうサービスなんだけど、
そっちは俺のマイクのこの環境と同じ感じに聞こえるように調整はさすがにできないので、
あくまで俺が録音したデータからそれを読み上げに使ってくれてるから、
フィッシュオーディオについて
収録に使ったのはサンプルデータとして、録音データとして渡したのはこのマイクで録ったものではあるんだけど、
そもそもさ、プレミアムくらいにしないと音質自体が低いとか多分そういうのもあったりすると思うので。
そう、って考えるとね、こういうふうに今みたいに2つの音声を並べちゃったら、そりゃ違うのはわかると思うんだけど、
なんかさ、俺が淡々と喋ってる時の感じと、聞こえ方、音質まで同じにしたら多分ね、見分けつかないと思う。
というのも俺自身が見分けがつかなかった。
ちょっとね、散々ツイートしてノートも書いたりしたんだけど、
なんていうの、そのフィッシュオーディオというサービスは、なんかさ、そのさ、イレブンラボっていうサービス、ボトルヘタみたいな。
普段も課金して使っていたもの。
それよりも良さそうなものが無料でもあるとか、なんかそういう話でちょこちょこ触れていました。
聞いてくれてる人は伝わるかもしれないけど。
そう、で、なかなか触れる機会がないままだったんだけど、なので、もう先月に触っていたサービスになります。
すごいなと思ったんだけど、ちょっとその先、配信の方でも使うこともなく、みたいな状況になってしまっていて、
今日ふと、あ、そうだと思って触ったら、時間が空いちゃってるからさ、触った日付、作った日付を見ると5月19日ぐらいでした。
で、今日が6月6日でしょ。
20日ぐらい経ってるんだよね。20日ぐらい経ってるよね。
そう、だからね、記憶もちょっと曖昧で、なんかね、あまりにも滑らかすぎて、
え、これほんとに、俺がサンプルデータとして録音したものじゃないよねっていう疑問を持つぐらい。
俺がサンプルデータとして録音したものであるはずはないんだけど、ずらっと制作したものの並んでって、そこの再生した時に、
なんか、あの、もう全然俺みたいに聞こえるものがあって。
そこは繰り返しになるけど、作成したもの並んでるランナーが俺の声であるはずはないわけよ。
俺の声って俺の録音データってことね。
読み上げに決まってんの。あまりにも滑らかすぎて。
で、そこが一覧でずらっとファイルが分かれてるから、なんかね、一回に長い時間とか取れなくて、これ無料プランだからかもしれないけど。
結構細切れに10秒ずつ区切れるみたいになってて、ずらっとファイルが並んでいます。
ずらっと並んでるから、その中のいくつかをチェックしてみると、明らかにあの、もうおかしいところもやっぱあるわけよ。
なんかね、もう全然日本語になってないみたいな、何語か分かんないみたいなのもあったりはします。
そう、それを確認したから、間違いなく俺の、自分自身が録音した音声ではないなっていうのは、あの確証を持てたんだけど、
そのぐらいね、やばい。自分でも分かんなくなる。
マジで脳バグる的な感じの。
そう、そんなかとツイートとかでもしたりしてたんだけど。
これはやばいね。
で、これもプレミアムプランの方があって、ちょっとね、細かい、何ていうの、何ができるようになるかとか、そういうとこ見てないんだけど、
ちょっと今考えてる最中です。
レブンラブンの方、ラボの方は、今日ちょうどね、その新機能が来たんだよね。
そう、あの別の新しいモデルみたいなのが。
でもね、それは俺が求めてるボイスクローンには多分関係なさそうだったので、
もしくは俺もすでにその、あの月額29ドルか分かんないけど、そのぐらいのプランってもう、あの更新の日付すぎちゃって、簡易のプランに戻っちゃってました。
今後の展望
そう、だから俺はボイスクローンにその最新のモデルの技術が適用できなかったんだか何だかちょっと分かんないんだけど、
とりあえず俺は使うことができなかった。
そう、そんなこと触ってる流れでフィッシュオーディオンの方も今回試したんだけど、
これはね、なんかね、そんな大して変わんない、あ、いや違うな、フィッシュオーディオンの方が全然安いわ。
年払いじゃなくて月払いでも、年払いだったら月額9.99ドルぐらい。
で、月払いでも多分14点何ドルだっけな、そっか、それ考えたらはるかに安いね。
とりあえずお試しで1ヶ月使ってみんなでか。
そうそう、とりあえず課金もしてみようかなって。
多分ね、さっき聞いてもらったので、もし騙された人がいたとしたら、
これがさ、プレミアムプランで音質も向上するのかちょっとちゃんと調べてないけど、
多分上がると思うんだけど、そうなったらさもう、区別つかなくない?っていうヤバさ。
で、まぁちょっとだけ具体的なとこ触れておくと、とは言っても何回か生成をし直しています。
そのこれが無料プラン依存だから起きてることなのか分かんないんだけど、
1回あたり、これ半額で500文字ってことなのかな、日本語で500文字打ててない気がするんだけど、
そのテキスト入力欄に500文のなんて出ていて、
その500を超えちゃうと多分その場で生成ができないのかな。
結構短い文章しか作れないです。
で、それを分割して何個も音声ファイルを作って、
今はもうその複数4つぐらいに分けたものを組み合わせて初っ端に流しました。
そんな感じなんだよね。
そう、で、だから短文を読み上げさせるっていうところから何回もすぐに作り直しがしやすい。
なんかちょっとここの発音おかしいなって思った部分があったらもうすぐ再生成しちゃって、
繰り返していいのが出来上がったタイミングでダウンロードした結果になります。
そう、みたいな感じなので、なんかね、いろんな意味でね、あの、いい感じ。
その形式もいいなと思ったし。
で、クレジットも無料の状態で200分の200って最初になってて、月が変わってリセットされたのか分かんないけど。
で、その生成に関しても、モディ数判定とかではなく、500ってなってたそのカウント、500文字なのか分かんないけど。
その500を1回生成したら、その数を満たしていなかったとしても。
だから1回生成するとその200が1減っていくみたいな、そんなイメージでした、多分。
だから単純計算で200、500文字っぽい、500文字か分かんない、2つ数字出ちゃったから一応言っとくと。
そのテキストの分量っていうところで500っていう数字があって、それは別に使える回数みたいなので200分のって出てるんだね。
だから使える回数ってことなのね。
生成を200回できますよってことだと思います。
だからなんかね、割と気軽に何回もやり直してって出来て。
さっきやったのね、多分10何回ぐらい動けてやり直した形になってると思うんだけど。
まだ180ぐらい残ってるから。
そう、この状態でプレミアムプランしたら多分その量、回数も増えるだろうし。
何書いてあったっけな。
ちょっと詳しくは今ここで話すつもりはないので。
今回はとりあえず、こんなヤバいよっていうのを伝えたくてっていうところで収録をしたので。
はい、ということでこんな感じ。
他にも音声関連のやつね。
これはね、なんかローカルで何かやらなきゃいけないタグなので、俺は手は出さない気がするけど。
ちょっとそっちもヤバそうなのもあります。
無料、無料、無料じゃない、違う違う。
音声関連のやつはちょっとちょこちょこ触れて、また情報を試しながら配信はしようと思うので。
はい、他の方面のも触ったりはすると思うけど、こんな感じで配信をしていこうと思うので。
はい、今回初めて聞いた方、よかったらフォローして、また次回などもチェックしてみてください。
はい、では今回以上となります。
さようなら。
08:45

Comments

Scroll