無料で使えてクレジット表記も不要な音声読み上げツールTTSmakerと、ElevenLabsで自分の声を元に作った音声読み上げの声を紹介しました。
=== 目次 ===
無料で使える音声読み上げTTSmaker
CapCutは無料プランに戻した
ElevenLabsは日本語の読み上げに難あり
わたしの声をもとに音声読み上げ1
わたしの声をもとに音声読み上げ2
ElevenLabsでの音声読み上げ例
TTSMakerでの音声読み上げ例
-------
#アシカガCAST
デジタル活用のヒントをスキマ時間で。
話題のサービス、注目のソフトウェアの紹介、デジタルツールの活用術など、テック系情報をわかりやすくお届けします。
月〜水 朝8時に更新
■アシカガCAST文字起こし要約|アシカガコウジ|note https://note.com/ashikagacast/m/mbc989fbedb84
■X(Twitter)アカウント
https://twitter.com/ashikagacast
Apple Podcast、Spotify、Google Podcastなどでも配信しています。
■アシカガCASTの聴き方
http://typebot.io/ashikagacast
■アシカガノオト
https://ashikaga.substack.com/
00:01
以前、動画を作るときの音声読み上げは、
キャプカットを有料版にして使っていると言いました。
でも、今は状況が変わっていて、
キャプカットを使わずに、無料のオンラインツールの
TTSメーカーを使っています。
TTSメーカーは、無料プランでも商用利用OKで、
クレジットを入れるのも必須ではありません。
以前も話しましたが、日本のサービスで音声読み上げの
いいツールもいっぱいあるんですが、
例えば、ボイスボックスとか有名なんですが、
ボイスボックスも無料で使えて、
商用利用もできるんですが、
必ずクレジットを表記しないといけないんですね。
TTSメーカーは、一度に読み上げられる文字数が
そんなに多くはないんですが、
特に他に機能制限で不便なことは感じていません。
日本語で使える声の種類も豊富で、
読み上げも結構自然だと思います。
キャプカットだと、動画編集をしながら字幕を入れて、
それを音声読み上げするというワークフローができるんですが、
TTSメーカーを使う場合は、一旦音声ファイルとして書き出して、
それを動画編集ツールに読み込む必要があります。
なので、ひと手間かかるわけですが、
でも動画編集するツールが、
CanvaでもPremiere ProでもAfter Effectsでもいいので、
自由度が高いですね。
なので、今の私のワークフローとしては、
一旦音声読み上げをファイルとして書き出すというのは都合がいいです。
なので、キャプカットは無料プランに戻しました。
キャプカットは最近どんどん無料プランでできることの制限が厳しくなってきてるんですが、
無料プランでは音声読み上げができなくなっていたんですが、
無料プランでも音声読み上げの声の種類がもう2種類とかになってしまっていました。
今後増える可能性はもちろんあるんですが、逆にもっと減る可能性もありますよね。
今まで使えていた声が使えなくなって、別な声しか使えなくなったりすると、
作っている動画で声の一貫性が保てなくなったりする可能性もあるので、
キャプカットがあまり信用できないなと感じてしまっています。
03:01
キャプカットにはボイスチェンジャーの機能など簡単に音を加工する機能があって、
その辺もいいところだとは思っていました。
でも今やほとんど有料プランじゃないと使えません。
ボイスチェンジャーは無料プランで使えるのは高い声、低い声の2種類しかありません。
キャプカットの有料プランには自分の声を元に音声読み上げ用の声を作る機能もあります。
それを使って娘の声で音声読み上げさせてみたりしていたんですが、
キャプカットを無料プランに戻したので、その機能も使えなくなってしまいました。
でも私は今、11LABSというツールを有料で使っているので、
この11LABSで自分の声を元に音声読み上げ用の声を作ることができます。
実際に作っています。
11LABSは音声読み上げ用のツールなんですが、私は主に効果音を作るために使っています。
無料でも使うことはできるんですが、
有料版にしたのは11LABSで作った音を使ったコンテンツを発表するときに、
有料プランだとクレジットを入れる必要がないからです。
11LABSで作りましたよという記述を入れなくていいということですね。
じゃあさっき言ってた無料のTTSメーカーを使わずに、
せっかく有料プランを使っている11LABSで音声読み上げをすればいいじゃないかと思うんですが、
11LABSは日本語の読み上げのクオリティが低いんですね。
発音、イントネーションが今一つな部分が多いですし、漢字の読みもよく間違えます。
こんなところで間違えないだろうみたいな文字を間違えたりしてしまいます。
漢字が連続していると中国語のような読み方をしたりするようにも感じました。
読み上げ用のモデルを複数選べるんですけども、
最新のクオリティが高いはずのモデルの方が日本語が苦手なように感じました。
11マルチリンガルV2という最新版よりも、
11フラッシュV2.5の方が日本語に関してはより自然な感じがします。
06:04
なので、11LABSの日本語の読み上げに関しては今後に期待という感じなんですが、
自分の声を元に読み上げ用の声を作れるというのは確かに面白いです。
2分以内、10MB以内の音声ファイルを元に声のクローンを作ってくれます。
実はもう1段階上の値段が高いプランがあって、
そのプランだと30分くらいの音声を元にプロフェッショナルボイスクローンというのを作れるそうです。
これを使えばもっといい音声が作れるのかもしれませんが、
11LABSがもともと提供しているボイスを含め、
どれも根本的に日本語の読み上げがそこまでクオリティが高くないので、
このプロフェッショナルボイスクローンを使っても声がよりニールだけで、
読み上げの発音とかイントネーションとかはよくならないんだと思います。
ここで実際に私の声を元に作ったクローンで読み上げた音声を聞いてください。
ただ、自分の声を元に読み上げ用の声を作れるのは確かに面白いですね。
2分以内、8MB以内の音声ファイルを元に作れます。
実はもう1段階値段が高いプランがあって、そのプランでしか作れないプロフェッショナルボイスクローンという機能もあります。
はい、いかがだったでしょうか。
日本語が下手だ下手だと言っていたんですが、今やってみたら意外とちゃんと読めましたね。
ただ、2分以内、10MB以内の部分がちゃんと読めてなかったです。
2分が2分になっていたのはまあ許せる範囲として、
10MBのところが8MBみたいになっていましたね。
まあそうやって間違えたところはひらがな、カタカナにするとか調整しつつやれば何とかなりはします。
有料プランでもクレジット制で1ヶ月に使えるクレジット数は制限があるんですが、
これぐらいの音声読み上げを2回3回繰り返したところで使えるクレジット数にしてそこまで大きくはありません。
で、さっきの読み上げが最新版の方のモデルだったんですが、
1つ古いモデルで読み上げたのがこの音声です。
ただ、自分の声を元に読み上げ用の声を作れるのは確かに面白いですね。
09:01
2分以内、10MB以内の音声ファイルを元に作れます。
実はもう一段階、値段が高いプランがあって、そのプランでしか作れないプロフェッショナルボイスクローンという機能もあります。
こっちの方がより日本語として自然な感じがすると思います。
次に、イレブンラブスにあらかじめ用意されている日本語の女性の声で読み上げたものも聞いてもらいたいと思います。
ただ、自分の声を元に読み上げ用の声を作れるのは確かに面白いですね。
2分以内、10MB以内の音声ファイルを元に作れます。
実はもう一段階、値段が高いプランがあって、そのプランでしか作れないプロフェッショナルボイスクローンという機能もあります。
なんか妙に生々しさというか、人間っぽさは強い感じがしますよね。
なので、日本のアニメっぽいような音声読み上げとは、ちょっとアプローチというか狙ってるところが違うのかなと感じたりもしました。
最後、TTSメーカーで読み上げた音声です。
ただ、自分の声を元に読み上げ用の声を作れるのは確かに面白いですね。
2分以内、10MB以内の音声ファイルを元に作れます。
実はもう一段階、値段が高いプランがあって、そのプランでしか作れないプロフェッショナルボイスクローンという機能もあります。
こっちの方がいかにも音声読み上げだなと分かるけど、耳なじみがいいというか、もう慣れちゃってる感じの音声だなと感じますね。
今回は以上です。アシカガコウジがお届けしました。
キャストアシカガ〜♪。
11:10
コメント
スクロール