音声読み上げツールの選択
以前、動画を作るときの音声読み上げは、
キャップカットを有料版にして使っていると言いました。
でも、今は状況が変わっていて、
キャップカットを使わずに、無料のオンラインツールの
TTSメーカーを使っています。
TTSメーカーは、無料プランでも商用利用OKで、
クレジットを入れるのも必須ではありません。
以前も話しましたが、日本のサービスで音声読み上げの
いいツールもいっぱいあるんですが、
例えば、ボイスボックスとか有名なんですが、
ボイスボックスも無料で使えて商用利用もできるんですが、
必ずクレジットを表記しないといけないんですね。
TTSメーカーは一度に読み上げられる文字数が
そんなに多くはないんですが、
特に他に機能制限で不便なことは感じていません。
日本語で使える声の種類も豊富で、
読み上げも結構自然だと思います。
キャプカットだと、動画編集をしながら字幕を入れて
それを音声読み上げするというワークフローができるんですが、
TTSメーカーを使う場合は、一旦音声ファイルとして書き出して、
それを動画編集ツールに読み込む必要があります。
なのでひと手間かかるわけですが、
でも動画編集するツールがキャンバーでもプレミアプロでも
After Effectsでもいいので自由度が高いですね。
なので今の私のワークフローとしては、
一旦音声読み上げをファイルとして書き出すというのは都合がいいです。
なのでキャプカットは無料プランに戻しました。
キャプカットは最近どんどん無料プランでできることの制限が厳しくなってきてるんですが、
無料プランでは音声読み上げができなくなっていたんですが、
無料プランでも音声読み上げの声の種類がもう2種類とかになってしまっていました。
今後増える可能性はもちろんあるんですが、逆にもっと減る可能性もありますよね。
今まで使えていた声が使えなくなって別な声しか使えなくなったりすると、
作っている動画で声の一貫性が保てなくなったりする可能性もあるので、
キャプカットがあまり信用できないなと感じてしまっています。
11LABSの機能と性能
キャプカットにはボイスチェンジャーの機能など簡単に音を加工する機能があって、
その辺もいいところだとは思っていました。
でも今やほとんど有料プランじゃないと使えません。
ボイスチェンジャーは無料プランで使えるのは高い声、低い声の2種類しかありません。
キャプカットの有料プランには自分の声を元に音声読み上げ用の声を作る機能もあります。
それを使って娘の声で音声読み上げさせてみたりしていたんですが、
キャプカットを無料プランに戻したので、その機能も使えなくなってしまいました。
でも私は今、11LABSというツールを有料で使っているので、
この11LABSで自分の声を元に音声読み上げ用の声を作ることができます。
実際に作っています。
11LABSは音声読み上げ用のツールなんですが、私は主に効果音を作るために使っています。
無料でも使うことはできるんですが、
有料版にしたのは11LABSで作った音を使ったコンテンツを発表するときに、
有料プランだとクレジットを入れる必要がないからです。
11LABSで作りましたよという記述を入れなくていいということですね。
じゃあさっき言ってた無料のTTSメーカーを使わずに、
せっかく有料プランを使っている11LABSで音声読み上げをすればいいじゃないかと思うんですが、
11LABSは日本語の読み上げのクオリティが低いんですね。
発音、イントネーションがいまひとつな部分が多いですし、漢字の読みもよく間違えます。
こんなところで間違えないだろうみたいな文字を間違えたりしてしまいます。
漢字が連続していると中国語のような読み方をしたりするようにも感じました。
読み上げ用のモデルを複数選べるんですけども、
最新のクオリティが高いはずのモデルの方が日本語が苦手なように感じました。
11マルチリンガルV2という最新版よりも、
11フラッシュV2.5の方が日本語に関してはより自然な感じがします。
なので、11LABSの日本語の読み上げに関しては今後に期待という感じなんですが、
自分の声をもとに読み上げ用の声を作れるというのは確かに面白いです。
2分以内、10MB以内の音声ファイルをもとに声のクローンを作ってくれます。
実はもう1段階上の値段が高いプランがあって、
そのプランだと30分くらいの音声をもとにプロフェッショナルボイスクローンというのを作れるそうです。
これを使えばもっといい音声が作れるのかもしれませんが、
11LABSがもともと提供しているボイスを含め、
どれも根本的に日本語の読み上げがそこまでクオリティが高くないので、
このプロフェッショナルボイスクローンを使っても声がよりニールだけで、
読み上げの発音とかイントネーションとかはよくならないんだと思います。
音声の実際の評価
ここで実際に私の声をもとに作ったクローンで読み上げた音声を聞いてください。
ただ、自分の声をもとに読み上げ用の声を作れるのは確かに面白いですね。
2分以内、8MB以内の音声ファイルをもとに作れます。
実はもう1段階、値段が高いプランがあって、そのプランでしか作れないプロフェッショナルボイスクローンという機能もあります。
はい、いかがだったでしょうか。
日本語が下手だ下手だと言っていたんですが、今やってみたら意外とちゃんと読めましたね。
ただ、2分以内、10MB以内の部分がちゃんと読めてなかったです。
2分が2分になっていたのはまあ許せる範囲として、
10MBのところが8MBみたいになっていましたね。
まあ、そうやって間違えたところはひらがな、カタカナにするとか調整しつつやれば何とかなりはします。
有料プランでもクレジット制で1ヶ月に使えるクレジット数は制限があるんですが、
これぐらいの音声読み上げを2回3回繰り返したところで使えるクレジット数にしてそこまで大きくはありません。
で、さっきの読み上げが最新版の方のモデルだったんですが、
一つ古いモデルで読み上げたのがこの音声です。
ただ、自分の声を元に読み上げ用の声を作れるのは確かに面白いですね。
2分以内、10MB以内の音声ファイルを元に作れます。
実はもう一段階、値段が高いプランがあって、そのプランでしか作れないプロフェッショナルボイスクローンという機能もあります。
こっちの方がより日本語として自然な感じがすると思います。
次に、イレブンラブスにあらかじめ用意されている日本語の女性の声で読み上げたものも聞いてもらいたいと思います。
次に、日本語の女性の声で読み上げたものは聞いてもらいたいと思います。
どうぞ。
人間っぽさは強い感じがしますよね なので日本の
アニメっぽいような音声読み上げとはちょっとアプローチというか狙ってる ところが違うのかなと感じたりもしました
最後 tts メーカーで読み上げた音声です ただ自分の声をもとに読み上げ用の声を作れるのは確かに面白いですね
2分以内10メガバイト以内の音声ファイルをもとに作れます 実はもう1段階値段が高いプランがあってそのプランでしか作れない
プロフェッショナルボイスクローンという機能もあります こっちの方がいかにも音声読み上げだなとわかるけど耳なじみがいいというか
もう慣れちゃってる感じの音声だなと感じますね 今回は以上ですアシカガコウジがお届けしました
キャストアシカガ〜♪