Whisper AI、文字起こしのAIサービスを使ってみた感想を話してみます。
ズバリですね、ちょっと精度が微妙かもしれないなーっていうのと、でもタイムコードが全部出てきてくれるんで、
字幕ファイルにはなりそうなんで、できたら使いたいと思いましたね。
ちょっと曖昧な話ですいませんが、そんな感じです。
僕はフリーランスで3年間フリーランスやってる37歳のおっさんです。音声配信は4年間やってます。
今日も聞いてもらってありがとうございます。 音声配信やってると、文字起こしをしたいんですよ。
なぜかというと、なるべくいろんな人に届けたいので、テキストでブログにして書いたりとか、
これ今音声喋ってて、ポッドキャストとか配信してるんですけど、実はYouTubeにも流してて、YouTube上ではテキストのフルテロップで流してるんで、
そっちのプロフィールから飛んでもらったら一応そっちもあるんで見てもらったら嬉しいですけど、
ただとはいえ、フルテロップも完全なフルテロップじゃないというか、精度がそこまで完全じゃないのと、
一文字一文字出てくるタイプのフルテロップなんで、ひょっとしたらちょっと見づらいかもしれないんで、
できたら字幕をね、よくYouTubeであるような感じで出したいんですよ。パンパンと一文ずつパンパンと出したいんですよね。
一文ずつね、一文字ずつじゃなくて、だからなんとかね、テキストを文字起こしをしたいって思ってるんですよね。
同じような気持ちの人多いと思うんですよね。ちょっとコミュニティで色々喋ったりしてたんですけど、やっぱり文字起こしどれがいいんかなーとね、
みんな悩んでるんですよね。今日冒頭に言ったWisper AI、これがChatGPTのメーカーさんのAI機能です。
オープンAIのっていうメーカーさんのAI機能で、実は無料で使えるんですよ。
Googleコラボで無料で使えるんですね。
なんと無料で使えるんで、ちょっと使ってみたんですよ。わからないプログラムを一生懸命打ち込みながら頑張ったんですけど。
使ってみた結果、ちょっと精度が落ちてるなと思いました。何に比べてかっていうと、例えばGoogleドキュメントとか、あとは文字起こしサービスで有名なBlueで比べたときにちょっと落ちるかなと。
これYouTubeで見てもらったら画面も有りなんで、よかったらYouTubeでも見てもらったら嬉しいです。
画面上で収益化プログラムっていうのを喋ってるんですけど、
収益化プログラムって言って喋ってるんですけど、収益が集める、って書いてて、僕の滑舌もあんま良くないからなんですけどね。
収益機関が蒸気機関の機関になってて、熱機関とかそういう収益化プログラムがうまく文字起こしされてできてないんですよね。
あとは、スタンドFMが、スタンD、スタンDFM、これ僕の滑舌が悪いかもなんですけど、もしかしたら僕の滑舌が悪いせいかもしれないんですけど、
とはいえ、ちょっと精度がうーんっていうのと、
ただここにタイムコードが全部記録されてるんですね。何秒の間にこの文字を喋りましたっていうのが記録されてるんで、
字幕ファイルとしてアウトプットできるはずなんですよね。
で、ここから他の文字起こしサービスどうかなっていうのを改めて振り返ってみました。
っていうのもいろいろあるんですよね。
有料のサービスが結構あるんで、どれが自分だったらどれ使うかなっていうのを3つぐらい出してみました。
1個目が3つあって、1つがブルー、もともと無料だったんですけど、この4月かな、2023年4月から有料になったサービス。
2つ目がGoogleのサービスでスピーチトゥーテキスト、スピーチはシャベルのスピーチでトゥーテキストでテキストにするよっていうスピーチトゥーテキストっていうサービス。
3つ目がAmazonの文字起こしサービスで、これトランスクリプトランスクライブってAmazonの文字起こしサービス。
料金が3つとも結構安めなんですよね。
一番安いのが、料金、単価がちょっと違うんですけど、一番安いと思われるのが、ブルーのこのライトプランっていうので年間8600円。
1ヶ月あたり1200分文字起こしできます。
これがおそらく一番安くて、1200分足らないって人はもうちょっとあれなんですけど、これなら安いかなと思います。
ブルーはやっぱり精度が結構だいぶ上がってるんで、だから僕はできたらこれ使いたいなと、ちょっと心がだいぶ動いてます。
そしてブルーはさっき言ったような字幕ファイルでの出力もできちゃうんですよね。
それはどういうことかというと、プレミアプロの動画編集に流し込んでバチッとテロップのタイミングを合わせられるっていう。
ブルーの中でやってもいいんですけど、微調整するならプレミアの方でやった方がやりやすいんで、それもできるんでね。
ブルーは年間8600円で、月716円程度なんで、本当にショート動画とかを本気でやりたいとかね。
音声だけじゃなくてショート動画にもサクサクっとテロップ乗っけたいって僕は思ってるんで、ブルー使おうかなっていう気がすごい今湧いてます。
ここで目標みたいな。
すいません、ちょっと娘が学校閉鎖で急遽帰ってきた娘と喋ってました。すいません。
だからブルーをできたらね、多分これが一番安いかなと僕の中で思ってます。
で、次に安いのが、一緒なんですけどね。GoogleのスピーチトゥーテキストとAmazonのトランスクライブ。
こっちがね、ちょっと料金形態がわかりにくいんですけど、ドルなんですよね、ドル。アメリカドル。
えっとね、0.1、どれだったかな。1分あたり、あったあった。1分あたり0.24ドル。
うん、わからない。わからないんですけど、わからないんですけど、計算してみたところどうもだいたい1200分でね、ブルーの1200分で換算したら3000円超えるぐらいやったんですよね。
間違ってた、すいません。1分0.024ドルやから、結構でも計算間違ったかな。60倍してさらにそれを1時間やから。
ちょっと間違ってるかもしれないですけど、あれ?こんな料金形態やったかな。1秒やった気がするんやけどな。ちょっと変わってますね。
ちょっと待ってくださいね、計算しよう。はい、ちょっと計算をし直したんですけど、やっぱあってましたね。
0.24ドルで、ドルなんで安く見えてたんですけど、円換算すると、えっとね、月付きが1200、1200分の時3312円やったかな。
3312円になる感じなんですよ。0.24ドル円、1分あたりやと。
なんでこれね えっとあれえっとブルーねブルーの方は年間8600円なんでしかも1ヶ月716円
単価なんでそれやったらもうブルーでいいかなーという気もしますよね1200分まで ったかねはい
で同じでグーグルなんで精度は結構やっぱりいいと思います あのあれグーグルドキュメントの制度なんでほんで
今これにちょっと youtube の方で見てもらっている人はこの字幕出てるのもこれ スピーチ2テキストのサービスをね
使ってるのを活用させてもらってるんでまあまあ精度いいんじゃないかなと思います 滑舌さえ良ければあと
あの喋る速度をそれなりにちょっと遅めにすればゆっくりしゃべればまあまあ 精度はよく文字起こししてくれてるなという印象です
で最後3つ目のアマゾンこれもまあえっとね料金がね一緒です確かね一緒っていうのは グーグルの方と一緒ですねこれも0.024ドル1分あたり
なんでまあ1200分でだいぶ何倍った3312円 のはずです
ただこっちのアマゾンのいいところはねどっかで見たんですけどすいませんどっかで どっかでまとめ記事あったら見たんですけどあの字幕ファイルで出力もできるっていう
僕が一番を望んでるタイプなんですよね 要はタイムコード何分何秒でこういう文字をしゃべったというのが出てくるらしいんで
それ使いたいなって思ったんですけどただ料金的にも結局はブルーの方安いんですよ ね1200分で
1ヶ月ね1200分でまあ年間払いですけど月々716円のブルーが結局 安いんかと思ってちょっと心がだいぶ動いてますね
でしかもは動画編集もカットとかねでもうもうっていうのは音がないところも検索 えっと検索っていうか抽出かしてそこをカットとかにしやすいらしいんでもう
プレミアフォローも使わねえちゃうかなっていう気もしてますほんまに だからね
だいぶ心動いてますね来年はもしかしたずっとブルー使ってるかもしれないはい っていう今日はね話でしたちょっとまとめますと