00:05
こんにちは。気づくと人生が変わってしまう 易舎の英語指導室のはじめ先生です。
このチャンネルでは、英語教師で易舎、さらに画家と経営者という多角的な視点を通じて、固まった常識や思考の枠をゆるっと外し、あなたの人生をもっと面白くするヒントをお伝えします。
今日のテーマは、「日曜日なのに1日中アプリ開発をしていました。」というお話です。
ビジネスをやっていると、いろんな情報発信というものが必須になってくるわけですけれども、なかなかあれもこれも手が回らないというのは実情なんですよね。
なんとかこのスタンドFMは毎日更新しているので、そこからAIを使って僕の文体でブログを作るということまではできているんですけれども、
それもね、まだAIのご機嫌によって生成されてくる文章の感じも変わっちゃったりとか、
特に最近自分の作ったChatGPTのGPTとかGEMがちょっと思ったように動いてくれないところがあって、このところブログの生成がちょっと滞っているんですよね。
もちろんブログだけじゃなくて、InstagramとかThreadsとかですね、そういったところにも投稿をしたいんですけれども、もちろんFacebookもそうなんですが、
Facebookは気軽に投稿できるんですけど、ただもうちょっと長文のブログに準じたようなものも出したいと思いながら、なかなかそのSNSの特性に合った形に調整して出すというのは、
これまたなかなか面倒くさいわけですよね。もう本当に一日中SNSやらなきゃいけないみたいになっちゃうわけです。
特にInstagramはもっと動かしたいと思いながら、なかなか投稿を作るのは面倒くさいということで、かねがね前からこの音声配信をうまくもっと利用できないかなと思っていたんですけれども、
特にInstagramでもその日の音声配信のハイライトみたいなものを切り取って、なんか静止画の動画みたいな感じでもいいかなできないかなと思っていたところ、
スタートモードでハリさんがそういうことをやっているのを見て、これをなんか自動でできないかなとちょっと思ったわけですよ。
最初はマナスというAIを使って、文字起こしからブログの生成、それから各SNS用の文章の生成と、
それから欲張ってインスタのショート動画、静止画なんだけど、ポッドキャストからの音が流れる静止動画、縦長のリール動画ですね。
これを全部いっぺんに作れるのをやろうと思って結構良い線まで行ったんですが、やっぱり動画の生成になかなか手間取ってしまったのと、
03:06
それから文字起こしをそのアプリの中でやろうとしたために、結局外部のアプリとの連携が必要になって、そうするとAPIというのを使わなきゃいけなくて、
その都度その都度コストがかかるようになっちゃうと。
そのアプリを動かしている時にも当然文字起こしをするためにAPIでコストがかかっていくということで、どうしようかなと思ったんだけど、
もう一回設計思想を変えて、文字起こしからブログとその他の文字媒体の文章を作るそのアプリと、文字起こしからポッドキャスト動画を作るアプリと役割を分けることにしたんですね。
その動画専用のアプリを作ったことで、だったら毎日放送しているこのスタンドFMをそのままYouTubeに上げれないかと思って、YouTube用にする機能の動画のアプリに入れてしまおうと思ったわけです。
実はこれをやろうと思えば、スタンドFMの音源をMP3かなんかでダウンロードして、それをブリューとかそういう動画編集アプリに入れたら、そこでその音声から文字起こしをして字幕を生成して、そして画像を適切なものをつけるということはできるんですけど、
結局この編集作業がめんどくさいんだよね。
一回一回ダウンロードしました。またその動画アプリ立ち上げました。音声をインポートします。それで文字を文字起こしをします。で、画像を入れてとかね。そこからエクスポートをとかやってると、まあそれだけでもね、やっぱり1時間くらいかかっちゃうと思うんですよね。
これがやっぱりめんどくさいので、できれば自動化したいなと思って、それでアプリを作り始めたんですが、まあなかなかいろいろ思ったようにいかないわけですよね。
何が難しいかというと、やっぱり字幕を自動でうまく生成させるのが難しいんですよね。
特に縦長のショート動画みたいになると、右側にいいねとかコメントのいろんな押しボタンがあるので、そこに字幕がかからないようにしなきゃいけないとか、あとやっぱりその字幕の切れ目を自動でうまく生成させるのが難しいんですよね。
変に言葉の途中で切られちゃうような形になったり、不当点だけ残って開業されたりということはまあまあ起きちゃうんですけど、ここは本当は手動でやったほうがいいんだろうけど、そこをあえて自動化して、100点出なくてもいいから、まあとにかくポンポン出せる状態を作りたいなと思ったんですよね。
06:03
現状今何ができているかというと、スタンドFMの放送から文字起こしをしているサイトがあるんだけど、そこから文字データを引っ張ってきて、必要に応じて変換がおかしくなっているところもあるから、それもある程度手直しができるようにして、
ショート動画にするときには、その日の放送の中のどこからどこまでをハイライトとして抜くかというのを手動で選べるようにしたんですよね。
まあこれ、とりあえず一箇所しか選べないんだけど今のところは。後々ひょっとしたら複数箇所を選んで合成することもできるかもしれないんだけど、まずはとりあえずその日のハイライトという形で、ショート動画なのでインスタはマックス3分ですから、それ以下になるように設定できるようにしたんですよね。
だから放送開始何分から何分までというのが、タイムスタンプみたいなのも出ているので、それを見ながらここからここまで入れるというふうに設定ができるようにはしているわけですよ。
その動画の画像の部分に関しては、キャンバーで自分で作ったテンプレートを入れられるようになっていて、それも本当の静止画だとつまらないので、若干動きがあるアニメーションを入れてやって、それがループしていくような形にしてみました。
欲を言えばアニメキャラが口パクで喋ったらそれはそれでいいかもしれないんだけど、まあポッドキャストなので、そうでなくてもいいかなと思って。
今何度かの試作を経てですね、朝からやっててもうすでに午前1時ぐらいなんですけれども、ちょっと満足はいかないけれども、なんとなくプロトタイプぐらいの動画はできているという感じです。
縦長動画の方が難しくて横長のYouTube動画の方が簡単そうなので、YouTubeは意外とこれで出せるのかもしれないんですけど、そのうち納得いかなくなるかもしれないんだけど、とりあえずこれで運用してみようかなという段階ぐらいまで来ています。
今最後の修正をやってもらったんですけど、字幕と音声がずれてしまうというバグがあったので、そこを直してもらって、不当点だけが字幕に出ているというのを防止してもらったり、単語途中の不自然な開業を減らしてもらったりとか、いろいろやってみました。
これでアプリを再起動するとどんな風になるかは見えるということなんですね。ちょっとやってみようかな。
動画を生成するのにちょっと時間がかかるんですよね。
でもそれをやってもらっている間に他の作業ができるから、これを動かしているだけでいいならいいかなという感じですけれども。
09:01
最初のボタンを押してエピソード一段を押しとくというのをボタンを押すと、そうすると僕の音声配信の過去放送のリストが出てきています。
この間の2匹目の土壌のエピソードをブログにするとどうなるかなというところで、ちょっと例をやってみようかなと思います。
これで音声と文字落としを押しとくというボタンが出てくるのでそれを押します。
そうすると語編間を修正するというところがあって、よく易舎という字が易の建物の易舎になっちゃうことがあるのでそれを直したり、
あと今回だけ修正したいところというのも直せるようにしてあります。
文字落としを確認という欄も作ったので、実際にどういうふうに文字落としされているかというのが見えるようになっていて、必要があれば直せるようになっています。
切り抜く部分を自分で選ぶ場合には無料なんだけど、AIに3つ候補を出して提案してもらうと、
このAPIの料金がかかるけれどもそういうこともできるよということで、動画のどこからどこまでを選べばいいかというのを決めるような形になっています。
その後、動画の生成画面で背景画像とかを設定して字幕の一行の文字数であるとか、フォントの大きさであるとか、上下の位置であるとか、左右の位置であるとか、そういったものも決めれるようになっていて、
最後は生成ボタンを押せばできるよというようなところまでは来ているんですよね。
今までいろいろと自分の声に合わせてアバターがしゃべるとかも考えたんですけれども、考えたばっかりだと進まないので、とりあえず一歩前に進めるようにしたいと思います。
ある程度出してもいいかなというクオリティのものができたら、また最初にインスタにアップしていこうかなと思いますので、またその時にはお知らせしていこうかなと思っています。
というわけで今日は全然普段と違うお話になりましたが、いかがだったでしょうかね。
今日のお話面白かったという方は、いいねやコメント、そしてフォローもお願いいたします。