音声配信の自動化
こんにちは、たけのむです。
この数日ね、いろいろ音声配信の英訳化とかをやって、週末は遊んでいたんですけども、
昨日の夜ぐらいですかね、改めてこのソリューションというか一連の流れを図示したイラストをね、ちょっとパープを1枚起こしてたんですけど、
やっぱりどうしてもね、手作業感がすごいんですよね。
今こうしてね、スタイフで話して、スタイフに直接スマホを持って話しかけてるんですけど、
これがね、自動で連携されるRSS連携はすごい便利で、
Spotifyに連携されるのも自動ですし、Listenという文字起こしのサービスに連携されるのも自動ですし、
あとはApple Podcastですね、こっちにも連携されるのも自動なんで、
ここはね、完全に手を煩わせることなく自動連携なので全く問題ないんですけども、
この矢印の赤い矢印は手作業のところなんですけど、
Listenが文字起こし日本語にしてくれて、その後から結構手作業が発生してですね、
クロードっていう、これ翻訳アプリとかなんでもいいんですけど、
私は今度はAIのアプリとかAIサービスを使って翻訳してるんですけども、
日本語のテキストをクロードで翻訳してですね、翻訳された英文になって、
ここからがね、このクロードで翻訳するっていうのは大したことないんですけど、
この翻訳された英文を音声で読み上げる、Edgeの自動音声読み上げを使って英文を読み上げてるんですけど、
これを読み上げて、さらにスタイフに録音して、スタイフに録音されると既存のチャンネル、
Spotify、Listen、Apple Podcastには自動連携されるんですけど、
ちょっと別でね、英語用って言ったら変ですけどSpotifyの別アカウント立ち上げて、
そっちにも英語の音源を上げるようにしてます。
これはね、RSSでやるってなるとスタイフの別アカウントを作らないといけないので、
ちょっと考えたんですけど、スタンドFMの別アカウントを作るにしても、
スマホでね、やってるのでアカウント切り替えってまあまあめんどくさいんですよね。
一回ログアウトしてもう一回ログインしてっていうことをしないといけないので、
まあもうそれならね、既存のスタンドFMの今のこのアカウントにもそのまま英語の音源を上げて、
それから音源を手動でダウンロードして、ダウンロードしたものをSpotifyの英語のチャンネルにアップロードするという一連の流れをやってます。
なのでね、そうですね、こうやってしゃべるのを10分しゃべったとして、後ろの工程がどれくらいかな。
翻訳なんかはね、ワンボタンでやってもらえるんですけど、
その英語の音声読み上げをさらにスタイフに録音するっていう作業は、
結局時間通りかかるので、10分しゃべったら10分かかるっていう感じですかね。
それからのダウンロードアップロード作業はそんなに手間がかからずシームレスにできるんですけど、
まあでも今の作業ではこれが限界ですかね。
自分の声で音声読み上げするサービスとかも何個かあったんですけど、
だいたい有料なのと、ちょっと手間がかかりそうなのでそこまで手は伸ばしてないっていう感じなんですけども。
あとちょっと試しにやってたのは、自分のこのしゃべっている音声を元にアバターじゃないですけど、
自分の顔写真を使ったアバターを作って、そのアバターにしゃべらせるっていうことを昨日やってました。
これまあまあできててですね。さすがに実際にしゃべっている映像っぽくは見えないですけど、
私の顔写真、私の顔に見たアバターがこのセリフをしゃべっているみたいな感じに一応なることはなってて、
あんまりこの辺そんなに手を広げてなかったんですけど、やればやるほど奥が深いというか、
サービスが乱立してるんで、どれがベストプラクティスかっていうのがちょっとわからないんですけど、
Googleってだいたい上に来たやつは有名どころなのかなと思ってやってますけどね。
ただもうね、完全に自分の声で読み上げることができて、自分の顔写真というか自分の顔をしたアバターがしゃべるようになったらね、
今はね、まだ人間がオリジナリティのある言葉をしゃべってますけど、
AIってある程度その人の考え方とか思考を組み取って、その人がしゃべりそうなことをしゃべるということもできるみたいなんですよね。
シリアル・エクスペリメント・レインの影響
今ディープランニングとかね、いろいろ技術があるので、あたかも私がしゃべっているような感じでというところで、
ここまで行くと極端な話ですよ。
人間不在で成り立つんじゃないかっていうね、っていうところにも行きますね。
話変わって、昔シリアル・エクスペリメント・レインっていうアニメ番組があったんですよ。
いつだったかな、私が高校生とかですかねぐらいの時にあったアニメで、
マイナーっちゃマイナーなんですけど、なんかサイコホラーかな。
まだその時ってインターネット黎明期でようやくインターネットが出だして、
BBSとかチャットとかっていうのが始まったぐらいの時期のアニメなんですけど、
そのアニメの中でスマートフォンとかも登場してますし、
だいたいスマートフォンに似たようなガジェットが出るアニメっていうのはちょこちょこあったと思うんですけど、
その中でもシリアル・エクスペリメント・レインっていうのはかなり先進的な内容だったと思いますね。
また作品の内容ですよね、がかなり先取りをしてるっていう感じで、
結局体というか物体がなくなっても、向こうはインターネットじゃなくてワイヤードっていう言い方をしてましたけど、
ワイヤード上にその概念として存在すればどこにいても誰ともつながってるみたいな世界観のアニメで、
なんかね、怖いっていうか、今見てもだいぶ通用する作品だと思いますね。
当時から結構海外ですごい人気があって、コアなファンがずっといて、もう20年経つのかな。
もっと経つか。もっと経ちますね。
昨日の夜、判件はフリーではないけど許可を得れば作品が作れることになってるみたいで、
シリアル・エクスペリメント・レインのある種二次創作みたいなゲームがSteamとかで発売するらしくて、
これがちょっと興味をそそるなっていうところで、
Steamなんでね、買えばパソコンでできるっていうことで、ちょっと買ってみようかなっていうところなんですけど。
プレステ版のゲームもあるんですけど、これはね、結構怖いというか隠密な気持ちにさせられる作品で、
生成AIと人間の価値
今ね、多分プレミアついてて1万円超えるとかそんな作品になってると思うんですけど、
当時はそこまではしなくて、確か6千円ぐらいだったかな。
インターネットを話題にしたっていうところでかなり先進的なゲームだったんですけど、
それもね、体がなくなってもインターネット上で概念として存在していればっていうところでしたね。
こういうソリューションを組み合わせて、まさに当時のシリアルエクスペリエンスレインみたいな世界観。
スマートフォンでこれだけ、今スマートフォン持ってない人ってね、ほとんど多分いないと思うんですけど、
特にね、その後進国ほど、家のインフラが整ってなかったりしてもスマートフォンは普及率が高いっていう話もあるので、
この生成AIが台頭してきてて、私のさっきやってたような日本語の文字が英語の文字に翻訳されるっていうところはGoogle翻訳とかでも今までされてましたけども、
その人の人格に近いような文章に生成できたりだとか、私はそこまでやってないんですけども、
その後、普通にWindows使っている方だと使っているこのMicrosoft Edgeですね。
この辺りを駆使すれば、英語の音声が届けられると。
いずれこれもマルチリンガルで完全にオートメーション化されて、こんな手間が必要かというと多分いらなくなってくるでしょうね。
なので、さっきのシリアルエクスペリメントライン、あの世界観がまさに生きていると、それ以上かもしれないですよね、生成AIっていうのは。
でもちょっとやっぱり怖いなって思うのは、自分のオリジナリティっていうのがこれからどこに意味があってどこに価値を持つのかっていうところですね。
知識っていう意味では全く通用しなくなりますよね。
いろんな論文とか学論、そういった情報もすべてAIは学習してますし、そこに人間の知識なんておぼつかないわけで。
てなると、人間の価値が根源的にどこにあるのかっていうのをこれから探すというか求められるっていう世界観になるのかなと。
ある種あれですかね、仏教でいうと悟りじゃないななんて言うんですかね。
そういったところの境地とかに答えがあったりするのかもしれないんですけど。
ちょっとこの週末ね、いろいろ遊んでてできることっていうのがどんどん見えてきたので、ちょっと話してみました。
はい、お聞きいただきありがとうございました。