AI音声の進化
おはようございます。小松正史でございます。 今日も歩きながらの配信ですけど、よろしくお願いします。
最近はね、何なんだろう、あのすごくね、仕事的にはやることたくさんあるんですけど、自分ペースで結構ね、最近やられてやるようになりましたね。
なんか、上の立場に立つっていうこともあるんですけど、どんどん人にね、お願いとか依頼ばっかり振ってるんですよ。こっちがこう投げちゃってる状態で、その反応待つっていうことがあるので、もうね、今までの仕事も確かにそれはあるんですけど、それが加速的にそういうことになってしまってですね。
自分ペースではありますよね。この案件あげたらいいのかとかね、こういうふうなものはちょっと、もうちょっと考えてから出したいなとかね、そういう自分で結構ね、こだわりがあるんだよね。
なんかね、こだわるんですよ。結構僕って。そういうね、自分ペースじゃないとダメっていうのが、やっぱそれありますよね。たとえ仕事であっても、自分の趣味であってもね、ライスワーク、ライフワークであってもそういうのがあるので、
そこをね、すごくマイペース的にさせてもらってるっていうのは、ちょっとこう仕事としてはすごくやりやすいというか、自分に合ってるなというような、そんなふうな感じを抱いているこの頃でございます。
という感じで、最近ちょっとね、何度か前振りみたいな喋りですよね。これがあると結構なんか喋りやすいな。
これがあるとすごく本題に行くのもやりやすいなというのがあるのでね、未だにあの音声配信ね、まだまだこうものすごく奥深いな音声配信のコンテンツ作りってね、本当それは思ったりしてますね。
ということで、今日はですね、ちょっと話題をAIと音声についての話にね、してみたいなというふうに思ってます。
あの最近どうですかね、みなさんの京都、京都、京都じゃないわ、新幹線使う時にほとんどがもう合成音声になってるのお気づきですかね。
今までね、今年の3月までは録音された女性の声が案内ホームでの案内放送であったんですけど、今はね、すべてほとんどが一部分使ってるとかあるかなぁ、なんかね、全部合成です。
ボーカロイド的な合成で、まもなく一番線に東京行きの小玉432号が6両編成でありますみたいなのはね、全部あの音声合成してるっていう、そういう時代になってますよね。
まあ違和感があったのは、初期ぐらいの頃で今ね、すごく違和感なくて、別に普通に溶け込んでるじゃないですか、人が録音した声じゃないけど、どうですかそれ。
結構僕はね、溶け込んでしまってる自分のこれ何とかね、いや音に敏感だと言いながらは、まあね機械的な音にも慣れてしまってるこの頃かなというふうに思いますよね。
でね、僕あの最近よく使ってるのが、Googleの、よく使うというか、これ絶対使うしかないと思ったのが、Googleのね、えっとね、Googleの、
えっとなんだっけ、ノートブック LM っていうのがあるんですよね。これはどなたでも一応無料で使えるノートブック LM っていうのがあって、Googleの例えば、あのアカウント、えっと、
宮戸Googleだとしたら、これであの登録できます。ノートブック LM ね。それを使って、すごいなんかね、恐ろしく、あの
女性と男性が喋るようなね、そういう音をですね、ちょっとあの、作ったというかこれレジュメなんですよね。
ね、卒論卒成のあの告知をしなくちゃならないんです。学生に。それでですね、今鳴るかな?今路上だけど、ちょっとやってみよう。
すいません、あのちょっとね音を鳴らしていたんですけども、ちょっとここの、あの録音には入らなかったので、後でちょっとね、リンク貼っておきましょうかね。
それのリンクをね、後で聞いていただいたらわかるんですけど、あのすごいね、あの自然とものすごいですよね。今聞いて、あの後で聞いていただいたらいいと思うんですけど、あの男性と女性がうまいことこう
喋ってる感じで、それであの自然な対話でですね、まるでラジオのパーソナリティさんが、あの伝え合ってるかのような自然な雰囲気で音声が伝わっていくってことなんですね。
で、このあの音声の作り方何かというとですね、僕があのレジュメを作ってですね、そのレジュメを食わせただけっていうことなんです。すごいですよね。レジュメってすごくね、物理的に
エントリーは何日で、何日までの締め切りで、何を出してみたいな、そういうことをですね、あの
伝えていくような、ものすごい機械的な内容なんですよね。それが今のね、また聞いていただいたらわかるんですけども、もうなんかね、すごいですよ。
言い間違いとかですね、人の息遣いとか、もう何が何でも自然なんです。めちゃくちゃ自然に
表現し合ってるっていうのがあるんですね。で、これをですね、あの実際使おうかなって思っています。
レジュメをね、まず集中間法、あ、違うわ、卒論卒成ガイダンスでレジュメを使ってですね、その後で
僕はそのレジュメを見ながら、あの実際に喋っていくというか、人間がちゃんと喋らないと抜け落ちがあったりもしますから、それでしっかり自分で喋って、小松が喋ってですね、多分10分ぐらい喋るかな、10分とか15分もかからないと思うんですけど、その後で今回使った
ブックノートLMで作ったですね、Googleの、それの対話形式の音声を入れていくという。で、まあこれ入れることによってどんなメリットがあるかというと、あのまあ
記憶の定着ですよね。僕が喋るともうね、小松の声でずっと喋るの、聞いてても飽きてくるしね、もう嫌になってくると思うので、それプラス
後でそういう、ちょっと客観化して、メタ認知化してですね、内容をね、ちょっと客観的に説明というか、感想を言い合っているような言い方で
2人が喋っているんですけども、まあそれをですね、少し共有して、記憶を定着していただこうかなというふうに思ったりしています。
そんなふうにですね、音声、AI使って音声のね、合成とかコーディネートっていうのが、もう本当に恐ろしいぐらいのクオリティでできるようになってきているという。
これどうですか?すごくないですかね? なんかね、今までの概念では捉えられなかったようなね、進化発展ですね。
ちなみに、前の教務主任はですね、VTuberがとても好きなので、VTuberの合成をしてですね、それでこの喋りもいちいち全部ね、
セリフを作ってですね、セリフをちゃんと作って、それをボーカロイドにね、女性のボーカロイドだったかな、それに入れてですね、合成して、その合成したものを切ったり貼ったりして、
VTuberがご登場する動画を合成したものにまた付けてみたいな、もうめちゃくちゃ手間がかかるっていうことをしておられて、なんかすごい時間がかかるって言ってたなぁ。
なんか1週間ぐらいかかるとかって言ってて、いや大変だなぁと思って、僕もそこまでのね、する労力というかそういうことできないので、
できたらね、シンプル化というかね、もうすべからくそういうのは効率化したい手法なんですよね。AI使いまくるような人間なので、まあそうしていくとすごいクオリティーで
なんか定着するし、僕の労力もそんなかかんないしっていうことで、一石二鳥ですよね。ただまあこれちょっと斬新なので、
120、150人ぐらいの必修の説明ですからね、やっぱりちょっとちょっとフォーマルにせなあかんなっていうところはあるんだけど、まあそこはねちゃんと僕が
事前にしっかり喋ることによって定着する、するというかね、抜け漏れがないようにしてですね。それから僕の後で
ブックのLMで書いた、作ったですね、書類を、書類じゃない、音声を流すというね、そういう感じの二重仕立てにしようかなというふうに思ったりしています。
音声合成の未来
いやちょっと今外で歩いてるんだけど、雨が降ってきたよ、すごい。めちゃくちゃやばいなっていう状態で今喋ってます。
いやー本当に急ですよねこれ。さっきねあの雨雲レーダー見たら全然大丈夫だったんだけど、ちょっと走って帰ろう。すごいな。歩き、歩いて、歩いての
配信じゃなくて、マラソンを走る、走っての配信で、音がやばいっすよこれ。うわ、やばい、やばいすごい。やばい助けて。やばい。ちょっと切るぞこれは。ちょっと甘えない。
失礼いたしました。ちょっと止んだので、ちょっと小振りになったので、傘持ってきてないからやばいですけどね。
少しそれで歩いて最後まとめたいと思うんですけども、すごく音声の力ってすごいし、僕は音声配信をやってるのもすごく吸引力、自分自身でも感じてるし、アウトプットの仕方もすごくやりやすいですし、聞いていただいてるあなたにも伝わるというか、そういう体感性があるっていうのが一つ大きなメリットだと思うんですよね。
なのでそこの延長としてですね、今あるAI使って、そんなふうなものすごいですよね。ちょっと聞いていただいたらお分かりなんで、7分ぐらいなのでね、レジュメまではちょっとつけられないんですけど、すごいやりとりだなっていうか、もう台話なんかどこにも書いてないですし、元ネタは。それをどんどん開発していってるので、すごいなというところが今日は伝えたいところですね。
ということでね、いろんな機能がある中では、皆さんどんどん使っていかれるといいと思います。使ってみてそれでいいか悪いか判断した方がいいと思うし、これも新しい試みだけど、執行の幹部、ぜひ使ったらいいんじゃ面白いって言ってくださったので、そんなふうに試してみようという、そんなお話をしてみました。
あとお知らせはもうじきピアノの風景6が出ますので、また楽しみにお待ちいただければと思います。多分5月末には出ると思います。それでは今日も良い音の一日をお過ごしください。