音声SNSの現状とAIの進化
音声SNSってこれからどうなっていくんだろう?なんて考えたことありますか?
クラブハウス、以前やってました。スタンドFM、今やってます。 ポポポなんてプラットフォームも出てきました。
声でつながるプラットフォーム、ここ数年でじんわりじんわり広がってきました。 そして今、
AIの進化が、この音声SNSの世界を根本から変えようとしているかもしれません。
今日は、そのキーワードとして、マルチモーダルAIという言葉を軸に、ちょっと先の未来を一緒に想像してみます。
まず一つ目。マルチモーダルAIってそもそも何やねん。 簡単に言うと、テキストだけじゃなく、画像や音声、動画、みんなまとめて扱えるAIのこと。
モダリティっていうのが情報の種類のことで、それが複数、マルチあるからマルチモーダル。
今までのAIは、テキストで入力したらテキストで返してくるとか、 音声で入れたら音声で返してくるとか、画像は画像専門みたいな、行政じゃありませんけど割と縦割りだった。
それが今、最新のAIモデルでは、テキストと画像を同時に理解してくれたり、 音声を聞いてそのまま音声で返したりとかいうことができるようになってきているってことなんです。
地味ですが結構大きな変化です。
音声SNSとAIの現在の関係
二つ目。音声SNSとAIの現在の関係、今の関係はどうか。
だいぶ昔からですけども、クラブハウス、私よく使ってた頃、通話内容監視されていました。
というのは例えば、ヘイトスピーチとか規約違反をロボットが検出している。
ヤバいこと言うとピー的に音が切れたり遮られたりブツ切りになったり。
あるいはその発言をしたユーザー、コミュニティからブロックされたりということが実際起きていました、当時からすでに。
ちゃんとロボットが監視してたんですね。
言語データとしての解析もおそらく行われていたと言われています。
私たちが声で話した言葉、テキストになっていないので見えにくいですが、
ロボットとして検索してプラットフォーム側では内容をちゃんと分析し、あるいはデータとして蓄積している可能性すらあるわけです。
音声だから残らないというのは幻想で、実際にはいろいろ残されている可能性はあります。
3つ目。
マルチモーダルAIが音声SNSを変える未来
じゃあマルチモーダルAIが音声SNSをどのように変えていくのか。
今日の本題です。
シナリオ。
いろはのい。
リアルタイムで音声がテキスト化されるので検索がしやすくなる。
今スタンドFMで配信している、例えばリスンでも配信していますが、スタンドFMの場合は基本的に検索エンジンに引っかからない。
テキスト化されていないから。
そして仮にテキスト化したとしても、そこに検索エンジンなりロボットが入り込んで検索対象としてデータを拾えない。
私はブロックされて入れないみたいなことをAIが言ってきます。
だからそのプラットフォーム内のクローズの情報としてインターネットには出にくいという問題、問題なのかメリットなのかそれは捉え方次第。
リスンなんかはテキスト化して検索に引っかかるように頑張ってくれてるんでしょうかね。
だからそういうものについては、外に広く出したい場合は自動的にテキスト化してくれる方が、さらに検索エンジンとかAIに開放してくれた方がありがたいですし、
広めたくない場合はロボットが入り込めないようになっているプラットフォームがいいということなんです。
ただそれが全部オープンになると、瞬時に喋ったこともインターネットの中でいろんなところで検索可能になっていくって未来がやってくる。
声で話した内容もブログなどの、あるいはSNSXとかそういったテキストコンテンツと同じ土俵ですぐに検索が発見されるようになっていく。
これは音声で発信している我々にとってはチャンスでもありますし、逆にいつ誰が検索してくるかもわからないという時代の到来でもあります。
シナリオ、ロー、フィルファーのロー。
AIがリスナーになっちゃうかも。
ロボットが耳を持つという時代。
何を言おうとしているかというと、自分の配信をロボットが聞いて内容を理解して感想まで返してくるかもしれない。
フォロワーが、AIのフォロワーが存在する時代が来るかもしれないということです。
リアルな人間が聞いてなかろう時間帯でも、すぐにコメントを返してくれる夜型のリスナーがいるなと思ったら、実はロボットだった、AIだった。
気持ち悪いですか?
生身の人間がやっぱりいいですか?
どこかでその人に会いたいとか、下心がある場合は絶対に生身の方がいいでしょうね。
ただ、返してくれること、あるいは共感してくれる相手がいればいいだけだったら、
AIに可別して相談するだけで満足できるのと同じことをフォロワーに求めるのであれば、フォロワーが生身の人間である必要がない。
孤独な配信者の見方として、AIフォロワーがたくさん普通に存在する社会が現実化してもおかしくないって話なんです。
技術的にはおそらく可能ですよね。
こんなリスナーを抱えたいってオーダーするとAIリスナーがたくさんついてくるみたいな。
AIリスナー代行サービスみたいな。
有料プランもできるかもしれません。
シナリオ派、いろはの派。
声のデータがパーソナルAIに使われる。
これは自分のクローみたいなもんですよね。
自分の声とか話し方、語彙、使いがちな言い回しとか思考のパターン。
たくさん発信してる人ってたくさん蓄積されていくので、自分のクローみたいな声のAI作りやすいです。
素材をすでにたくさんプラットフォームの中に発信者、私たちは蓄積しているわけです。
喉が痛いなーとか声が出ないなーっていう時に代わりに発信してもらうことが生きても容易になっていく。
だから今までは全部自分で喋ってましたけども、自分の代わりをAIのクローンがやってくれる。
別にやってほしくはありませんが、私は。
なりすましが簡単になるとも言えるわけなんで怖いことなんですけどね。
ただ、その人の発言で商売を増やしたい、拡大したい人にとっては、クローンってバレなければ収益化のチャンスが倍増するわけですから、ワクワクするのかもしれません。
私はそこには期待しませんけどね。
では最後に4つ目。
じゃあどうしていきましょうか?
気持ち悪かったですか?この話。怖いですか?
管理されてて嫌だ。
それはもちろんネガティブなイメージが先に先行しがちだかもしれませんが、一方でやっぱりワクワクすること多いんじゃないか。
テキストで表現できない声のトーンとか、声色とか、間とか、感情、行間ならぬ本当の空気、空気感。
テキストじゃ絶対に伝えられないことをたくさんもっと伝えられるようになるわけですよ。
その世界にAIが入ると今までできなかった音声コンテンツの価値がどんどん広がって可視化されていく。
そういう流れなんです。今まで考えられなかったようなサービスとか表現方法ができていく。
そこについての一番最先端にいるのが今やっている我々なわけですよ。
これからの未来を作り、クリエイトする先駆者になり得ていく。
日々だからこうやって、マルチモーダルAIとかいうキーワードで今日は話しましたが、
ちょっとした変化からいろんなものを感じ取って、新しいサービスをひらめく、一番最前線にいられるのが楽しみです。
ポポポ、まだ使いこなしていませんけど、なんかいろいろできそうな気はしております。
AIと音声SNSの未来への向き合い方
最後まとめましょう。マルチモーダルAIと音声SNSの未来というテーマで話をしてきましたが、
まずマルチモーダルって何やねんということで、音声とか複製テキストとか画像、
いろんな情報を横断して一括で処理できるAIをマルチモーダルAIと言います。
そして音声SNSのデータの話、これはすでに検索されにくいですが、
プラットフォーム内では間違いなく解析されていますし、蓄積も進んでいる。
あと音声SNSが音声のまま検索可能になるとか、AIのリスナーがフォロワーが登場する。
あと自分の声がAIの素材の材料になっていく。
そんな未来はすぐそこにあるという話をさせていただきました。
怖いのは知らないから。リスクとは怖いものではありません。
わかればわかるほど、上手に向き合い使いこなしていくヒントが広がります。
使い方は皆さん次第。道具ですからね。
面白い方にかけて楽しんでいきましょう。
また次回の配信で。