1. 音声広告実験隊
  2. EP14. 音声コンテンツに関わる..
2023-09-04 13:33

EP14. 音声コンテンツに関わる技術ニュースをまとめてみた【2023年9月】

「音声広告実験隊」は、音声広告に関わる様々な実験・検証を行い、音声広告の現在・未来について考えていく番組になります。聞き流しているだけでデジタル音声広告の現状や活用可能性をなんとなく把握できる、そんな番組を目指しています。毎週月曜更新。
デジタル音声広告に関わるご質問やご依頼、番組へのご意見・ご簡素についてお気軽にご連絡ください。

HP:https://audiostart.jp/contact
Mail:info@robotstart.co.jp

【参考記事・リンク】
Audiostart News / Metaが音声用の生成AIモデル「Voicebox」を発表、音声合成・音声編集・ノイズ除去・言語変換など超多機能
https://audiostart.info/2023/06/17/meta-voicebox/

Audiostart News / MetaがWhisper対抗の大規模多言語音声AIモデル「Massively Multilingual Speech (MMS)」を発表
https://audiostart.info/2023/05/25/meta-mms/

Audiostart News / Metaが新たなオーディオ・サウンド生成AI「AudioCraft」を発表!
https://audiostart.info/2023/08/07/audiocraft/

Audiostart News / Metaが音楽生成AI「MusicGen」を発表!Text-to-Musicを実際に体験してみた
https://audiostart.info/2023/06/13/musicgen/

サマリー

おだしょー音声広告実験隊は、今回もロボットスタートの中の人1名と外の人1名からお送りします。本日のテーマは、音声コンテンツに関わる技術ニュースです。久しぶりに技術面から業界を見ることになりますが、最近技術に関する声が増えてきており、ニーズに応えるために今回のテーマを選びました。音声データの解析技術が進展することで、デジタル音声コンテンツの広告価値は上がっていくでしょう。また、メタさんのAIジェネレーションの発表により、音声領域が注目されている市場になっています。

音声コンテンツに関わる技術ニュースへの取り組み
おだしょー 音声広告実験隊。今回も、ロボットスタートの中の人1名と、外の人1名でお送りします。
おだしょー さてさて、早速ですけれども、本日のテーマについて教えてください。
おだしょー 今回ですが、音声コンテンツに関わる技術ニュースについてお話ししていきたいと思います。
おだしょー 技術面から業界を見るのは久しぶりな気がしますね。
おだしょー 最近、技術についても取り上げてくれとの声をいただくことが増えておりまして、このニーズに応えしていきたいというふうに考えております。
おだしょー そういえば、過去にCTOに出ていただいた回も、評判が良かったと聞きました。
おだしょー そうなんです。結構マニアックな方にも聞いてもらえているようで、個人的にはすごい嬉しい限りね。
おだしょー でも、あんまりマニアックになりすぎると、本当に100人知っても1人にしか聞いてもらえない番組になっちゃう。
おだしょー そうですよね。そのバランスはすごい難しいところではありますね。
おだしょー 技術面と言いますと、GAFAのうちの3社がこのPodcastの配信プラットフォームを運営しているかと思いますけれども、激しい競争されていますよね。
おだしょー まず、GAFAっていう言い方が少し古い表現だなとちょっと思ったので。
おだしょー ちょっとバレた。
おだしょー ちなみに旧Facebook、現在のMetaさんに関しては、過去にも実はPodcastサービスが展開されていたんですよ。
おだしょー えっ、そうなんですか。ちなみにじゃあ4社とも参加されていたってことになるんですね。
おだしょー なかなかGAFAの全てが参入する市場ってのは少ないので、そこだけ見ても業界への注目度が上がるんじゃないかなというふうに思います。
おだしょー ちなみにいつ頃のお話ですか。
おだしょー そうですね。参入されたのが2021年の6月頃ですね。
おだしょー だいたい2年前ですよね。2021年6月の1日の。
おだしょー そうですね。それこそクラブハウスが少し流行ってから、ちょっと時間が経った頃。
おだしょー そうですよね。まさにクラブハウスと同様のサービスも同時に実はリリースをしていて、
おだしょー 音声SNSもFacebook上でっていう願いがあったんじゃないかなというふうに思いますし、
おだしょー あと社会背景としてイヤホンをつけて生活する時間っていうのが伸びてきたっていうこともあるかと思います。
おだしょー 確かにタイミングを考える上でイヤホンをつけて生活している時間っていう指定も重要そうですね。
おだしょー 日本は昔より増えてますかね。
おだしょー そうですね。特にワイヤレスイヤホン、例えばAirPodsとかAirPods Proとかが出てきてからはすごい加速しているような印象がありますね。
おだしょー 確かに確かに。ちなみにFacebookさんの取り組みはどうなったんですか。
おだしょー これがですね、約1年ぐらいで撤退をされてますね。
おだしょー 早い意思決定ですね。
おだしょー なんかね、アメリカの副業っぽいですよね。
ただ、ホットキャスト領域からは撤退をされていますが、音声コンテンツに関わる技術研究というのはむしろ積極的な方だので、
値段の市場をちょっと変えたという見方が難しいかもしれないですね。
現状、ホットキャスト広告というのは、デジタル音声広告領域の30%程度あるんですね。
逆に言うと残り70%に効果を当てるという戦い方というのも十分にあるのかなというふうに考えています。
おだしょー 市場全体を捉えると確かにそうですね。
ボイスボックスの生成AI音声合成モデル
ちなみに技術としてはどのような研究をされているんですか?
おだしょー 全部を挙げるとキリがないので、ここ3ヶ月ぐらいに絞って公開された情報をちょっと見ていきますと、
まずはボイスボックスという生成AIの音声合成モデルというのを発表していますね。
おだしょー 生成AIの音声合成というと、他の会社も取り組んでいる印象がありますけど、最終的にどんな特徴があるんですか?
おだしょー 主要な特徴をピックアップしますと、まず2秒程度の短い音声サンプルで音声合成を実現する。
2つ目に音声編集とノイズリダクトができる。3つ目に多言語への音声データの変換といったところに特徴があるようです。
おだしょー 2秒のサンプルでの実現というとかなり革新的な気もしますけれども、ちなみにこれまでの技術とは何が違うんでしょうか?
おだしょー これまでの音声合成AIというのは、入念に準備されたデータを使って、タスクごとに特定の学習を行う必要があるというのはご存じかと思いますけど、
今回のボイスボックスというのは、非自己回帰性の生成モデルであるフローマッチングという技術をベースに構築していて、
テキストと音声を非決定性のマッピングにより、ラベル付けなしで学習可能な仕組みになっています。
またですね、各言語のパブリックドメインの応用ブックというのがいっぱいあるんですけど、
こちら5万時間以上の録音音声と、さらにそれのトランスクリプトを使って学習をさせた結果、
なんとゼロショット音声合成において、現在の最新英語モデルのバリューEを明瞭度と音声留意度の両方で上回って、
さらに20倍もの高速化を実現できたということなんですよね。
えーと、なんかすごそうなことはわかりますけども、ちょっと内容については理解ができませんでした。
メタのMMS音声AIモデル
そうですね。じゃあここからは技術的な説明は極力避けて、
何を行っていて何ができそうかという話を中心に話を進めていきましょうか。
とても助かりますけども、もしかして今まで私に気を使って技術のお話を避けてこられました?
いやまあ泣きにしもあらずですが、厳密に言うと音声というよりは今のAIの話なので、
ただ知っている方が業界の動向は理解しやすくなるのかなというふうに思います。
いやーこの領域のことを少し知った気になってましたけど、まだまだですね。
まあ少しずつ覚えていきましょう。ということで、メタの取り組みというのはこれだけではない。
オープンAIのウィッパーというサービスはご存知ですかね?
文字起こしとかに使われる音声認識モデルですね。
このウィッパーに対抗する音声AIモデルとして、
1,100以上の言語で対応する大規模な音声AIモデル、
マッシブリマルチリンガルスピーチ、MMSというんですけど、これが新しく発表されています。
これもちょっと同じ質問になっちゃいますけど、これまでの技術とは何が違うんですか?
これまでのモデルというのは、大体世界7,000言語あると言われている中の100言語ぐらいをカバーしていると言われていたんですけど、
今回のメタのモデルに関しては1,100言語に対応しているということです。
これ主要な1,100言語となると、かなり健康カバー力になりそうですよね。
言い換えると、世界で流通している音声データの大部分を把握することにつながると。
もちろん音声だけではなくて、動画内の音声というのも対象になるのかなというふうに思います。
一度テキストに直すと翻訳もできるでしょうから、各国の企業が欲しい言語でデータを入手といいますか、把握することにつながりそうですよね。
これはクッキーの定語を見据えたコンテクシュアルターゲッティングを行うために、めちゃめちゃ重要な基盤にもなるので、
デジタル音声コンテンツの広告価値の向上
今後その派遣争いは一部になるのかなというふうに思いますね。
クッキー規制と言いますと、直近の8月25日にEUのデジタルサービス法が青手企業から先行導入されましたよね。
はい、結構厳しいですね。
確かEU圏内の月間利用者数が4,500万人を超える19のサービスといった話だったんですけど、
Facebookもまさに入ってますね。
当然ね、19のサービスでは絶対入っちゃいますよね。
その話題自体は別途取り上げようと思うんですけど、
これ、リハースすると最大限年間売上の6%の制裁金が出されるってことなので、
広告表示に関するアルゴリズムで各社慎重な対応と変化が求められるというふうに思いますね。
売上の6%ですよね。
はい。
そう考えると、見方を変えると音声データの解析技術が進展することで、
音声領域の成長と注目市場
このデジタル音声コンテンツの広告価値というのは今後上がってきそうですよね。
はい、これはまさにそうですね。
国内事例としては、メインテーマリストさんについても触れさせていただいてますけど、
今後この部分は重要なテーマになるんじゃないかと思います。
まだメタさんの取り組みというのは他にもあるんですね。
8月に入ってから音楽であったり、
サウンドを簡単に生成できるYouTube AIツール、
オーディオクラフト、これも発表されておりますね。
これまさに前回お聞きしましたけれども、
コンテンツを作る上で音楽とかサウンドの重要性が高いって話ですよね。
はい、そうです。
まさにそこを追いかけられてるわけですね。
これまで生成してきた3つのモデルをうまく組み合わせたリリットを基盤として作ったものになってますね。
もう少し詳しく教えていただいてもいいですか?
まず1つ目にMusicGenという新しいモデルがあって、
これはテキストから音楽を生成できるモデルで、
例えばスローなジャズを作ってってスクリプトに打ち込むとそれっぽいのができてくるんですね。
実際やったんですけど結構面白いです。
2つ目のAudioGenというテキストから様々なサウンドを生成できるモデルがあって、
さっきのMusicGenというのは音楽を作ったんですけど、
このAudioGenというのが犬の鳴き声ですごい怖い声を出してってプロンプトに打ち込むと
ワンワンワンワンとかいうのを出してくるんですね。
あとガラスの割れた音を出してるとかね、というのが作れるモデルがあります。
で、3つ目はちょっと違うタイプなんですけど、
エンコーディックという音質を維持したまま圧縮を実現する音声コーディックというのがあるんですね。
この3つを組み合わせることで高品質の音楽とかサウンドとかを簡単に生成できる。
そういったものが新しい。
なるほど。
このGAFAの中で唯一ホットキャストを行っていないって思っていたので停止してましたけど、
メタさんもガチガチですね。
ガチガチで、むしろ音声領域のAIジェネレーションの領域ではトップじゃないですか。
直近3ヶ月に絞っても今いった発表がされてるわけですからね。
そうですよね。3ヶ月の話ですよね。
そういう意味で音声領域っていうのはそれだけ無視できないというか、取り合いすべき市場になってるっていうことですよね。
そう思いますね。
もちろん、ここ数年で一番伸びてる本格市場とかもあって、技術的なところはすごい注力されてる会社が多いなって思います。
まず今回、メタさんのお話は落ち着いてきた。
だいたいそんな感じなので、次はGAFAのどの企業に焦点を当てて話しましょうかね。
コーチパイさんってのもありですよね。
もしくは、この間ちょっと話しましたけど、中国の企業の情報とかも技術的に面白いかもしれないですね。
今までいただいた情報で、今日は頭がパンパンなので、
え?
日本でももうちょっと面白い技術的な動きがあるんですけどね。
そうですよね。
ガチガチなのあるんですけどね。
ガチガチなのありますか?
あるんですけどね。
これでも、聞き始めたらもう10分くらいか。
下手すると20分とか。
ということで、今後に期待をしまして、今日はこの辺りにさせていただいてもいいですか。
はい、そうですね。
じゃあ締めさせていただきます。本日も聞きいただきありがとうございました。
ありがとうございました。
音声広告に興味のある方、音声広告についてもっと知りたい方、こんな検証をお願いしたいという方がいれば、概要欄にあるリンクよりお気軽にご連絡ください。
それではまた。
13:33

コメント

スクロール