1. しらいチャンネル
  2. #13|Audibleの「デジタルボイ..
2026-02-20 19:35

#13|Audibleの「デジタルボイス」って結局どうなの?


---
stand.fmでは、この放送にいいね・コメント・レター送信ができます。
https://stand.fm/channels/664ee785316143a77128e577
00:05
社族日記。どうも、しらいです。今日も斜めに生きてますか? はい、というわけで始まりました社族日記です。
この番組は、ついつい社に構えてしまう社族の僕が日々の学びを通してまっすぐ生きていくためのヒントを探していこうという思考の整理ラジオです。
よろしくお願いします。さて今日はですね、前回話した教養としてのコーヒーと
カフェの世界史という配信で話したですね、Audibleのデジタルボイスがすごいという話を軽くした気がするんですけど
それについて調べたことをまとめて話してみたいと思います。
最近ですね、AmazonのオーディオブックサービスであるAudibleにですね、デジタルボイスっていう機械音声ですね、AI音声かなっていうのがすごい増えたんですね。
で、前回紹介したカフェの世界史と教養としてのコーヒーどちらもですね、デジタルボイスが読み上げております。
で、著者が女性だと女性のAI音声、男性だと男性のAI音声って感じの分け方で話されている感じですかね。
で、デジタルボイス、AIなので一気に数も増やせるんでしょうね。
なので一気にそのAudibleのラインナップも充実できるということで増えてるんじゃないかなって思います。
小説とかだとさすがにちょっと勘弁してくれよって感じなんですけど、
こういうビジネス書とか実用書系であれば、情報が欲しいっていうことのニーズになるのかなっていう感じで、デジタルボイスでもいいのかなっていうところではありますね。
で、そのAudibleで増えているデジタルボイスについて調べたことを話していきたいと思います。
このデジタルボイスですね、デジタルボイスだったりバーチャルボイスって呼ばれたりしますけど、
この読み上げっていうのは、ざっくり言うと最新のニューラル音声合成で書籍テキストから人っぽい朗読音声を量産できるようにした仕組みらしいです。
ニューラルTDSっていうらしいですね。
TDS、聞き馴染みないですね。
僕も調べて初めて知りました。
TDS、テキストトゥスピーチの略でして、テキスト、文字情報を合成音声で読み上げる技術だったりサービスのことで、
03:08
AI技術の向上によって自然な人間の話し方、話し言葉に近い音声へ変換する音声合成として、
読み上げアプリ、AIアシスタント、カーナビ駅の自動アナウンスなどで広く利用されています。
名前、TDSって何なのさっていうことを知らなくても結構皆さん使っていたり、聞き覚えがあったりするらしいですね。
近いところで言うとAmazon Echo、Google Assistant SiriとかもAppleのSiri、iPhoneのSiriとかも多分そうですよね、かなと思います。
そんなTDSですね。
量産できるようにした仕組みですと、
Audible自体も出版社向けにテキスト取り込みから公開までを一気通貫で回せるエンドトゥエンドのAI製作技術を用意していると説明しているそうです。
すごいですね。
オーディオブックの派遣を取りに来てるんじゃないですか。
すごい。
あれはオーディオブックサービス。
他はありますけど、すごいですね。
強い、強い気がします。
オーディブル側、公開情報で分かっていること、
2025年5月のオーディブルの公式発表では、
出版社が①オーディブルに丸投げする製作、②自社主導で作るセルフ製作の2通りでAIナレーションを作れるとしています。
2パターンあるんですね。
使える声はこれが英語、スペイン語、フランス語、イタリア語の西欧主要4カ国語プラスドイツを加えた5カ国語を中心に
100以上のAI音声、アクセント、方言違いも増やしていくという話ですと。
日本も多分含まれているんでしょうね。
もちろん英語圏が一番リスナーですよね。
リスナーとして、当たり前ですけど、人口としても多いので、
日本っていう島国の言語もあるぐらいですからね。
結構100以上のAI音声めっちゃあるんじゃないですか。
今後も増やしていくそうです。
アクセント、方言違い増やせんのすごいですね。
AIすごいって感じです。
結構海外の本、イギリスの本とか読むと話し言葉の後に、
06:00
主人公とかが強いウェールズナマリだったなとかね、
オーストラリアナマリだったなみたいなところとか出てくるので、
もしかするとナマリの部分も忠実に再現をして、
ウェールズナマリだったり、北部ナマリとか、
オーストラリアナマリ、インドナマリとかね、
再現できるのかなっていう感じです。
そうするとストーリー、物語がめちゃくちゃ立体的になりますよね。
羨ましい。
あ、でもあれか。
日本の小説、方言っつってもな、
大阪弁ぐらいしかないっすもんね。
英語を頑張って勉強してナマリ、英語の本聞くって感じですね。
さらに将来的にはですね、
音声はアップグレードできる。
技術が良くなったら差し替え可能という趣旨も明記されています。
これ公式発表ですね。
だから今聞いているデジタル音声、
デジタルボイスがさらに良くなるって感じですね。
いやすごいな。
そして生成翻訳も2025年にベータ展開予定で、
ってことはすでに展開されてるのかな。
スピーチトゥースピーク、音声から音声、翻訳で、
元ナレーターの声、スタイルを保つ方向性が示されています。
これはどういうことだろうな。
TTS、テキストトゥースピーチじゃなくて、
スピーチトゥースピーチになるってことなんか、
ちょっとよくわからないですね。
実際、テックランチはオーディブル内で、
ナラテッドバイバーチャルボイスラベルの作品が
5万件超あると報じています。
ちょっとこの辺は海外の話ですね。
では次にどうやって作られているのかっていう話で、
中身は現代のTTSのオードパイプラインですと、
オーディブルの内部実装名、
どこのモデルを使っているかっていうのは
詳細公開されていません。
ただ、今の人に近い合成音声が成立する基本構造は
かなり共通していますと、
ポイントはテキストから中間表現、
そして波形という二段構えですと。
ここまで聞いてもちょっとわからないですね。
まず一つ目に、フロントエンド、
これが文章を読み上げ可能な設計図にする。
詳しく見てみると、文章の解析、
区切りだったり品詞、動詞とか、
接続詞とかの品詞ですかね。
そして読みアクセント、韻律の設計を行って、
09:00
音声合成に必要な言語特徴を作る領域が
このフロントエンドになるそうです。
研究文献だと、フロントエンドかっこ言語処理、
そしてバックエンドかっこ音声生成の
二部構成が基本というふうに説明されているそうです。
じゃあまずフロントエンド言語処理してから
バックエンド音声生成するっていう
二段構えなんですね。
そしてここで聞いてくるのが
数字記号固有名詞略語、
例えばAWS1024、2026年2月9日みたいな
読み方の正規化等、
小立て、会話文、かっこなどの長文構造ですと、
オーディブルは長尺なので、
一冊とかなんで、
この前処理の出来っていうのが体感品質を大きく左右する
フロントエンドの設計図っていうのが
体感品質を大きく左右するんだってことですね。
そして2番目、音響モデル、
テキストや音素列を
メルスペクトログラム、
音の設計図っていう意味らしいです、
にするのがこの音響モデルらしいです。
近年の代表的なニューラルTTS、
テキストとスピーチっていうのは、
まず音の設計図、
メルスペクトログラムを生成しますと、
例えばトランスフォーム系TTS、
トランスフォーム系が何なのかわからないですけどね、
では音素列、音素ってなんだっけ、
わからない、を入力して
この音の設計図であるメルスペクトログラム、
絶対覚えられないな、を出力して、
その後にボコーダで音声化するという流れが明示されています。
わかんない単語だらけ。
音素列入力で音の設計図作る、
その後にボコーダっていう変換器みたいな感じかな、
で音声化するっていう流れらしいですね。
あ、あった。
3つ目、ボコーダっていう部分で音声の設計図、
メルスペクトログラムを生の音声波形にすると、
詳しく見てみるとその設計図、
これがメルスペクトログラムか、
音の設計図をウェーブネットあるいはウェーブグロウ、
わかんない横文字がいっぱいあるね、
などのニューラルボコーダ、
あ、だからこのウェーブネットとウェーブグロウっていうのが、
12:00
変換器みたいな感じかな、
に入れて、
などのニューラルボコーダ、
変換器に入れて波形に変換するんだ。
やっぱそうですね。
設計図を変換器に入れると波形になると。
ここが息遣いだったり質感っていうのを作る重要パート。
大事ですよね。
息遣いも結構大事ですもんね。
そして最後に、
人っぽさの核、プロソディー。
もうね、ごめんなさいって感じですけど、
プロソディー、カッコ、抑揚、マ、強弱の学習、
プロソディーの学習、
プロソディーっていうのは抑揚とマですね。
マ、そして強弱の学習に入ると。
オーディブル級に自然に聞こえるのは、
単に発音が正しいだけじゃなくて、
抑揚、ストレスとイントネーション、
イントネーションとかですね。
抑揚イコール、プロソディーがうまく乗るからですと。
Azureっていうのかな?
これは関係ないか。
たぶん会社かな?の説明だと、
TTSの説明だと、
ニューラル化によって従来TTSが苦手だった。
苦手だったんだ。
強勢っていうのかな?
強いに勢い、強勢、イントネーション、
プロソディーですね。
をより自然に合わせられるようになったらしいです。
いろんなものの進化で複合的に進化したことによって、
強弱ですね。抑揚。
僕の音声配信に一切ない抑揚。
頑張ってつけていかないといけないなってところなんですけど、
機械のほうが全然読めるんじゃないか?
僕より。
これがうまくなったってことですね。
で、なんでこんな最近急にリアルになったのか。
皆さんもぜひ聞いてほしいんですけど、
めっちゃリアル。
機械音声だなとは思うものの、
全然聞いてられるなって個人的には思ってます。
なんでこんな急にリアルになったのかっていうところなんですけど、
技術的にですね、以下の点が大きいですと、
一つ目、トランスフォーム系。
トランスフォーム系が何なのかずっとわからないですけど、
トランスフォーム系で長い依存関係、
文の後半で意味が確定するなどを扱いやすくなって、
長文でも崩れにくくなったと。
そして、これわかんないな。
非自己回帰。
非自己回帰で高速か安定しつつ音その長さを直接いじって、
速度や間を制限できる。
ファストスピーチの考え方。
ファストスピーチを知らないからファストスピーチの考え方がわからない。
非自己回帰ってのがですね、
調べた感じだと、
AI の生成モデル、特に自然言語処理や音声認識、
画像生成において出力するデータ、
15:01
トークンや画像などを一つずつ順番に生成するのではなく、
すべて同時に並列に生成する手法ですとらしいです。
これが非自己回帰モデルらしいですね。
自己回帰モデル。
非自己回帰じゃなくて、
自己回帰モデルってのはですね、
一単語ずつ順番、
左から右って感じに生成していく。
生成速度は遅くて精度は高いと。
文脈をとらえやすい。
依存関係は過去の生成トークンに依存。
用途としては高品質な翻訳が挙げられるそうです。
非自己回帰モデルはですね、
生成方法を先ほど言ったとおり、
同時に全単語を並列処理すると。
生成するって感じか。
生成速度めっちゃ速い。
精度は劣る場合がある。
文脈依存がちょっと弱いんだと。
依存関係は過去の生成結果に依存しない。
用途としては、
リアルタイム翻訳。
音声合成。
リアルタイムキャプションがあるということらしいですね。
そんな非自己回帰。
高速か安定かということですね。
しつつ音像の長さを直接いじって、
速度山を制御できるようになったんだ
という技術的な部分なのかな。
あとは母校だ。
変換器でいいんじゃないですか。
の進化で金属っぽさが減って質感が上がった。
この辺があって急に最近リアルになった
という形ですね。
そして声そのものはどうやって作るのか
という話ですね。
デジタルボイスとボイスレプリカです。
興味あるかわからないですけど、
一応見てみますね。
大きく2系統があるんだと。
一つ目が汎用のAI音声。
デジタル、バーチャルボイス。
用意された複数のAI音声、
言語、アクセント、字外含むから選ぶ方式ですと、
出版社向けに100以上のAI音声と言っているのは
基本この汎用AI音声らしいですね。
大量の収録音声を学習した
マルチスピーカー型の音声構成モデル。
和写埋め込み的な仕組みで音声を切り替えるのが
現代の定番らしいです。
ちょっとわからなかったですけど、
ふーんとか言ってわかった感じを出してみましたが、
ちょっとわからなかったですね。
次が特定ナレーターの声を複製。
ボイスクローン、ボイスレプリカ。
18:03
オーディブル、ACX側は一部ナレーターを招待して
自分の声のレプリカを作って収益化できるベーターを
勧めたと報じられています。
あっ、これあれ?
ケンスさんとかやってなかったかな?
ケンスさんの物語志向とか、あと西野明平さん、
健康西野さんもやってたっていうのを
なんかニュースで見た気がするな。
また、どの作品にそのAI音声を使うかは
関係者がコントロールして
公開前に誤読などレビューする運用も示されている
らしいですね。
今回以上なんですけど、そういったことで
オーディブルのデジタルボイスが一気に増えたり
精度が上がっていたりしているよっていう話でした。
ぜひ、まだデジタルボイスで聞いたことない方は
ぜひこの機会に聞いてみてはいかがでしょうか。
おすすめとしては前回お伝えした
教養としてのコーヒーだったり
カフェの世界史も内容として普通に面白いので
ぜひぜひ聞いてみてください。
というわけで今回はここまでです。
お聞きくださりありがとうございました。
それではみなさんバイバイプー!
19:35

コメント

スクロール