合成音声の思わぬメリット

00:00

今日お話ししたいのは、合成音声の思わぬメリットということなんですね。

まず、これを話そうと思ったのは、日本語の翻訳で一斉授業を発表するという、こういう本が新しく発売されました。

これがですね、紙の印刷版しかないんですよ。

電子版がないので、ちょっと僕は悲しかったんですけど、でもこれ元は英語の本の翻訳なんですよね。

英語の本の場合は、電子版があることが多いので、オリジナルのタイトルを探して検索してみたら、やっぱりあったんですね。

しかも英語の電子版が確か223円とかすごい安いんですよね。

今だけか、それともずっとそうなのかわからないんですけど。

日本だと10倍以上するんですよね。

なので、10分の1の金額で買えるので、これなら223円だったら途中で読むのを挫折したとしてもいいかなみたいな感じで一応ダウンロードしました。

ちなみに挫折するっていうのは、僕がこういう本を音声ではあんまり読んでいなかったからっていうのがあります。

ちょっとこの後ちゃんと説明しますけど、英語の本はちゃんと画面を見ながら読むものであって、合成音声で読むものではないというふうに僕は思っていたんですね。

なので、ちょっとその時間がないので、ちょっとこれは読めないかなというふうには思っていたんです。

一応このぐらいの英語は読めることはよくあるんですけど、読む時間がないからちょっとダメかなというふうに思っていたというのがあります。

だけど223円だったら別にもう途中で読むのやめてもいいやというふうに思ったんですよ。

なので、とりあえずダウンロードしてみたというのがあります。

やっぱり椅子に座って画面を読もうとするとその時間はさすがにないなというのがわかってきて、それで合成音声をまた使い始めたというのがあるんですね。

それで今日気がついたことをお話ししたいんですけど、ちょっとその前にこの録音のね、これを多分今ライブで聞いている方そんなにいらっしゃらないので、

ちょっと一応ライブで聞いている方にもご質問しますけど、合成音声って今まで授業とか自分で勉強のために使っていらっしゃいますかね。

多分僕にとって一番身近なのはAndroidのトークバックというやつなんですけど、それ以外にもパソコン用のGoogle Chromeの読み上げの拡張機能とかも入れてます。

03:12

そういうのを、じゃあ例えばそうですね、先週1週間でこの合成音声を使ったことがもしありましたらハートマークでリアクションいただけますかね。

なかったら涙のマークでリアクションいただければと思います。

録音で聞いている方もちょっと皆さん振り返っていただければと思うんですけどね。

涙のマークいただいてますね。

少なくとも年末の1週間は特に忙しいというのもありますしね。

だけどこれ本当にとっても便利なので僕はほぼ毎日使っています。

多分去年の1年間振り返っても使わなかった日ってもしかしたらないかもしれない。

そのぐらい使っているんですね、合成音声ね。

具体的には僕はアンドロイドっていう携帯のトークバックっていうのを使っています。

だけどこれは別にアンドロイドの方が優れている。

例えば勝馬和夫さんとかはアンドロイドの方が優れているっていうふうにそれをおっしゃっていたのはもうだいぶ前ですけどね。

だけど最近ではiPhoneの方も非常に質の高い合成音声ができるというふうに聞いています。

こういうのは確かライケンさんだったかな。

ライケンさんがTwitterでいろいろこういうテクノロジーと日本語教育について書いていらっしゃるライケンさんがiPhoneでの使い方はとっても簡単。

確か3本指で、指3本ですね。

3本指で画面の上から下までスクロールするといきなり始まるとかそういう感じだったのかな。

でもちょっとiPhoneはすみません。

僕よく昔使ってたんですけど今は使ってないので違っているかもしれません。

アンドロイドの場合は最初に1つ設定をすると音量ですね。

音の大きさを上げるボタンと下げるボタンその2つですね。

その2つを同時に3秒ぐらい押すとこのトークバックっていうのを起動できるようになります。

トークバックを止めるときも同じボタンを同じ時間を押すようにすればいいわけなんですね。

でも最初にもちょっと言いましたけどこれは外国語のインプットには向いてないというふうにもう本当に最近まで思っていたんですね。

でもそれちょっと本当に間違いだったというふうに今は思っていますのでちょっとそれは撤回したいと思います。

その理由とかを今日ご紹介したと思うんですね。

まずその前にどうして向いてないのか。

デメリットもあるんですよ合成音声にはね。

それをちょっとまず最初にちゃんとわかった上で使っていただきたいのでまず欠点を最初に言いますね。

まず1つは感情がこもっていないっていうことがやっぱりあります。

06:03

機械なんでね。

でもちゃんと日本語の場合はちゃんと高低アクセントの高いところと低いところはあります。

例えばよく昔の日本のSF映画とかでロボットとか宇宙人の合成の声がですね。

皆さんよく覚えてる僕ぐらいの年の人はよく覚えていると思いますけど。

我々は宇宙人だっていうこういう一つの音の高さ音の周波数がずっと同じで。

一つの音の高さだけでずっと話すそういうのが初期の合成音声でした。

だけど今の合成音声はもうちゃんと我々は宇宙人だというふうにね。

我々はじゃなくて我々はっていうふうに高低アクセントがちゃんと入るようにはなっていますもちろんね。

ただプロミネンスっていうのはないんですよね。

文脈によってその強調する場所が変わったりしますよね。

あいつらは違うけどでも我々は宇宙人だっていう時もあるし。

我々は地球人じゃなくて我々は宇宙人だっていう時のね。

そういうプロミネンスの違いっていうのは今のところない。

少なくとも僕には感じられないようになっていますね。

なのでそういう意味では文の中でどこにプロミネンスがあるかっていうのは正直よくわからないので

そういう意味ではもちろん人間が読んでいる音声のほうがずっと聞きやすいっていうのがあります。

あと特にこれは英語よりも日本語について問題があるんですけど

同じ文字で違う読み方がある場合に間違って読んでしまうことが非常に多いんですよ。

例えば1日とか1日と1日とかこれが間違って読まれている場合がとても多いですね。

あと背筋が凍るっていう時に背筋が凍るとかね。

背筋が凍っても困りますよね。

なのでそういう問題がありますね。

特にこれは日本語について顕著なんですけど

例えば英語とかでread読むときのreadっていうのがありますよね。

それも現在形ならreadだけど過去形ならreadになるわけですよね。

だからその辺がちゃんとできているのかどうか実は僕もあんまり気をつけてないのでよくわかんないです。

多分どうなのかな。

ちょっとこれも後でわかったらね。

I readとI readの違いですよね。

現在形と過去形の同じ読み方だけど文脈によって読み方が変わるっていう

09:03

そういうときにどうなるのかまたわかったらご紹介したいと思うんですけど

ちょっと今は多分日本語では全然こういう場合に区別がすごくたくさん間違いがあるので

もしかしたら英語でもそういう問題はあるかもしれません。

あともっと困るのが例えば目字とか過剰書きで書いてあることがありますよね。

それが改行されているのが認識されないことが多いんですよ。

あと見出しもありますよね。

見出しとかもその後の本文が認識されないでつながって読まれてしまうんですね。

例えば過剰書きっぽく日本人は米を食べる。

アメリカ人はパンを食べるというふうに過剰書きで書いてあったとしますよ。

過剰書きの場合は普通は文の終わりに丸がないですよね。

そういう時はこの合成音声だと日本人は米を食べるアメリカ人はパンを食べるみたいにつながって読まれちゃうんですよね。

あと見出しとかもそうです。

例えば戦争が起きているっていう見出しの後に

日本は平和だがウクライナでは隣国に侵略されてとかそういう本文が続くとしますよ。

そういう時にやっぱり見出しの最後も普通は丸がないですよね。

なので戦争が起きている日本は平和だがウクライナでは隣国に侵略されてみたいな感じにつながって聞こえちゃうんですね。

なのでこれが大きな問題なんです。

でもこれはただ単に開業のマークっていうのは認識するのはとても簡単なので

もうすぐに直すことはできるんじゃないかなと思います。

さっきのプロミネンスがないっていうのは文脈を理解しないとできない話だし

あと1日と1日っていうのはこれも文脈がわからないと正しく再現できないので

かなりまだハードルは高いと思うんですけど

この過剰書きとか見出しがつながってしまうっていうのは比較的簡単に解決できる。

もしかしたら明日にでも解決されるかもしれない。

そのぐらいの問題だと思います。

その一方で実はオーディブルとかポッドキャストとかですね

ラジオ番組ですよね。ポッドキャストっていうのは要するにインターネットのラジオですけど

そういう人間の音声にも実は欠点があります。

それは僕のムラスペ聞いてればよくわかると思いますけど

一番は言い間違いとかが非常に多いってことですね。

でもそれはそれでいいんですよ。

だって人間というのは言い間違いをするものですから

外国語を勉強するときには僕がインド人と話すときだって

相手のインド人だって英語の言い間違いをすることはあるわけですから。

12:00

それは本質的な問題ではありません。

今日ここで言わなければいけないことは

オーディブルとかポッドキャストとかのですね

人間の音声はそれを聞くときに再生しますよね。

プレイを押しますよね。

再生するスピードを落とすと

酔っ払いのですね、路列の回らない話し方

そういう感じに聞こえてしまうんですよね。

今日これ録音で僕の聞いてる人は

ツイッターのスペースも0.5倍で確か再生することができると思います。

でもそれをやらないでほしいです。

お願いだからしないでください。

なんでかというと本当に酔っ払いですよね。

ヘベレケっていう言い方がありますけど

お酒をたくさん飲んだ人が

はっきり話ができないときってありますよね。

眠くて眠くてちゃんとしゃべれないで

眠る寸前とかね、あるいは寝言って言いますけど

寝ながら夢を見ながら話しているときがありますよね。

そういうときのすごくはっきりしていないしゃべり方

そういう風に聞こえてしまうんですよ。

僕は自分のしゃべっているのが

そういう声で再生するのは望まないので

絶対に録音で聞いている人は

これを0.5倍とかで再生しないでほしいと思っているんですけど

たぶん意地の悪い人は何人かやっているんじゃないかと思いますけどね。

でも逆にこれを2倍とかに速度を上げると

すごいシャープな話し方になって

いかにも頭がいい人のしゃべり方みたいな感じになるんですよ。

なので僕も今こうやって話しているときは

いろいろ考えながらなので

やっぱりそんなに早くはしゃべれないんですけど

でも僕も自分の母語は日本語ですから

それで他の人の録音を聞いたりするときは

だいたい2倍とか3倍のスピードで聞いてますし

皆さんもこのムラスペを録音で聞いている人は

2倍3倍で聞いてもいいと思います。

その方が僕の声がすごくシャープで頭がいい人の声に聞こえるので

そういう意味でもお勧めしたいと思いますね。

でも話を元に戻すと

合成音声じゃなくて人間の声の録音を

オーディオとかポッドキャストとかですね

そういう人間の声の録音をスピードを落として聞くと

すごく聞き苦しいっていうんですけど

要するに快適な気持ちのいい聞き方ができないんですよね。

15:00

本当に酔っ払いの話を聞いているように聞こえてしまうので

僕は英語であってもオーディオとかポッドキャストとか

そういう人間が話した声を半分のスピードで聞くっていうのは

ちょっと僕には正直やれないんですよ。

なのでそれを教材として使ったことはなかったんですね。

でも合成音声の場合はそういう問題がないんですよ。

スピードを落としてもちゃんとクリアに聞くことができます。

今Twitterのスペースをやりながらやっているので

もしかしたらその間音声が途切れちゃったりすることがあるかもしれませんが

ちょっと今やってみますね。

今から1分ぐらいもしかしたら音声が途切れてしまうかもしれませんが

もしかしたらちゃんと合成音声の再生をお聞かせすることができるかもしれません。

もし聞こえなくなったとしても1分後には復活しますので少々お待ちくださいませ。

じゃあこれから合成音声の実際のデモンストレーションをやってみたいと思います。

今聞こえてましたかね。もし聞こえていたらハートマーク。

もし聞こえてなかったら涙のマークでちょっとリアクションいただけたら大変ありがたいんですがどうでしょうか。

今はスマホで再生した音声をまたマイクで拾って

それで涙のマークが聞こえてなかったのか。

じゃあ僕がTwitter以外の今Kindleの画面を開いてそこで再生したんですけど聞こえてなかったんですね。

スペースでは聞こえてなかったみたい。Twitterのスペースでは聞こえていなかったみたいです。

今やったのはTwitterから別のKindleっていうアプリに入ってそこでこのAndroidのトークバックっていうのを再生してみたんですね。

18:03

その間Twitterが裏に隠れてしまっていたので音声が聞こえなかったみたいですね。

でもしょうがないです。実演はうまくいかなかったですけど。

今やったのはかなり4分の1とかスピード4分の1とかその辺のすごい遅い話し方ですね。

だけどこれを本当の人間の声で4分の1ぐらいまで落としてしまうとすごく本当に聞き苦しいです。

聞きにくい音声になるので多分これを何時間も聞こうっていうのはちょっと普通の人には無理だと思います。

だけど合成音声の場合はそれなりに聞こえるんですね。

ていうか酔っ払った感じみたいなのは全然ないです。

僕の場合は標準的なスピードでもさっき申し上げたように合成音声だといろいろな問題があってちょっと聞きにくいんですね。

なのでしばらく全然聞いてなかったんですよ。

ですけどこれが今回ちょっと急に読みたい本が出て、最初に申し上げたハッキング、一斉授業をハックするの原作と、

あともう一つ子供のときにすごく好きだった本がこれも日本語の翻訳はもう電子版がないんだけど、

英語のオリジナルはあることがわかってちょっと今それを聞いているところなんですけど、

でも標準だとやっぱりちょっと聞きにくいんですが、

だけど僕英語ネイティブでもないしね。

でも標準の2分の1ぐらいのスピードにすると今の僕の英語のレベルだと問題なく聞ける感じですね。

だけどちょっとやっぱり考えてみたんですが、

最初に読んだ一斉授業をハックするっていうのはこれはいわゆる実用書ですね。

こういうのにはやっぱり過剰書きとかが結構たくさん出てくるんですよ。

なのでそういうところはどうしても画面を見ないとちょっとよくわからないですね。

2分の1のスピードに落としても。

あとこういう実用書っていうのは見出しとかも結構多いんですよ。

なのでそういうものが少ない読み物としては物語ですよね。

物語。

なのでそういうものに関してはこの合成音声の2分の1ぐらいのスピードで聞くとね。

人によってスピードは調整できます。

21:02

それがまた一つのいいところですね。

合成音声の場合は自分の好きな速度を選ぶことができるというわけですね。

僕みたいに日本語の場合は標準の3倍ぐらいのスピードで聞くし、

英語の場合は標準の半分ぐらいで聞く。

もちろんもっと英語の上手な方は標準のスピードでもあるわ。

日本人でも標準の2倍とか3倍で英語を聞いても大丈夫な方もいらっしゃると思いますけど。

そういうふうに自分に合ったスピードを選ぶことができるというのもとてもいいことではないかと思っています。

これは本当に反省しなければいけないことは、

僕が人間の音声ですよね。

人間の音声では0.5倍とかそういうスピードを落として聞くと全然聞き苦しい。

とても聞きにくい。

なのでそういう先入観が最初からあって、

それで合成音声の時にも半分までスピードを落とすというのを今までやってこなかったんですね。

もともと英語の本もそれなりに読んでいる人間だし、

合成音声も日本語に関しては本当に毎日浴びるように聞いている人間なのにもかかわらず、

それを英語の本でスピードを調整してやってみようというふうに、

全然今まで思っていなかったというのは、

本当に深く反省しなければいけないところだなというふうに思っております。

リスナーの皆さんもアンドロイドに限らず、

この合成音声で日本語でもいいんですけど、

外国語の勉強のためにもそれを使ってみたいと思う方がいらっしゃいましたら、

ハートのマークでリアクションいただければと思います。

自分にはちょっと早いかなという方は涙のマークでリアクションいただければと思いますが、いかがでしょうか。

それでは本日も僕の音声配信ムラスペをお聞きくださいましてありがとうございました。

今日のこの合成音声の思わぬメリット、

これについてご感想とかコメントがありましたら、

ぜひムラスペのハッシュタグ付きでご共有いただければと思います。

それでは今年も良い一年をお過ごしください。

そして冒険は続きます。

スター

エピソードをシェアする

メッセージを送信

村上吉文

スター

コメント

こちらもおすすめ