1. 小松正史『耳の保養』
  2. 【生成AI】リアルな環境音はAI..
2024-10-21 10:01

【生成AI】リアルな環境音はAIを超えられるか?

生成AIによって音や音楽が自動生成されつつあります。そんな中でリアルな音の響きをAIは超えられるのでしょうか。上賀茂神社の川の音を聞きながら、AIの可能性と限界について語ってみました。
---
stand.fmでは、この放送にいいね・コメント・レター送信ができます。
https://stand.fm/channels/627e0afcfd1be6fc466131c8
00:02
皆さんこんにちは、小松正史です。今ですね、実は上鴨神社に来ておりまして、音のフィールドワークをやって録音中なんですけどね、ちょっとボイシー取ろうかなと思って今放送を始めております。
この放送では、音や音楽についてのお話として、日々生きるためのいろんな知恵をお伝えしております。もしよかったらまたフォローいただいて聴いていただけましたらありがたいです。
今日は上鴨神社で音を録りながら、音と人の関係を日々探っているんですけども、何かヒントになるものがあればいいかなと思ってお話をさせていただいております。
この上鴨神社、皆さんおいでになったことありますでしょうかね。上鴨神社と下鴨神社とセットで録られることが多いんですけれども、上鴨地域、京都で言いますと、京都本州の北のほうのやや西側になりますかね。
近くには京都生化大学とか、京都産業大学があるんですけれども、すごく歓声な神社です。それで、ここの音の特徴としては、奈良の川っていう川がですね、この渓谷中を流れておりまして、幅はですね、2メートル半とか3メートル近いところがあったり、あと1.5メートルぐらいの細いところもあるんですけれども、
やや旧春な感じの作りの川がですね、ぐねぐねと並んでと言いますかね、流れている感じですね。それで、周りは割と古くからの木とか、あとは山の裾野なので、ちょっと山の雰囲気が生い茂っているような、そんな感じの音が聞こえてきます。
今ちょうどね、夕方の午後5時過ぎぐらいなんですね。さっきまで鳥の声がかなり聞こえていたんですけれども、今はね、ほとんどないというか。3月の今日撮っているのが13日なんですね。結構まだまだ桜のシーズンよりも手前で、お客さんも少ないという状態ですね。
日々、ここも観光地なので、割と来客多いところですけれども、僕はあえて狙っているんですよね。夕方5時とか。さっきまで大学でちょっと会議をしていまして、それで自転車で10分ぐらいでここに到着するんですが、ちょっと気分を入れ替えるという感じでね、ここにたどり着くと、ほんと人がほとんど1人もいない状態で撮っている感じですね。
それで、自然音を今聞いているんですけれども、ちょっと最近ですね、人工知能でですね、AI使って環境音とか、あと音楽の生成みたいなことを結構されているような、そういうプログラミングとかそういうコンテンツがね、結構出始めている感じがするんですね。
03:07
例えば、音楽を作る場合でも、ちゃんとGPTみたいにですね、自分の好きな言葉ね、青空、そして晴れ、そして鮮やかなとかね、そういう言葉を入れると、それにおさましい音楽をね、ループの音楽なんですけどね、ループ音源なんですけど、ある程度作ってくれるような、言葉から音楽を作るみたいな、そういう感じのシステムもどんどん出てきてましてですね。
ちょっとここにね、リンク貼ろうかなと思うんですけど、Adobeのですね、ソフトで今ね、びっくりするようなソフトが、今まだ試作中みたいなんですけど、言葉を入れるとね、どんどん曲というか、曲の手前のループ音源みたいな感じ、そういうのがね、生成されて、提供され始めているようなところがあったりとかですね。
あとあの、東京芸大の出身のプロジェクトなんですけれども、時間とか天候とか、そういう自然環境の条件によってですね、音や音楽を生成するっていうシステムが開発されて、これ多分有料になるとは思うんですけど、とにかくこう人工知能を使って環境の音とかですね、音楽もね、作られ始めてきたっていう、そういう時期になりつつあるんですね。
ただ、僕はそういう音とか音楽をね、たまに聴いたりとかね、分析したりしてるんですけれども、こういう今、実はね、神窪神社で音を聴いているわけですけど、こういう音にはならないんだよねっていうところを今日ちょっとね、強調したいなと思います。
それでちょっと断っておきますけど、AIとかそういう活動をディスっているわけじゃ全然ないですよ。そういうのは日々日進月歩していくので、どんどん開発したらいいとは思うんですけども、現状ですね、そうした人工知能的に作った音楽や音と、今リアルに神窪神社の音を聴きながら思ったのは、やっぱ違うなって思うんですね。
これ今先ほど僕、神窪神社の音を録音したんですけれども、多分その録音聴いてもですね、聴いた後で人工知能で作られた音をね、革音を比較したというふうにしていくとですね、やっぱ何かが違う。これ何が違うかというとですね、突発的に起こる音環境とか、心をふっとね、引いていくようなね、人の心を引きつけるような音っていうのは、
なかなか人工のね、あの生成ではなかなか難しいんだなーっていうふうに思うんですね。この話をもうちょっとあの解像度高く喋っていきますとですね、今あの音の、革の音を聴いていますけども、よく聴くとですね、突発的にちょっと音が変化するんですよ。ピチャッとかね、プチョッとか。
06:09
なんか急にね、一応革の音っていうカテゴリーなんだけど、急に何か外れしみたいな音っていうのがね、聞こえてくるんですね。ちょっと今録音を聞いてみましょうかね。今リアルな音を録音してますけどね。
今あの少しだけ聞いていただいたんですけど、めちゃくちゃ多様ですよね。ただ革の音だけで膨れないような革音の変化とか、そういうバリエーションが楽しめます。例えば右奥なんかは、ちょっと低音のあの革音でボコ、ボコとかね、多分大きな石があると思うんですけど、そこに当たる水の音なんかが、不足性がないんだけど、ボコとか。
ボボンとかって音がするんですね。左側はちょっとまた小さな石があってですね、そこにね、なんかたまに革の水が当たるような、ちょっと高音に近い音があるんですよ。
で、今一番真ん中で聞こえてるのが大きな石に当たる水音なんですけど、それもですね、さっきの2つの音の種類とは違った周波数で聞こえてるんですね。で、大きく分けるとその3つの水音の要素っていうのが混ざって1つの革音になってるわけなんですね。
で、これ1つ1つを聞いてみると、やっぱすごくね、ランダムに音がちょっと変化したりとか突発的な音が出たりとかしながら、全体で聞くと1つの音の風景というか音のまとまりとして聞こえてくるっていうところがあるんですよ。
これってね、やっぱり人工知能では作れないんですよね。ループしてるわけじゃないんですよね。一見ループしてる音でありそうなんだけど、なんか音の持ってるその響きの情報量っていうのが半端ないんで、この辺りが多分AIと違うんじゃないかなと思うんですね。
将来的にはこのAIもね、AIちゃんもこういうふうなめちゃくちゃ多様性のある自然音に近いような音が出てるとは思うんですけど、やっぱり今のところですね、この音の情報をアウトプットする場合はMP3とかですね、限られた音の圧縮の状態によってユーザーに音が届けられてしまうっていうのがあるから、そういうことを考えると無闇に音の情報を増やすわけにはいかないわけですね。
音以外にも視覚的な情報、つまり動画によって音の状況が視覚的にも伝えられるっていうところがあるので、それを兼ね合い考えてみると、いくら頑張ったとしても音の情報って薄っぺらいものになっちゃうわけですね。
09:07
話を戻しますと、今日結論的な話に、AIでなかなか音の微細なものがわかりづらい。でも世の中は便利だってことで、AIによって音が生成されつつあると。
その違いを見つけるのは、やはり人間の感性なんですね。この音が人工的だ、この音が人工的じゃないとかね。そのあたりを見極めていく、聞き分けていくっていうことが、最後に人間に課せられた知恵と言いますか、感覚世界なんだなと思いますね。
その違いを少しでもみなさんも、僕も感じ取れるような、そういう余裕を持ちたいものだなと思って、今日は音の感性をAIの部分からお話をしてみました。
ということで、この放送もしよろしかったら、またフォローいただきまして、長く聞いていただけますと幸いでございます。それでは今日も良い音の一日をお過ごしください。
10:01

コメント

スクロール