#323 音楽生成AI、怖いけど楽しい、Gemini参戦で音楽界ざわつく

00:00

こんにちは。こんにちは。いきなりですけど、架空の新人バンドが歌う、太陽をつかめっていうものすごくキャッチーな曲があるんですよ。

はい、あの曲ですね。でも実はこれ、バンドも歌詞も楽器もこの世に一切存在していなくて、全部AIが生成したものなんです。

本当に驚きのクオリティですよね。ということで今回は、送ってくださった方のメモ書きをもとにですね、

2月19日にGoogleのGeminiに搭載された音楽生成モデル、リリア3についての深掘りを行っていきたいと思います。

お願いします。音楽生成AIっていうと、素の何かの差率がすでに有名じゃないですか。

そうなんですよ。でもそれをホットキャストとかの音声配信のBGMとして使おうとすると、ちょっと大きな壁があって。

ああ、いわゆる著作権とか利用規約の問題ですね。

まさにそれです。送ってくださった方も直面したらしいんですけど、いわゆる利用規約ホラーってやつでした。

利用規約ホラー、なるほど。

無料だとどこまで使っていいのかとか、解約したら過去の配信の音源はどうなるのかとか、規約が難解すぎて怖くて手が出せない状態だったんです。

わかります。で、そこにGoogleがリリア3を投入してきたわけですが、これがどうして突破口になるのかというところですよね。

はい、そこが気になります。

はい。最大の理由はですね、Googleが自社の巨大なエコシステム、特にYouTubeなんかでの利用を最初から前提にしているからなんです。

あ、なるほど。自社のプラットフォームで使うことを想定しているわけですね。

そうなんです。権利関係がクリアな自社データで学習をコントロールしているので、無料ユーザーでも安全に使えるように出力される音源の権利的な境界線が最初から明確に引かれているんですよ。

ってことは、プラットフォーム側から公式にお墨付きをもらっているような、そういう安心感があるってことですね。

ええ、まさにその通りです。

それで、実際に送ってくださった方がリリア3に出した指示がですね、なんかすごくカオスでして。

カオスですか。どんな指示だったんでしょう?

えっと、ちょっと読み上げますね。

ループできる曲。宇宙ぽくて元気な朝に合う。ピアノ入りの可愛いメタル。

可愛いメタル。それはまた属性がてんこ盛りですね。

もうメニューを見ずに、優しい味の爆発系ラーメンを注文するような暴挙だと思うんですけど、これAIはどうやって処理しているんですか?

人間だと意味がわからないって突き返しちゃいそうですが、AIのニューラルネットワークはそうはならないんですよ。

エラーで耐えたりしないんですね。

はい。何百万もの逆曲データの中から、宇宙ぽさとかメタルとか朝といったパラメーターの重みを数学的な空間に配置してですね、

全ての条件が重なり合う妥協点を計算して、無理やり一つの音源として出力する仕組みなんです。

つまりどんなに矛盾した指示でも、AIは必死に数学的な正解を探し出そうとするわけですね。

そういうことです。

ただ今回ちょっと面白い事故が起きたらしくて、BGM用なのにインスト、つまり歌無しっていう指定を忘れちゃったそうなんです。

03:04

あー、なるほど。それは嫌な予感がします。

はい。その完璧な妥協点のど真ん中で、見知らぬボーカルが急に熱唱し始めたっていう。

そこがプロンプトの恐ろしいところですよね。AIは人間の文脈とか空気を読むってことはしないですから。

そうですね。与えられた文字列の制約内で最適な計算結果を出しただけと。

ええ。でもここで重要なのは、その失敗作がきっちり30秒で終わる立派なエンディング付きの曲として出力されたという事実なんです。

あー確かに。しかも指定していないのになぜか活かしたカバーアートまでついてきたそうで。

30秒で完結するパッケージになっていると。

はい。これってジングルとか配信の切り替えに使うには奇跡的な使い勝手の良さですよね。

そうなんですよ。1日10回まで無料という制限と30秒という短い出力枠があるからこそ。

あるからこそ。

AIが無駄に長い曲で迷走せずに、コンパクトで完成度の高いジングルに特化したアセットを安定して作れるわけです。

ミスがあっても30秒でまとまるのはツールとしての強みですね。

なるほど。そして一番ネックだった利用規約の問題も送ってくださった方はかなり力技で解決されたとか。

どうやってですか?

あの難解な日本語訳の規約をですね、なんとジェミナイとチャットGPTという2つのAIに読ませて。

あーAIに読ませた。

音声配信で使って安全化動画をダブルチェックさせたそうなんです。

それはすごい。法律や規約の解釈という人間でも迷う高度な判断を別のアルゴリズムに審査させて保証を得るというメタ構造ですね。

天才的だなとは思うんですけど、同時にちょっと不気味さも感じてしまって。

不気味さですか?

だってAIが生成したものをAIが安全だって言っているから使うっていう状態ですよね。

私たち人間の判断が完全に火曜の外に置かれていないかなって。

まさにそこが現代の情報社会におけるパラダイムシフトの革新だと思います。

パラダイムシフト?

ええ。テクノロジーが複雑になりすぎた結果、私たちはシステムの安全性を直接検証できなくなってきています。

だから信頼の担保をアルゴリズムにアウトソーシングするという新しいリスクの取り方を始めているわけです。

なるほど。送ってくださった方、ボタン一つで今日の気分を極にできる凄ましい時代が到来しましたね。

本当にそうですね。

でも同時に、これって私たち自身の進化が問われる時代でもあると思うんです。

と言いますと?

技術のハードルが完全に消え去って、誰でもプロ並みの曲が作れるようになった結果ですね。

ええ。

逆に私たち自身の音楽的センスの無さとか、指示の雑さが残酷なまでに露呈してしまうんじゃないかと。

ツールが完璧になればなるほど、人間の側の言い訳はできなくなりますからね。

そうなんですよ。

最終的に残る変数は、それを使う人に何を表現したいかという明確な意図があるかどうかだけになりますね。

06:06

表現の自由を手に入れた代償は案外重いのかもしれません。

このAIとの付き合い方、皆さんもぜひ探ってみてください。

はい。

次回の配信もお楽しみに。さようなら。

Duration:	06:19
File Size:	6,066,377 bytes

Audio Codec:	MP3
Audio Channels:	2 (stereo)
Sample Rate:	48,000 Hz
Audio Bit Rate:	128 kbps

Integrated Loudness:	-14.66 LUFS
True Peak:	-1.00 dB
Loudness Range:	5.20 LU
Integrated Loudness (original):	-16.12 LUFS
True Peak (original):	-2.90 dB
Loudness Range (original):	5.70 LU

File Information

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

ピョン吉＠福島県

感想

総スター数

コメント

感想を書く