1. Audiostart News
  2. #215 Metaが音楽生成AI「Music..
2023-06-13 06:24

#215 Metaが音楽生成AI「MusicGen」を発表!Text-to-Musicを実際に体験してみた

Metaが音楽生成AI「MusicGen」を発表しました。「テキストトゥーミュージック」、つまりテキストで指示するだけで音楽を作ることができるサービスで、ポッドキャストのBGMなどでも活用できそうなので、今回はこれを使ってみたレポートをお届けしたいと思います。

【AD】
Audiostartでは、ポッドキャストに音声広告を掲載したい広告主を募集中です。詳細は以下のリンク先をご覧ください。
https://bit.ly/41jPwyu

【AD】
Audiostartでは、音声広告を掲載して広告報酬を受け取りたいポッドキャスターの方を募集しています。法人・個人問いません。詳細は以下のリンク先をご覧ください。
https://bit.ly/3GSVv5P
00:05
Audiostart Newsへようこそ。
この番組は、ロボットスタートによる音声広告やポッドキャストなど、音声業界の最新情報をお伝えする番組です。
メタが音楽生成AI、MusicGenを発表しました。
Text-to-Music、つまりテキストで支持するだけで音楽を作ることができるサービスで、
ポッドキャストのBGMなどでも活用できそうなので、今回はこれを使ってみたレポートをお届けしたいと思います。
MusicGenは論文概要によれば、圧縮された理算的な音楽表現トークンの複数のストリームに対して動作する単一の言語モデルと、難解な説明となっています。
簡単に言えば、ChatGPTが文章を予測して生成するかのように、音楽を予測して生成していく仕組みです。
実際にMusicGenで生成されたサンプルを他サービスと比較した実証評価結果も発表されました。
MusicGen、MusicLM、Refusion、MUSAIそれぞれで同じプロンプトで音楽を生成した結果も聞き比べることができます。
実際聞いてみると確かにMusicGenのサンプルの方が支持したプロンプトに対して適切な曲が生成されていると思います。
また、テキストのプロンプト入力により曲を生成する以外にも、ベースとなる音楽をMP3形式で与えて、そこに支持を与えることも可能です。
クラシックの曲を渡して、ロック調にしてという支持でそれっぽいものが仕上がることもサンプルで確認できます。
画像生成AIと同じ感じですね。
すごいです。このMusicGenは正式なサービスという形ではなく、論文とオープンソースのコードとして発表されています。
GitHubのリポジトリから誰もが無料でこのモデルを利用可能となっています。
同時に、ちょっと試したいというユーザー向けにハギングフェイスでMusicGenのデモを試すことができます。
今回はこちらを使って実際に試していきたいと思います。
音楽の説明欄に自分が作ってほしい曲を指定するプロンプトを入力します。
プロンプトの例として、80年代のドライビングポップソング、重厚なドラムとシンセパッドをバックに、
アコースティックギターを使った陽気なカントリーソング、90年代のロックソングをエレキギターと重厚なドラムで印象的に、
シンコペーションドラム、強いエモーションを持つ軽快で陽気なEDM、BPMは130で、
ローファイのスローなBPMのエレクトロチルで、オーガニックなサンプルで構成、などが挙げられています。
ここはセンスが問われる箇所ですね。
またプロンプト以外に、メロディの条件欄に必要あればベースにする音楽ファイル、MP3を指定できます。
03:05
入力後、生成ボタンを押してしばらく待つと曲は完成します。
デモ版なので12秒だけですが、雰囲気は十分伝わります。
実際に僕が生成してみたサンプルを4つほど紹介します。
わかりやすいように説明は日本語で表記していますが、実際のプロンプトの指示は英語で行う必要があります。
1.ジャジーなヒップホップで、クラブに合う感じで、ローファイヒップホップのヌジャベスが好きなので、それっぽいBGMをまず作ってみました。
初めてやってみた割には、いきなりそれなりの完成度で驚きです。
2.フューチャーベースで、ラブステップやトラップをより温かく、少ないリズムでミックスして、温かみがあってちょっと可愛らしいドラムンベースを狙って、フューチャーベースを支持したもの。
エレクトロな感じはあるけど、リズムの乗り方がいまいちの仕上がりに、これは僕の頼み方が悪かったのかもです。
3.シティポップで、日本で人気のあるスタイル風にして、今や世界的な人気のシティポップを追うだ、日本らしいスタイルは残して、と思ったんですが、出来上がった曲はイメージしてない和太鼓のような音作りになってしまい失敗ですね。
全く都会的じゃないですし。
4.ピアノソロ、ウッドベース、フルドラムのモダンジャズ。ジャズバーに合う感じで、僕は一番好きなジャンルはジャズで、その中でも好み、ど真ん中はモダンジャズなんです。そこを狙ってシンプルにピアノトリオで指定してみました。
ビル・エヴァンス風に仕上がるかと期待したんですがどうでしょうか。なんとなく雰囲気は出てるかなと思います。何にせよ、自分のポッドキャスト番組用にぴったりのBGMをAIで生成できるのは最高ですね。簡単なのでやってみることをお勧めします。ではまた。
今回のニュースは以上です。もっと詳しい情報を知りたい場合、オーディオスタートニュースで検索してみてください。ではまたお会いしましょう。
06:24

コメント

スクロール