1. なおくんのラジオ遊び
  2. #2414 AIは楽譜を認識できるの..
2024-03-21 12:01

#2414 AIは楽譜を認識できるのか試してみた! from Radiotalk

#2414 AIは楽譜を認識できるのか試してみた!
・チャット型AIに手書きの楽譜を読み込ませてみました。ちゃんと楽譜の内容を理解できるのか?
①Claude3
②Gemini
③Copilot

====
①Claude3: 楽譜と認識するも曲は理解できず
②Gemini: 楽譜の内容と曲の内容も理解した
③Copilot: 楽譜であることすら認識できず

結論: 楽譜を内容まで含めてちゃんと読み取れたのはGeminiだけでした。

使用BGM
【フリーbgm】こんがり素朴パン【配信、作業、かわいい、ほのぼの、vlog】【2時間】−さりい−
https://youtu.be/Owxc0LgKPzE

#202403n #AI #手書き楽譜 #楽譜
00:01
はい、皆様お疲れ様です。AI研究家のなおくんです。ということで、今回のテーマはこちらです。
AIに楽譜を読み込ませてみた。このようなテーマで話していきたいと思います。よろしくお願いします。
ということで、AIに画像認識をさせることによって、AIは画像を認識できるのかというシリーズをやっておりまして、
過去にはマインドマップであるとか、あとは自作の4コマ漫画、自分で作った4コマ漫画をAIに認識できるのかどうかという実験をしてきました。
今回はですね、手書きの楽譜ですね、音楽の譜面ですね。これをAIは認識できるのかどうかっていうのをちょっと実験してみたいと思います。
何がやりたいかっていうと、まずはですね、画像認識できるかっていうところなんですけれども、この画像認識できたら、
この楽譜から自動的に伴奏データを作ってみたいなことが、もしかしたらできるんじゃないかなというか、できたら面白いですよね、みたいなことなので、
とりあえずまず楽譜というものをですね、AIがちゃんと理解できるのかっていうことを実験してみたいと思います。
楽譜といってもですね、市販されている立派な楽譜とかだと面白みがないので、手書きで書いた本当に
雑なというか、一応丁寧に書いたつもりなんですけど、今サムネイルに載っているやつですね、キラキラ星っていう楽譜をちょっと書いてみたんですけれども、これをですね、AIに読み込ませてみて、
ちゃんと楽譜であること、そしてこの楽譜の内容をちゃんと理解できるのかどうかっていうのを試してみようと思います。
使うAIはですね、3種類ですね。まずクロード3、その次にジェミニ、その次にコーパイロットですね。
これらの代表的な画像認識ができる、無料プランで使えるAIにそれぞれちょっとね、楽譜を読み込ませてみたいと思います。
じゃあまずクロード3から行きましょう。ちょっと今リアルタイムでやっておりますので、僕自身も今結果は知らない状態です。
画像をまずファイルを読み込ませて、プロンプトとしてこの画像には何が書かれていますか。
このプロンプトを共通に、全部同じ条件でやってみましょう。この画像には何が書かれていますかという文字を打って、この画像を添付して送ります。
はい、今待ち時間ですね。
答えが返ってきましたね。この画像には音符が3行書かれています。
1行目にはムネッペシと書かれた見出しがあり、その下に一つの短い旋律が書かれています。
2行目と3行目にも旋律が書かれており、おそらく同じ曲の異なる部分が示されているものと思われます。
音符の種類や配置からこの曲は日本の伝統的な曲調を反映しているように見受けられます。
03:06
しかしながら具体的にどの曲なのかは特定できません。
ということですね。これが楽譜ということであることは認識したんだけど、この曲が何の曲なのかは認識できなかったということですね。
これキラキラ星なので絶対に有名な曲ですよね。なのでこれを認識できないということは、多分楽譜からその曲を読み取るということは
クロードスリーはもしかしたら難しいのかもしれないですね。
では次はですね、ジェミニですね。こちらのAIで同じことをやってみたいと思います。
同じように画像ファイルをアップロードしてプロンプトとして、この画像には何が書かれていますか。
全く同じ条件でやっております。読み込ませてみました。 今ジェミニが計算中です。
クロードスリーは結構すぐにレスポンスが返ってきたんですけど、ジェミニは若干レスポンスに時間がかかってますね。
あ、でもキラキラ星ということは理解しているみたいですね。
ジェミニの回答をちょっと読み上げますね。
項目が5個。過剰書きというか、ちゃんと見出し付きで項目が出てますね。
1つ目、画像の概要。2つ目、楽譜の内容。3つ目、楽譜の特徴。
4つ目、その他。5つ目、まとめということですね。
じゃあ、ちょっと読み上げますね。
はい、画像に書かれている内容を説明します。
1、画像の概要。画像には楽譜が書かれた1枚の楽譜が写っています。
楽譜は縦長で5線譜が10段あります。
1、2、3、4、5、6。
この画像自体には6段までしか入ってないんですけど、10段楽譜ってわかっているのかな。
1、2、3、4、5、6、7。
あ、でも8段だ。
えっと、寄付される音符はトーン記号で、音符の長さは全音符、2分音符、4分音符、8分音符、16分音符があります。
あ、16分音符とか8分音符は書いてないんですけどね。
はい、じゃあ次。
楽譜の内容。楽譜には同様、キラキラ星のメロディが寄付されています。
歌詞は以下の通りです。
キラキラ光るお空の星よ。まばたきしてはみんなを見てる。キラキラ光るお空の星よ。
あ、これすごいですね。
歌詞は書いてないんだけど、歌詞までちゃんと気を利かせて教えてくれましたね。
はい、次3番。
楽譜の特徴。
楽譜は初心者でも比較的簡単に演奏できるようにアレンジされています。
長号は八王朝でキーはCです。
あ、ちゃんと理解してますね。音楽的なこともちゃんとわかってますね。
テンポはゆっくりで4分の4拍子ですということですね。
06:00
はい、テンポ表示はどこにも記載してないんですけども、
まあちょっとその嘘情報追加されてますね。
4分の4拍子っていうのも確かにこの楽譜から読み取れる内容でございます。
はい、次4番。
その他。
画像の楽譜はインターネット上で公開されている楽譜を印刷したものと思われます。
これは間違ってますね。これはもう完全に僕が今手書きで書いたやつですね。
楽譜の作者や出版社などの情報は画像からは確認できません。
まあそりゃそうですね。はい。
5番、まとめ。
画像には同様、キラキラ星のメロディーが寄付されています。
楽譜は初心者でも比較的簡単に演奏できるようにアレンジされており、
インターネット上で公開される楽譜を印刷したものと思われます。
だから違うよ。これ僕が手書きで書いたやつだからね。
はい、次、補足。
画像の楽譜はピアノで演奏することを想定して書かれています。
画像の楽譜は1番のみが寄付されています。
2番以降演奏したい場合は自分で楽譜を書き足す必要があります。
はい。まあまあ、楽譜の意図はちゃんと読み取ってくれてますね。
この楽譜が何を表現しているのかということもちゃんと理解しているようですね。
ジェミニ。クロード3に比べて、クロード3は楽譜であるという認識ができたけど、
何の曲かということは全く認識できませんでした。
ジェミニはこれがキラキラ星あるということと、
あと音楽的なルールもちゃんとわかっているようでしたね。
じゃあ次、コーパイロットですね。マイクロソフトコーパイロット。
じゃあこちらに同じようにやってみたいと思います。
まず画像をアップロードして、プロンプトですね。
この画像には何が書かれていますか?
はい。条件を同じにするために全く同じ文言を打ち込みます。
はい。そして送信します。
はい。今画像認識中でございます。
若干時間がかかってますね。
クロード3、ジェミニの次にコーパイロットはちょっと反応がややちょっと…
えっとね、コーパイロットはですね、
ちょっと時間もかかった上に回答もですね、
この画像にはさようならと書かれています。
この日本語のテキストはグッバイという意味ですということで、
もう全然検討違いな答えを出してきましたね。
まずこれが楽譜であるということを認識していないようですね。
で、さようならと書かれていますということで、
このキラキラ星で多分書いているところを認識したと思うんですけれども、
この文字の認識すら間違っています。
09:00
やっぱりコーパイロットは全体的に画像認識が弱いですね。
他のマインドマップとか漫画を認識するやつでも、
確かコーパイロットが一番リアクションが悪かった記憶がありますね。
今回の楽譜を読み取るということに関しては、
ちゃんと分かってくれたのはジェミニだけでしたね。
コーパイロットはまず楽譜ということすら認識してませんでした。
クロード3は楽譜ということは分かったんだけど、
何の曲かは全く分かってくれてませんでした。
ジェミニは楽譜であるということが分かった上に、
これがキラキラ星を表現しているということもちゃんと理解しておりました。
ハチョウチョウであることであるとか、
4分の4拍子とかそういった音楽的な内容もちゃんと把握しているっぽいですね。
このジェミニに対してさらに、
例えばこの楽譜のミリデータを書き出すことはできますかと聞いてみましょうか。
この楽譜のミリデータを書き出すことはできますか。
ミリデータというのはテキストでミリデータを表現する言語ですね。
これができたら楽譜から音楽データが抽出できるのでかなり便利だと思いますね。
この楽譜のミリデータをMML形式で出力してくださいとやってみましょう。
これがジェミニに打ち込んでいます。
この楽譜のデータを…
はい、以下のMML形式のミリデータが出力されます。
あ、すごい。
C4L8、D4L8、E4L8、F4L8…
ちょっとMMLの見方がわからないけど…
四分音符で書いたところが八分音符と認識されているっぽいな。
ちゃんと全部八分音符にされているような感じがしますね。
この検証は後ほどですが、とりあえずそんな感じですね。
ミリデータにするところまでまだできなかったんですけれども、
楽譜を読み込ませた結果をまとめると…
アイパッドが落ちました。
楽譜を読み込ませた結果をまとめると、
クロード3、ジェミニ、コーパイロット、
ジェミニが一番まともに読み込めたという結果でした。
はい、ありがとうございます。
12:01

コメント

スクロール