00:01
お疲れ様です。AI研究家のなおくんです。ということで、今回のテーマはこちらです。
AIはマインドマップを認識できるのか試してみた。ということで、チャット型AIの実験をしてみようと思って、
AIがマインドマップを認識できるのかということで、ちょっと試してみました。サムネイルに載っている手書きの雑なマインドマップなんですけれども、
これをAIに認識させてみました。
チャット型AIというのは、ChatGPT以外にもGoogleのGeminiというものとか、あとMicrosoftのCopilotというものがあるんですけれども、
このGeminiとCopilotというのは、画像を読み込ませることができるんですね。自分が作った画像を読み込ませて、この画像についてどうのこうのという相談ができるわけですね。
その機能を使って、このGeminiとCopilotに、僕が書いた手書きのマインドマップを写真に撮ったものを読み込ませて、
これはこの画像にはどのようなことが書いてありますかというふうに質問してみました。
結論から言うと、一応認識はしてくれたんですけれども、ちょっと精度に差がありました。
どっちがいいかというと、Geminiの方が割と正確に読み取ってくれました。
ただですね、完璧には読み取ってくれていませんね。まずGeminiの方行きましょう。GoogleのGeminiですね。
まずですね、この写真を読み込ませて、プロンプトとしてこの画像にはどのようなことが書いてありますかというふうな質問を入力してエンターキーをしました。
そうしましたらですね、このような回答が返ってきました。
あなたが送ってくれた画像には日本語で次のようなことが書かれています。
タイトル、果物、内容、イチゴ、コロン、好き、メロン、コロン、好き、キウイ、コロン、嫌い、バナナ、コロン、嫌いということで、
えっとね、スイカが抜けてますね。スイカが抜けてるけど、でも一応こっちの書いた意図はちゃんと理解してますね。
タイトルが果物であるということ、要は別にこの図だけではタイトルっていうことは全く示してないんだけど、この図が何なのかっていうのを多分ね、認識してるっぽいですね。
で、イチゴ好き、メロン好き、キウイ嫌い、バナナ嫌い、ここまで完璧ですね。
ただスイカが無視されちゃってるのが謎ですけど。
で、その後に解説文が書いてあって、この図は子供が好きな果物と嫌いな果物を示しています。
03:04
イチゴとメロンは好きで、キウイとバナナは嫌いだそうです。ということで、子供とは一言も書いてないんですけども、勝手な情報が付け加えられてますね。
で、その後にちょっと細かいいろんなごちゃごちゃと書いてあるんですけれども、今言ったような内容をちょっとバーッと書いてますね。
はい、そんな感じですね。一応ね、画像の意図はマインドマップの構造はちゃんと理解してくれましたね。
ただちょっとスイカって書いてあるところは無視されてしまいました。
あとその子供が好きな果物、確かにそうかもしれないけど、全く書いてない情報を勝手に付け足されてしまったっていうところはちょっと不安だなと思いましたね。
はい、じゃあ次はですね、マイクロソフトコーパイロットの方を見てみましょう。
マイクロソフトコーパイロットにも全く同じプロンプトを打ち込みました。
画像を入力して、この画像には何が書いてありますかと質問してプロンプトを打ち込みました。
そうしたところ、どのような結果が返ってきたかというと、
この画像には日本語の文字が書かれています。具体的にはイヤーメロン、スイカ、イヤモ、オイ、キウイなどの言葉が含まれています。
ということで、文字をだいぶ誤認識している様子ですね。
画像の詳細と書いてありまして、この画像は白い背景に手書きの日本語のテキストがあります。
テキストは青いマーカーやペンで書かれているようです。
いくつかの単語やフレーズがあり、一部は吹き出しや括弧で囲まれています。
イヤーメロン、スイカなどの単語が見えます。
などと書いてありまして、
なんかね、マインドマップであることを認識してないっぽいんですが、
ただね、一応その、あの
関連する検索結果っていう項目があって、そこにマインドマップの正しい書き方を勉強してみたいっていう
なんかね、項目があって、まあなんかマインドマップっぽいなっていうことは認識しているような感じがしますね。
そうですね、まあただちょっと、まあどっちかというとジェミニの方が正確に読み取ってるかもしれないですね。
じゃあちょっと別の命令文を打ってみましょう。
この画像のマインドマップをプラントUML形式で書き出してください。
この画像のマインドマップをプラントUML形式で書き出してくださいと、ジェミニにちょっと入力してみましょうか。
06:03
なるほどね、えっと、やっぱりスイカの文字が無視されてますね。
だけどまあほぼほぼ、この図の通りに出力してくれましたね。
プラントUMLっていうのは、まあマインドマップをコードで表した言語ですね。
プラントUMLで、セントラルイメージに果物っていう文字が入ってて、
で、その後に次の階層に好き嫌いというのがあって、好きの階層にイチゴとメロンが入ってますね。
やっぱりスイカは認識してくれませんね。
で、イチゴの後に甘酸っぱい、メロンの後にジューシーという風に、ちょっと勝手に文言が付け加わられてますね。
で、嫌いの欄にキウイバナナと書いてあって、キウイの後に酸味が強い、バナナの後に食感が苦手という風な文言が追加されてます。
で、注意って書いてあって、このプラントUMLコードは画像のマインドマップを正確に反映しているわけではありません。
ちゃんとわかってるんですね、ジェミニもね。
画像ではサブトピックの色や線の太さが異なっていますが、プラントUMLコードでは表現できません。
ということで、一応その手書きのマインドマップを、いわゆるプラントUML形式に認識させるっていうのはジェミニの方ではできるっぽいですね。
ちょっとマイクロソフトコーパイロットはそもそもだいぶご認識しているので、このプラントUML形式にするのは難しいんですけれども。
だから手書きでザーッと書いたマインドマップを機械的なマインドマップに清書するのは一瞬でできるかもしれないですね。
ちょっと手書きなんでね、ちゃんと読めない場合があるというリスクはあるんですけども。
でもまあこれはさ、結構便利かもしれないですね。
手書きでザーッと書いたものをデジタルの形式に整えるということができますね。
プラントUML形式のマインドマップっていうのは過去の収録で説明しているので、そちら聞いていただければと思います。
はい、ということで今回はですね、
AIにマインドマップを読み込ませてみたということで、
やっぱりGeminiの方が賢いですね、この画像認識に関しては。
ということで、ちょっとした実験をね、やってみました。
はい、聞いてくれてありがとうございます。