1. Curiosity Notes Replay
  2. 意味を理解しないAIの正体|LL..
意味を理解しないAIの正体|LLMとマルチモーダルAIの可能性と限界を整理する
2026-05-17 22:59

意味を理解しないAIの正体|LLMとマルチモーダルAIの可能性と限界を整理する

今回は、大規模言語モデル(LLM)やマルチモーダルAIを中心に、人工知能がどのような仕組みで動いているのか、その利点と社会的課題を整理した音声解説です。
個人で作品を見返すにあたって、AIが自然な文章を作れる理由や、画像・音声を統合して扱う技術がどのように広がっているのか、そしてその裏側にどのような問題があるのかを振り返りやすいよう、情報をまとめた内容になっています。

本音声では、LLMが膨大なデータをもとに自然な文章を生成する技術である一方で、必ずしも“意味を理解している”わけではなく、ハルシネーションのようにもっともらしい誤情報を出してしまう可能性がある点に注目しています。
便利さや精度の高さが注目される一方で、AIの出力をそのまま信用できない理由や、なぜ人間側の確認が欠かせないのかを見返しやすい形で整理しています。

また、マルチモーダルAIについても、文章だけでなく画像や音声など複数の情報を統合して処理できることから、自動運転や医療診断をはじめとした幅広い分野で応用が進んでいる点を扱っています。
さらに、AIを効果的に動かすためのプロンプトエンジニアリングという考え方にも触れながら、技術を使いこなす側にどのような工夫が求められるのかを振り返りやすく整理しています。

その一方で、著作権、倫理的リスク、環境負荷、雇用への影響といった深刻な懸念についても目を向けています。
AIは急速に進化している技術ですが、性能を高めることだけではなく、社会の中でどう扱うのか、どのようなルールや法整備が必要なのかを同時に考えなければならないことを見直すための、個人用の整理メモとしても使える内容です。

なお、音声内のアナウンスには少しおかしなところがあるかもしれませんが、内容整理用の記録としてご容赦ください。

notebookLMで音声解説を作成しました。
作成日:2026/05/09作成

感想

まだ感想はありません。最初の1件を書きましょう!

00:00
みなさん、ちょっと想像してみてほしいんですけど、将棋とかチェスの世界チャンピオンとAIが対局しているとしますよね。
よくあるシチュエーションですね。
そこで突然、AIが人間のプロの目から見れば、完全な悪手、つまり素人でも打たないような無意味に思える一手を打ったとします。
はいはい。
観客も解説者も、「えっ、なんでそんなことするの?」って首を肩げるわけですよ。でも、そこから30手先に、そのありえない一手が一転して決定打になって、AIが勝利を収めちゃうんです。
あー、有名な話ですね、それ。人間の直感とか、長年培ってきた常識からは完全に外れているのに、結果的にそれが正解だったっていう現象ですよね。
そう、まさにそこなんです。で、リスナーの皆さんに考えてみてほしいんですが、もしこれが板上のゲームじゃなくて、現実の医療現場だったらどうでしょう?
医療現場ですか?
AIが人間の意志には致命的なミスにしか見えない手術法を提案してきて、でもそのAIの成功率は過去のデータ上100%だとしたら、皆さん、そのAIに自分の命を預けることができますか?
うーん、それは究極の選択ですね。
ですよね。今日は、そんな深いだけだ正しいかもしれない答えを叩き出すAIのブラックボックスをこじ開けて、徹底的に深掘りしていきましょう。
はい、よろしくお願いします。私たちが毎日スマートフォンで当たり前のように使っているAIですけど、その裏側で何が起きているのかを、ちゃんと論理的に説明できる人って実はそんなに多くないんですよね。
確かに、なんか魔法の箱にしたいと思っている人も多いんじゃないかと思います。
ええ、なので今回は、理工とか日立ソリューションズクリエイトが出している企業向けの導入ガイド、あとは産総研の最新レポートとか、MITテックレビューのトレンド予測など、本当に多岐にわたる資料を統合して解説していきます。
はい、医療や金融の最新ニュースからプロンプトエンジニアリングのガイドまで、かなり分厚い資料が揃ってますよね。
そうですね、これらの資料を基にAIの根本的な仕組みを解剖していきたいなと。
今日のミッションはですね、専門用語とかバズワードの並には絶対に飲まれないことです。
そもそもAIとは何なのかっていうのを、小学生でも分かるレベルまで噛み砕いていきますよ。
はい、分かりやすさ重視でいきましょう。
なぜAIは最もらしい嘘をつくのか、そして明日からの仕事や学校生活でどうやってこの常識ハズレの天才を乗りこなせばいいのか、順を追って紐解いていきます。
ぜひ。
まず根本的な疑問からスタートしたいんですが、資料を見てびっくりしたのが、そもそもAIには明確な定義が存在しないって書いてあったんですよ。
そうなんですよ。実は研究者の間でも意見が分かれていまして。
え、そうなんですか。
はい。大まかに言えば、人間の脳が行っている思考とか学習を人工的にシステム化したものの総称くらいに捉えてもらうのがいいかなと。
なるほど、総称なんですね。
ここで絶対に抑えておくべきなのは、現在実用化されているAIはすべて特定の作業のみをこなす特化型AI、つまり弱いAIだという事実なんです。
03:02
特化型ってことは、アニメに出てくるドラえもんみたいな自分で目的を持って何でもできる汎用型AIとは違うってことですね。
全く違います。文章を書くとか画像を認識するとか、そういう与えられた役割だけのスペシャリストの集まりと考えてください。
なるほど、なるほど。じゃあそのスペシャリストたちの心臓部はどうなっているんですか?
その心臓部として機能しているのが機械学習とそれをさらに発展させたディープラーニングという記述なんです。
よく聞く言葉ですね。
ええ、これらはマトリョーシカみたいな構造になっていて、一番外側の大きな箱がAI、その中に入っているのが機械学習、さらにその中心のコアにあるのがディープラーニングという感じです。
すごくイメージしやすいです。で、その真ん中の機械学習のアプローチについて、日立の資料に面白い分類があったんですよね。
はい、大きく分けて3つありましたね。
ええ、正解のラベルを大量に与える教師あり学習と、データだけを渡してAIにグループ分けさせる教師なし学習。
はい。
それから結果に対して報酬や罰を与えて試行錯誤させる強化学習。
これ、なんか人間の子供の教育にすごく似ていませんか?
ああと言いますと。
教師あり学習って、親が子供にこれは赤い箱に、あれは青い箱に入れなさいって手取り足取りルールを教えるようなものじゃないですか。
ええ、まさにその通りですね。
でもマトリョーシカのさらに中心にあるディープラーニング、つまり真相学習は少し次元が違いますよね。
はい、そこが革命的だったんです。
親が何も言わなくても、子供が勝手に色だけじゃなくて形や重さにも法則があるぞって自分で目の付けどころを見つけてしまうような状態ですよね。
いや非常にわかりやすい例えだと思います。
ただそこには決定的な違いが一つありまして。
違いですか?
ええ、人間の子供は形とか重さっていう概念を生活の中で自然に理解しますよね。
でもコンピューターは長年それができなかったんですよ。
ああなるほど。
従来の機械学習だと人間がいちいち猫を見分けるなら耳の尖り具合とかヒゲの有無に注目しろって特徴をプログラミングしてあげる必要があったんですよ。
これを特徴量抽出と呼びます。
つまり人間がここを見ろってわざわざ指示を出していたわけですね。
そうなんです。
でもディープラーニングは人間の神経細胞、いわゆるニューロンのネットワークを模倣することで、大量のデータの中からAI自らがどこに注目すべきかっていうパターンを自動的に見つけ出すことに成功したんです。
へえ、人間が教えなくても?
はい。しかも人間には到底言語化できないようなものすごく複雑なパターンまで抽出できるようになったんですよ。
ああ、だからこそ人間の意志では見落としてしまうような医療画像のほんの微細な変化からがん細胞を発見できたりするわけですね。
ええ、まさにそういうことです。人間自身が把握しくれない特徴をAIが見抜いているわけです。
なるほどな。で、AIがそうやって自ら特徴をつかめるようになった結果、今のパラダイムシフトが起きたわけですよね。
06:05
はい。現在最も世界を騒がせている言葉を扱うAIの爆発的な進化につながりました。いわゆるLLM、大規模言語モデルと生成AIです。
これニュースで毎日聞きますけど、同じものとして語られがちじゃないですか?でも資料では明確に区別されていましたよね。小学生にもわかるように説明するとどうなりますか?
そうですね。LLMっていうのはインターネット上の膨大なテキストデータを読み込んで、言語のルールとか単語のつながり方を習得した巨大なエンジンだと思ってください。
エンジン、はい。
一方で、生成AIっていうのは、そのエンジンを積んで実際に文章や画像を生み出して走る車のことです。
なるほど。じゃあみんなが使っているChatGPTは?
あれはLLMという巨大なエンジンを積んだ対話に特化したアプリケーション、つまり一つの車種みたいなものですね。
エンジンと車、めちゃくちゃわかりやすいです。でもここからが今日一番聞きたかったところなんですけど。
はい、何でしょう?
そのLLMというエンジンはどうやってあの自然な文章を作り出しているんですか?裏で人間がキーボードを叩いてるんじゃないかってくらい滑らかですよね。
ふふ、確かにそう見えますよね。えっとLLMの根幹にはトランスフォーマーという画期的な構造があるんです。
トランスフォーマー?
ええ、少しだけ仕組みに踏み込みますね。トランスフォーマーは入力された文章をトークンと呼ばれる単語の断片に分解するんです。
単語の断片、バラバラにするんですね?
はい、そしてそれぞれの位置関係や意味をすべて数値化して、計算によって次に来る最も確率の高い単語を出力しているんです。
ちょっと待ってください、数値化して計算、なんかそれだけだとあんなに文脈に沿った流れ文章が書ける理由がわからないというか。
はいはい。
ただ確率が高い単語をつなげているだけなら途中で話が尻滅裂になりませんか?
鋭いですね。そこで鍵になるのが、トランスフォーマーのアテンション、つまり注意意向という仕組みなんです。
アテンション、注意ですか?
ええ。例えば、すごく騒がしいパーティー会場を想像してください。あちこちで会話が飛び交っていますよね?
はい、ガヤガヤしてます。
でも皆さんは、自分の目の前で話している人の声だけを拾って、周囲の雑音を無視できますよね?
ああ、いわゆるカクテルパーティー効果ですね。相手の口の動きとか声のトーンに集中していれば、周りの音は気になりません。
その通りです。トランスフォーマーのアテンションは、まさにそれと同じことをテキストデータで行っているんですよ。
テキストデータで?どういうことですか?
入力された文章の中で、どの単語とどの単語の結びつきが重要かということに注意を向けるんです。
なるほど。
09:00
例えば、「彼は土手で銀行の口座を開いた。」という文章があったとしますよね。
AIは、銀行、つまりバンクという言葉が、土手という別の意味のバンクではなく、口座と強く結びついていることに数学的な注意を向けるんです。
ああ、なるほど。文章全体を見渡してね、重要なキーワード同士の関連性を数値として把握しているから、文脈を失わずに自然な文章が生成できるんですね。
そういうことです。過去の膨大なデータから構築された単語の宇宙の中で、文脈に最も適したルートを確率的に計算して、次の単語、また次の単語とパズルを埋めているようなイメージです。
えっと、ちょっと待ってください。それってつまり、AIは私が入力した仕事の悩みとか質問の本当の意味を人間みたいに心から理解して答えているわけではないということですか?
ええ、そうです。
ただ、数学的にこの文脈なら次はこの言葉が来るのが一番自然だって予測しているだけ。
まさにその通りです。AIは言葉の意味を理解しているわけではありません。あくまで統計的な正解を出力しているだけなんですよ。
いやー、なんかちょっとショックというか、理解してると思ってました。
そう、錯覚するほど精度が高いんですけどね。でも、だからこそ生じる致命的な弱点があるんです。それがハルシネーション、いわゆる最もらしい嘘です。
ああ、AIがものすごく自信満々にデタラメを言う現象ですね。なんか歴史上の人物について聞いたら、全く存在しないエピソードをスラスラ語り出したりとか。
ええ、AIは学習データに含まれる情報の正語を算段できないんですよ。単語を確率論でつなげ合わせているだけですから。
はいはい。
だから複雑な論理的推論を求められたり、学習データにないことを聞かれたりすると、最もらしい単語をつなげて論理が完全に破綻した回答を自信満々に作ってしまうんです。
なるほど。確率で言葉をつないでいるだけだから、たまに脱線して放送してしまうわけですね。
そうなんです。だからこそ、仕事で使う際は最終的な事実確認を行う人間の目が絶対に不可欠になるんです。リスナーの皆さんもここは本当に気をつけてくださいね。
でもそれって、やっぱり言葉だけを処理しているから限界があるんじゃないですか?
と言いますと?
私たち人間って、言葉だけで世界を理解しているわけじゃないですよね。視覚とか聴覚とか、いろんな情報を組み合わせて文脈を理解していますし。
ああ、鋭い指摘ですね。まさにその限界を突破しようとしているのが、最新のマルチモーダルAIなんです。
マルチモーダル?
ええ。テキストという一つのデータ形式を超えて、画像、音声、動画など、異なる種類の情報を一緒に学習して総合的に処理する技術です。AIがついに語感を手に入れ始めたと言ってもいいですね。
語感を。資料にあった産総研のレポートにも載ってましたね。狂気関係の学習っていう言葉が出てきましたけど。
はい。例えば、楽器を持っている人の映像と、そこから鳴る演奏の音を同時にAIに大量に学習させるんです。
12:07
映像と音をセットでですね。
すると、人間がいちいちこの楽器からはこの音が出るんだよと教えなくても、AIが自ら視覚データと聴覚データの間に共通する関係性を見つけ出すんですよ。
それって私たちが文字だけのLINEのやり取りよりも、電話での声のトーンとか、直接会った時の表情を見た方が相手の本当の意図がよくわかるのと同じですね。
ええ。まさにその感覚です。複数の情報が組み合わさることで、単なる確率の推論から、より正確な状況判断に近づくわけです。
これ、実社会では具体的にどう生きてくるんですか?
例えば、防犯カメラを考えてみてください。映像だけだと、向かい合っている2人が楽しく会話して肩を叩き合っているのか、それとも激しく拘論してつかみかかろうとしているのか、判別が難しいことがありますよね。
確かに、動きだけだと喧嘩なのか、じゃれあいなのかわからない時ありますね。
でも、そこに音声のトーンや大きさを組み合わせることで、危険な状況をより正確に察知できるようになるんです。
なるほど。自動運転の事例もすごくわかりやすかったです。
カメラとレーダーの組み合わせですね。
カメラは物体の形を見分けるのは得意だけど、逆光や悪天候に弱い。一方でレーダーは形を見分けるのは劣るけど、光や天候には左右されない。
はい。その2つの整るセンサーを組み合わせることで、安全性が劇的に高まるんです。
日本科学未来館での3層圏の実証実験もすごく面白かったですよね。
ああ、あの案内ロボットですね。
360度カメラと複数のマイクを搭載して、周囲の雑音の中でどこで誰が話しているかっていうのを環境から自己学習して動くことに成功したという。
そうなんです。マルチモーダル化によってAIは単なるテキスト処理ツールから人間世界を立体的、多面的に解釈して高度な提案や行動ができる存在へと進化しているんですよ。
目も耳も持った超高機能な確率計算エンジンですか?
こうなると、もはやただのツールというより、めちゃくちゃ優秀なアシスタントですね。
ええ、本当にそうだと思います。
いや、リスナーの皆さんがこの優秀なアシスタントを実際のビジネスや学校生活で上手に使いこなしたいと思ったらどうすればいいんでしょうか?
ただお願いするだけじゃ、また確率の計算で脱線して嘘をつかれそうですし。
そこで非常に重要になってくるのが、プロンプトエンジニアリング、つまりAIへの効果的な指示の出し方なんです。
指示の出し方?
はい。AIの推論の仕組みを理解した上で指示を出さなければ望む結果は得られません。
資料の中で特に効果的なと紹介されていたのが、チェイン・オブ・ソート、つまり思考の連鎖とRAGという手法です。
少し詳しく教えてください。
例えば、そのチェイン・オブ・ソートって、AIに段階的に考えてくださいって一言添えるテクニックですよね?
15:06
ええ、そうです。
でもさっき、AIは意味を理解せず、確率で次の単語を予測しているだけって言いましたよね?
だとしたら、なぜ段階的に考えろって指示するだけで、いきなり計算が正確になったりするんですか?
それはですね、AIの性質そのものに関わっているんです。
LLMって、人間の頭の中みたいに黙って思考を巡らせることができないんですよ。
黙って考えられない?
はい、文字を出力することでしか計算を進められないんです。
なので、いきなり複雑な数学の答えを出させようとすると、一発で正解のトークンを引き当てる確率計算がすごく難しくなります。
なるほど、途中のプロセスを飛ばして、いきなりゴールに飛びつこうとするから失敗するんですね?
そうなんです。でも、段階的に出力してって指示すると、AIはまず途中式のトークンを生成します。
はいはい。
すると、その生成された途中式自体が新しい文脈、つまり計算の足場となって、次のステップの確率計算の精度が格段に上がるんです。
自分で書いたメモを見ながら次の計算をするようなイメージですね。
ああ、それは面白い。LLMの確率の仕組みをちゃんと理解しているからこそのテクニックですね。
じゃあ、もう一つのRAGというのは何ですか?
RAGはですね、AIに答えを生成させる前に、外部の信頼できるデータベースとか社内資料をまず検索して読み込ませる手法です。
先に資料を渡すんですね?
ええ、AIの弱点であるハルシネーションを防ぐために、あなたの記憶ではなく、今渡したこのマニュアルのテキストだけを基にして確率計算を行いなさいと縛りをかけるわけです。
ああ、それを使えば社内の機密情報とか最新データに基づいた正確なアシスタントが作れるわけですね?
その通りです。
実際にこのプロンプト設計を活用して劇的な成果を上げている企業の例ってありますか?
セブンイレブンの事例が非常に象徴的ですね。
彼らは生成AIに自社の販売データとSNSのトレンドデータなどを外部知識として読み込ませました。
ほうほう。
その上で、新商品のコンセプトとか説明文、パッケージ画像を自動生成させるシステムを構築したんです。
単に新しいおにぎりのアイデアを出してって漠然と聞くのではなく、具体的なデータという足場を与えて計算させたわけですね?
効果はどうだったんですか?
なんと、商品企画にかかる時間を90%も削減することに成功したそうです。
90%ですか?
ゼロから人間がアイディアを練って会議をするのではなく、AIがデータに基づいて高確率でヒットしそうな叩き台を一瞬で作ってくれる。
人間はそれを判断してブラッシュアップするだけで済むようになったんです。
90%削減って本当に劇的ですね。他にもありますか?
星野リゾートの例も素晴らしいですよ。
宿泊予約のメール対応にAIを導入して、5000を超えるテンプレートから自動生成させることで、新人でも即座に完璧な対応が可能になりました。
18:06
はー、あとは医療現場とか金融業界でも進んでるんですよね?
はい。福岡カハシ病院では、AI問診で待ち時間を大幅に短縮していますし、専門医より3年早くCT画像からガンを発見するAIも誕生しています。
すごいですね。
金融業界でも三井住友銀行や野村証券などが、クレジットカードのリアルタイム不正検知とか数百万件のデータからマネーロンダリングの疑いを瞬時に抽出するのに活用しています。
いやー、これってつまりどういうことなんでしょうね。なんか、プログラミングのスキルというよりも完全にマネジメントの領域に入ってきてる気がします。
マネジメントですか?
はい。つまり、プロンプトエンジニアリングって、めちゃくちゃ優秀で世界中の知識を持っているけれども、常識が全くなくてたまにたぶたわしいことを自信満々に言ってくる部下に対して、
はい。
いかに的確な指示を出し、仕事の枠組みを設定してあげるか、という人間のマネジメント能力そのものが問われているんじゃないかと思ったんです。
いや、それはまさに敵を追いた表現ですね。ただ、少し補足させてください。
はい。
その部下は、人間の言葉の意味を全く理解していないということを忘れてはいけません。
人間相手なら、ここもうちょっと良い感じにしといて、で、通じる曖昧な指示もAI相手だと通じません。
良い感じにだとダメなんですね。
はい。統計的に最もよくある無難な言葉の羅列に書き換われて終わってしまいます。
AIの思考のプロセス、つまり確率計算のルートを人間側が意図的に設計してあげる必要があるんです。
人間相手のマネジメントよりも、もっと論理的で解像度の高い指示出しが求められるんですね。
なんだかAIを使うことで、逆に人間側の思考力とか言語化能力が試されている気がします。
その視点は、内閣府が策定したAI基本計画の革新をついていますよ。
あ、政府の資料ですね。
A、政府の資料では、AI社会に向けた継続的変革というセクションで、
人間がAIに代替されるのではなく、人とAIの役割分担を模索することが重要だとせつかれています。
その通りです。膨大なデータの処理、パターンの抽出、確率に基づいた最適な予測、こうしたことはAIに任せるべきです。
はい。
一方で、人間はAIが提示したデータから、そもそも次に何を問うべきかという課題設定を行ったり、倫理的な判断を下したり、他者と共感してプロジェクトを動かす、
そうしたAIと共同するための人間力を育むことこそが、これからのビジネスや学校生活で最も重要になるんです。
いやー、今回の深掘り、私の中でバラバラだったパズルがきれいにつながりました。
よかったです。
AIは決して自我を持った魔法の箱ではなく、言葉を数値化して確率的に推論するトランスフォーマーという仕組みであること、
21:06
そしてマルチモーダル化によって視覚や聴覚を手に入れ、より高度な状況判断ができるようになったこと。
ええ、その通りです。
だからこそ私たちがその特性をしっかり理解して、適切なプロンプトという手綱を握ることができれば、これほど強力なパートナーはいないということですね。
はい。AIの仕組みと限界、そしてなぜ間違えるのかを正しく理解し、恐れずに使いこなす側に回ることが、これからの社会を生き抜くためのパスポートになります。
本当にそうですね。さて、最後にリスナーの皆さんに一つ考えてみてほしいことがあります。
冒頭でお話しした、将棋AIの不可解な、しかし正しい一点のお話を覚えていますか。
人間のプロ棋士の常識からは完全に外れているのに、結果的に勝利を導くてですね。
ええ。将棋の盤面というルールが明確なゲームの世界なら、私たちはその不可解な勝利を打て入れて、AIから新しい定常規を学ぶことができます。
はい。
しかし今後、AIがさらに進化して、マルチモーダルで世界中のあらゆるデータを読み込んだ結果、例えば地球規模の環境問題とか、国の深刻な経済危機に対して解決策を提示してきたとします。
究極の問いですね、それは。
もし、そのAIが弾き出した100%問題を解決できる最適な答えが、私たちの直感や人間の倫理観、これまで大切にしてきた常識と真っ向から対立するものだったとしたら、
うーん。
リスナーの皆さんは、その確率計算エンジンが示す不可解な一手を自分たちの社会に適応する決断を下せるでしょうか。
AIの仕組みを理解したからこそ直面する、人間とAIの本当の共存の試練は、実はそこから始まるのかもしれませんね。
本日の徹底解説はここまでです。
22:59

コメント

スクロール