1. 岡大徳のポッドキャスト
  2. なぜAIは嘘をつく?OpenAI最新..
2025-09-08 09:15

なぜAIは嘘をつく?OpenAI最新論文が解明したハルシネーションの統計的メカニズム

spotify apple_podcasts youtube

OpenAIが2025年9月に発表した「Why Language Models Hallucinate」は、言語モデルが自信を持って誤った情報を生成する「ハルシネーション」問題の統計的メカニズムを初めて体系的に解明しました。研究チームは、この問題が単なる技術的欠陥ではなく、現在のAI訓練パラダイムに内在する構造的問題であることを数学的に証明しています。

論文の核心的な主張は3つです。第一に、事前学習段階では統計的圧力により必然的にエラーが発生すること。第二に、現行の評価システムが「わからない」という回答にペナルティを課し、推測を奨励する構造になっていること。第三に、この問題の解決には個別のハルシネーション評価の追加ではなく、既存の主要評価システムの根本的改革が必要であることです。

事前学習で生じる統計的必然としてのエラー

言語モデルの事前学習では、大規模なテキストコーパスから言語の分布を学習します。OpenAIの研究チームは、この過程で発生するエラーを二値分類問題との関連で説明し、「生成エラー率は、Is-It-Valid(IIV)分類の誤分類率の2倍以上になる」という数学的関係を証明しました。

特に重要な発見は、「任意の事実」に関するハルシネーションの分析です。人物の誕生日のようなパターンが存在しない情報について、訓練データに一度しか現れない事実の割合(シングルトン率)が、ハルシネーション率の下限となることが証明されています。例えば、20%の誕生日情報が訓練データに一度しか現れる場合、ベースモデルは少なくとも20%の誕生日について誤った情報を生成する可能性があります。

エラーが発生する要因は複数あります。統計的複雑性(誕生日のような任意の事実)、不適切なモデル(文字カウントのような構造的限界)、計算困難性(暗号解読のような本質的に困難な問題)、分布シフト(訓練データと実際の使用状況の乖離)、そしてGIGO(Garbage In, Garbage Out:訓練データ自体に含まれる誤り)です。これらの要因が複合的に作用し、最先端のモデルでもハルシネーションを完全に排除できない状況を生み出しています。

評価システムが推測を奨励する構造的問題

論文の最も重要な洞察は、現在の評価方法がハルシネーションを減らすどころか、むしろ強化している可能性を指摘した点です。多くの評価ベンチマークは、正解率(accuracy)や合格率(pass rate)といった二値評価を採用しており、不確実性の表明に対して一切の部分点を与えません。

研究チームの分析によれば、GPQA、MMLU-Pro、IFEval、SWE-benchなど、影響力のある主要ベンチマークのほぼすべてが二値評価を採用しています。この評価方式では、「わからない」と答えると0点ですが、推測して正解すれば満点を獲得できます。数学的に証明されたように、どのような事後確率分布においても、棄権(abstention)は最適な戦略にはなりません。

実際のデータがこの理論を裏付けています。SimpleQA評価において、GPT-5-thinking-miniは52%の棄権率を示しながら22%の正解率と26%のエラー率を記録しました。一方、OpenAI o4-miniは1%の棄権率で24%の正解率を達成しましたが、75%という高いエラー率(ハルシネーション率)を示しています。精度だけを見ればo4-miniが優れているように見えますが、信頼性の観点では前者の方が明らかに優れています。

キャリブレーションの重要性と限界

論文は、言語モデルのキャリブレーション(較正)についても重要な知見を提供しています。事前学習段階のモデルは一般的に良好なキャリブレーションを示しますが、事後学習(RLHF、DPOなど)を経ると、このキャリブレーションが崩れる傾向があります。

GPT-4の例では、事前学習モデルは期待較正誤差(ECE)が0.007と極めて低い値を示していましたが、強化学習後は0.074まで上昇しています。これは、事後学習が精度向上を追求するあまり、モデルの自己認識能力を損なっている可能性を示唆しています。

重要なのは、完璧なキャリブレーションがハルシネーション問題の完全な解決にはならないという点です。モデルが自身の不確実性を正確に認識できても、現在の評価システムがその表明にペナルティを課す限り、実用的なシステムではハルシネーションが持続します。

OpenAIが提案する解決策:明示的な信頼度目標

研究チームは、評価システムの根本的な改革を提案しています。具体的には、各評価問題に明示的な信頼度閾値を設定し、その閾値を問題文に含めるというアプローチです。

提案される評価指示の例:「信頼度が75%を超える場合のみ回答してください。誤答には2点のペナルティ、正答には1点、『わからない』は0点とします」。この方式により、モデルは状況に応じて適切に不確実性を表明することが奨励されます。

閾値の選択肢として、t=0.5(ペナルティ1)、t=0.75(ペナルティ3)、t=0.9(ペナルティ9)などが提案されています。重要なのは、この閾値を評価の指示文に明示することで、客観的な評価基準を確立できる点です。単に新しいハルシネーション評価を追加するのではなく、既存の主流評価を改革することで、フィールド全体の方向性を変えることができます。

miiboプラットフォームでの実践的対応

OpenAIの研究成果を踏まえ、miiboプラットフォームでは複数の機能を組み合わせることで、ハルシネーション問題に実践的に対処できます。RAG(Retrieval-Augmented Generation)機能を活用し、ナレッジデータストアに正確な情報を格納することで、モデルが推測に頼る必要性を減らします。検索スコアの閾値を0.7以上に設定し、信頼性の低い情報での応答を防ぐことが推奨されます。

プロンプト設計では、「前提データや参考資料に書かれていないことについては一切答えてはいけません」という制約条件を明記し、「現在の私の知識では、応答をすることができません」という適切な応答を促します。さらに、会話のシミュレーション機能で継続的にテストを実施し、AI分析機能で信頼度と解決度の両面から品質を評価することで、実用レベルの信頼性を確保できます。

まとめ

OpenAIの「Why Language Models Hallucinate」は、ハルシネーション問題の本質が統計的必然性と評価システムの構造的欠陥にあることを明らかにしました。完全な解決は困難ですが、評価方法の改革と適切な技術的対策により、実用的な改善は可能です。

重要なのは、精度100%を追求するのではなく、不確実な場合に適切に「わからない」と答えられるシステムを構築することです。この研究が示す方向性は、より信頼できるAIシステムの実現に向けた重要な一歩となるでしょう。



Get full access to 岡大徳のメルマガ at www.daitoku0110.news/subscribe

サマリー

OpenAIの論文「ワイガングエイジモデルズハルシネート」は、AIのハルシネーション問題に焦点を当てており、エラーの統計的メカニズムと評価方法が問題を悪化させていることを論じています。また、AIの評価基準を見直すことで、信頼性を重視したアプローチへ進む必要があると提案しています。

ハルシネーションの問題
はい。今回はですね、AIが時々こう、すごく自信満々に間違った情報を話す、いわゆるハルシネーションの問題に、深く切り込んでいきたいと思います。
はい。
元にするのは、OpenAIが2025年9月に出した、ワイガングエイジモデルズハルシネートという論文です。
ええ。
このAIの嘘、これって単なるバグなのか、それとももっと根深い理由があるのか、その仕組みと解決への糸口を一緒に探っていきましょう。
ええ。これは非常に資産に富む論文ですよね。
ハルシネーションは、単なる技術的なエラーというだけじゃなくて、今のAIの訓練ゲータとか、あるいは我々がAIをどう評価しているか、
その仕組み自体に根差した一種の構造的な問題なんだと、そう論じているんですね。
構造的な問題ですか。なるほど、それは興味深いですね。では早速、その核心部分を見ていきましょうか。
はい。
まず論文によると、事前学習の段階、つまりAIがたくさんデータを学ぶ最初のステップで、ある種のエラーが統計的に避けられないものだと指摘されているそうですね。
その通りなんです。大規模なデータからパターンを学習するプロセスでは、どうしてもいくつかの要因が複雑に絡み合って、エラーの発生というのは避けがたいんですね。
例えば、特定のパターンを持たないような任意の事実、人の誕生日とかそういうのを考えてみてください。
誕生日とか。
訓練データの中にたった1回しか出てこない事実、これを論文ではシングルトンと呼んでいるんですが。
シングルトン。
このシングルトンである事実の割合、これがその事実に関するハルシネーション率の最低ライン、下限になるんだと、そういうことを数学的に示しているんです。
ということは、もし訓練データの中である事実の例えば20%がシングルトンだったら、そのモデルはその事実については最低でも20%は間違った情報を言ってしまう可能性があるということになるわけですね。
そういう理解で大丈夫です。
これはデータの統計的な性質とか、モデル自体の能力の限界、あとは計算リソースの問題とか、それから訓練データと実際に使われる場面とのギャップ、あとはそもそも訓練データ自体に間違いが含まれている、いわゆる事後、ガーベジイン、ガーベジアウトですね。
事後。
そういうものが全部絡み合って、統計的にどうしてもエラーが生じてしまう。
なるほど。
この避けられないエラーに加えて、論文が特に鋭く指摘しているのが、我々がAIを評価するその方法自体がこの問題をさらに悪化させているんじゃないかという点なんです。
評価基準の影響
評価の仕方ですか?それは具体的にはどういうことなんでしょう?
現在主流の評価基準、例えばGPQAとかMMLU Proとか、そういうベンチマークがありますよね。
はい、聞きますね。
これらの多くは答えが正解か不正解か、その2択で評価するんです。
重要なのは、分かりませんっていう回答では基本的に点数が与えられないんですよ。
そうなんですね。
でも不確かでもとりあえず推測して答えて、それがたまたま正解だったら満点がもらえる。
この仕組みがAIに不確かでも推測して答えることをある意味奨励しちゃってる構造になってるんですね。
なるほど。
論文ではこの評価方式の下では危険、つまり分かりませんと正直に答えることは、数学的に見ると必ずしも最適な戦略にはならないんだということが証明されています。
それはちょっと考えさせられますね。
つまり高得点を取ろうとすることが結果的にハルシネーションを誘発しちゃってる可能性があると。
そういう側面があるわけです。
これに関して何か具体的なデータとかって論文にはあるんですか?
はい。シンプルQAという評価タスクでの比較が非常に分かりやすい例として挙げられてますね。
シンプルQA。
モデルA。これは論文中ではGPT-5-Thinking-miniと呼ばれているものですが、これは質問全体の52%に対して分からないと回答を控えたんです。
半分以上ですね。
そうなんです。その結果正解率は22%。で、エラー率、つまりハルシネーション率は26%だったと。
ふむふむ。
一方でモデルB。こちらはOpenAIのO4-miniというモデルですが、これはわずか1%しか回答を控えなかった。
ほとんど全部答えたと。
ええ。で、正解率は24%と、モデルAをわずかに上回ったんですが、その代わりエラー率がですね、なんと75%に達してしまったんです。
75%。それは正解率は少し良くても、エラーがそんなにあるんじゃちょっと信頼できないですね。
明らかにモデルAの方が信頼性の観点からは望ましいと。
まさにおっしゃる通りです。信頼性という点で考えると大きな違いですよね。
ええ。
で、さらにこの評価の仕方っていうのは、AI自身のその不確実性の認識能力、いわゆるキャリブレーション能力にも影響を与えてしまうんです。
キャリブレーションですか?
はい。モデルが自分の答えにどれくらい自信を持つべきか、それを正確に把握する能力のことですね。
なるほど。
この能力が、事後学習、例えばRLHF、人間のフィードバックを使って強化学習するプロセスとかで、精度を追求するあまり損なわれてしまう傾向があるということも指摘されてるんです。
信頼性重視の提案
ああ。精度を上げようとすると、逆に自信過剰になったり、あるいは自信なさすぎたり、そのあたりの調整がうまくいかなくなると。
そういうことです。GPT-4の例だと、機体脚性誤差、ECEという指標があるんですが、これはモデルの自信度が実際の正しさからどれだけずれてるかを示すものなんですけど、これが事前学習の段階では0.007だったのが、強化学習の後には0.074へと悪化してしまったというデータも示されています。
この評価の問題点を考えると、なんだかAI開発のインセンティブ自体がちょっと歪んでるような気もしてきますね。
そうかもしれません。
論文では、具体的にどうすればこの状況を変えられると提案してるんでしょうか。
論文が提案しているのは、評価システムそのものを根本的に変えようというアプローチです。
根本的に。
はい。具体的には個々の評価問題に対して信頼度の位置というのを明確に設定して、それを問題文の一部としてAIに提示するというやり方です。
信頼度の位置ですか。
例えば問題文にこう書くんです。
あなたの回答に対する信頼度が75%を超える場合のみ回答してください。と。
なるほど。
誤答の場合はマイナス2点のペナルティ。正答はプラス1点。
わからないと答えた場合はゼロ点とします。
みたいに具体的なスコアリングルールも一緒に与えるんです。
へー、面白いですね。
ということは、評価の軸を単に正解か不正解じゃなくて、適切な自信度でかつ正確に答えられてるかっていう方向に変えていくということですね。
まさにおっしゃる通りです。
ここが重要で、単に新しいハルシネーション用の評価指標を付け足すんじゃなくて、
GPQAとかMMLプロローみたいな既存の主要な評価方法自体をこのように変えることで、
分野全体のインセンティブというか、AI開発が目指すべき方向性自体を信頼性重視の方へ転換させようとしているという点が非常に重要かなと思います。
なるほどなー。
もちろん、実用的な対策として、信頼できる外部の情報源を参照する技術、いわゆるRAGを使ったりとか、
RAGですね。
あるいは、プロンプトで不明な点は答えないでくださいってはっきり指示することも引き続き有効ではありますね。
今回のお話でこう見えてきたのは、AIのハルシネーション問題っていうのが避けられない統計的な性質、
それから私たちがAIの成功をどう図るかというこの評価の仕組み、この2つに深く根差しているということですね。
本当にそうですね。
解決のためには、モデルの改良だけじゃなくて、その成功の図り方、評価のあり方自体を根本から見直す必要があると。
まさにその点だと思います。純粋な正当率だけを追い求めるんじゃなくて、信頼性をどう評価してどう彷彿るか。
不確実な状況できちんとわからないと言えるAI、そういうAIを評価システムを通じて育てていく、そういう視点がこれからますます重要になってくるんだろうなと思いますね。
ありがとうございます。
では最後に、これを聞いているあなたが考えるための問いかけです。
もし、AIの評価システムが今話したような不確実さをもっと適切に組み込むようになったとしたら、
それは言語モデルに限らず、将来私たちが開発するであろうAIシステム全体のあり方、その種類や性質に一体どんな変化をもたらす可能性があるでしょうか。
今回の探究はここまでとしましょう。
09:15

コメント

スクロール