#376 AIベンチマークで何がわかる？Nature最新論文が暴いたAI評価のヤバい真実

AIが「数学テストで正答率90%」と聞いたら、もう人間を超えたと思いますか？実は同じAIが別の数学テストでは13%しか取れなかったりします。なぜそんなことが起きるのか、今までの評価方法では説明すらできませんでした。プリンストン大学やケンブリッジ大学の研究チームがNatureに発表した論文は、この問題を根本から解決する「AIの能力を測る物差し」を発明したという話。AI時代を生きるすべての人に関係する、測定の科学です。

Nature