うん。
だからこれテレビとかでもニュースやってたらしいので、知ってる人も多いんじゃないかなとは思うんですけど、
へえAIってすごいねって多分終わっちゃうじゃないですか。
まあそうだね。
このニュースって大体。
うん。
ああなんかすごいなみたいな。
まあでもちょっと間違えてるんですよ。
うん。
なんでここ、なんで間違えたのかっていうところをちょっと深掘りしてあげるとですね、AIの使い分けが分かってくる。
ああなるほど、確かに。得意不得意が分かるわけだもんね。
そうなんですよ。どういうのが得意で、どういうのがまだ不得意でっていうところを掘っていって、どうやってAIを生かしていこうかっていうヒントにしていこうじゃないかということですね。
ではですね、今回使用したモデルなんですけど、GPT 5.2シンキングモデルですまず。
うん。
で2つ目がGemini 3 Proです。で3つ目がクロード4.5オーパスと。
はい。
3大巨頭が。
そうだね3大巨頭がね。
バチバチにやると。でこれ誰が勝ったのかって知ってます?
あ、いやちょっとわかんないな。
この3体に同じ問題解かせて、さっきお話しした970点はあるモデルが達成してるんですよ。
あ、そうなんだ。
明確に点数差が出てます。だから誰が優秀なのかっていうのがわかるんですよこれで。
これ個人的な予想なんですけど、やっぱり我らがオープンAI GPTさんじゃないですか。
チャッピー?
チャッピー。
いいですね。チャッピーは単勝1.2倍だけど大丈夫?
チャッピー人気高いな。そうなんだ。
チャッピー人気高いと思いますよ。
だいぶだな1.2倍は。
クロードが単勝35倍とか。
そんなに開いてないだろ別に感覚として。
っていうとこですね。皆さんどこにかけるかちょっと考えながら聞いていただければと思うんですけど、
今回の検証ではAIの実力を公平に図るためにいろんなルールがあるんですね。
あと対象科目もあるのでそれを紹介すると、まず科目は文系理系を問わず、英語、国語、数学、社会、理科、基礎、情報みたいな形で解かせております。
入力手順ですね。入力手順は自動受験システムでAPI経由で試験を実施しているというところです。
なぜ自動なのかっていうと、人間がコピペするとちょっとミスってしまったりとか、
恣意的にヒント与えちゃうとかそういうことをしないように、完全にそういうことを排除するために自動受験システムっていう専用のシステムを作ってます。
なるほどね。
これ結構大事ですよね。やっぱりデータ汚染とかありますから。
具体的な手順としては、まず問題のPDFをシステムにアップロードして、この全ページを画像化するんですって。
同時にテキスト解析を行って、どこからどこまでが第一問かっていう構造を自動判定させると。
切り分けられた問題画像はこのAPI経由で各モデルに送信されると。
これはチャット画面じゃなくて、プログラム経由で直接指示を送ることで、ミスのない厳密な検証が可能になりますよと。
なるほどね。
で、モデルの設定としては、5.2シンキングのバックグラウンドモードっていうね、深い推論を行わせるモードがあるんですけど、これを使ってます。
タイムアウトを回避、いわゆる長い時間考えちゃうと止まっちゃうじゃないですか。
あれを回避して数分間の思考時間を許容してます。
クロード4.5オープスはシンキングモードの思考トーク、これを有効化してます。
ジェミニー3も画像認識精度を高めるために、シンキングレベルっていうのを選べるんですけど、ローミドルって。
これ一番高いハイ、上ですね、設定しているということです。
ステップ3が回答の構造化っていうところで、AIが出力した自由記述の回答であるじゃないですか。
それはそのままだと採点できないから、別のAIプロセスが回答文を読み取って、問1は3、問2は4みたいな感じで、採点可能なマークシート形式に自動変換しているということです。
なるほどね、結構複雑な経路を辿ってるんだね、思ったより。
そうですね、なかなか難しいですから、こういうのをAIにやらせるって。
問題文をPDFでチャットにボーンって投げて、解いて、で終わりじゃないからさ。
なんかXでそういうことしてさ、OCRの精度の違いだけだったみたいなやつあったよね。
ありましたね、そうですね。
そういうことも起きかねないようなことがあるから、ちゃんとこうやって一律になるようにしてるってことですね。
一律になるように、ちゃんとシステムを組んでやってると。
かなりデータ汚染もされてないし、チャッピーに関してはカットオフ、情報の学習期間が、確か2025年の8月とかなんですよ、8月31だったかな。
なので、今回の問題は完全に新しく作られたやつ。だから学習の仕様もないですし、これまでの蓄積データを元に解いているっていう感じですね。
あと英語のリスニング問題、どうやって解かせんねんってなるじゃないですか。
解かせられないんで、試験センターが公開している読み上げスクリプト、台本があるんですよ。
それをテキストで入力した。
リスニングじゃないね、それ。
リスニングじゃないな。
リスニングはしてないのよ。
確かに。
読んでるだけだからね。英語リスニングだけカンニングみたいになってる。
そうだよね。ちょっと面白いね、それ。
あと縦書き文章、国語で出てくるじゃない。右から縦書きで読む。
あれってAIやっぱ読めないんですよ。
そうなんだ。
めっちゃ苦手なんで、事前にノートブックLMで文字起こししたテキストデータを使用したということですね。
縦がまだ読めないと。
日本独特の文化ですもんね、あれは。
そうですね。
ということで、実験をパッとやった結果、衝撃の9科目と満点が。
やっぱ冷静かけてやばいよね。
ねえ、だって、なんていうんだと思ってんのって言ったらイエーってなるよね。
なる。
しかも9科目だよ。
だからそんなさ、もう天才じゃん。そんなやつがいたら。それがいるんですよ、我々の片手に。
確かに。
常に。
常に天才が片手にいるって考えたらすごいよね。
すごいよ、本当に。こんな天才にずっと相談できるっていうね。
Thinkingモデルだから、有料じゃないと使えませんけど。
そうだね。
何を満点を取ったかっていうと、まずGPT工程にThinkingモデルは、公共、政治、経済、100点。
数学1、数学A、100点。数学2、数学B、数学C、100点。
科学100点。物理基礎50点、満点。科学基礎、地学基礎、生物基礎、情報1、これ全て満点と。
ということですね。
Gemini3 Proは、数学1、数学Aが満点。生物基礎が満点。以上です。
もうこの時点であれ。
いや、黒道パスさんがね。
大穴だけど大丈夫?
大穴でひっくり返すかもしれないよ。
公共、政治、経済100点。科学基礎50点。生物基礎50点、満点。3つですね。
やはり我々のチャッピーか、これは。
はい、ということで、明らかにチャッピーがダントツでございます。
しかもさ、合点にThinkingでしょ。
そうなんですよ。
じゃあ、プロが控えた上でのこれってすごくない?
そうなんですよ。よく気づきましたね。
これ、今、現行の最高モデルを使ってるんですけども、いよいよプロはとなるじゃないですか。
プロはですね、考えすぎて試験時間オーバーしたため、アウトです。
そういうこと。
なるほどね。
そうなんですよ。
考えすぎるじゃないですか。
試験時間を人間より遥かに超えてしまうっていう。
なるほどね。適材適所とはこのことだね、まさしく。
そうですね。
でもどうだろうな。プロでも満点は難しかったんじゃないかなと思います。
その理由ね、ちょっとお話ししていきますけど。
とりあえず、合計得点としてはThinkingが970点、ジェミニが937点、オーパスが938点と。
いやでも、なんかもうあれだよね。なんかハイレベルな奴らの争いというか、下から見てたら全員お前ら一緒だろみたいなさ、そういう感覚のあるような戦いだよね。
確かにそういうレベルよね。
じゃあ、どこを間違えたのかっていうところをお話しすることで、プロでも解けなかったんじゃないかっていう根拠になるんですけど。
まず共通して間違えた問題、図が読めないっていう。
図が読めない。
文字は読めるんだけどね。図が読めないということで。
例えば、英語リスニングのバスの乗り方っていう問題があって、音声スクリプトでは後ろから乗って前から降りるとはっきり指示されていて、
AIの思考ログも見ても完璧にこれを書き起こされていたと。
だからバスの乗り方だから後ろから乗って前から降りる。で、その図を選んでくださいと。
あー、なるほど。
ってなった時にバスのイラストが選べなかった全モデル。
へー、バスがわかんないんだ。
その後ろから前がわからないみたいな。
後ろから前がわかんないのか。
その矢印がね、前後のドアに向いてるんですよ。
で、いくつかそのイラストがあって、どれが後ろから前に乗るやつでしょうかっていう。
なるほどね。
わからん。
わからないんだ。
どれみたいな。だから問題の指示を理解したけど、どの絵が後ろから乗っているのかが判定できなくて、
AIにとってこのイラストの微妙な矢印の意味とか、空間的な奥行きとかを論理と結びつけるっていうのが、かなりシナンの技なんじゃないかと。
なるほどね。
だからよくXとかでもさ、ベンチマークとして、カニとかの画像にさ、エビみたいな文字を載せてさ、これは何でしょう?なった時に、エビって読んじゃうみたいな。
なるほどね。あるね、それ。
そうそうそうそう。最近のはね、できるようになってきましたけど、やっぱ画像から論理を結びつけるってのは難しいんだろうねっていう。
で、二つ目。これがね、ちょっと面白いんですよ。割り切れない思い。
これがね、国語の問題なんですけど。
あーなるほど。
間違えておりますというところで、主人公が理想を捨てて、安楽な生活を送る自分を、これでいいんだと無理やり正当化しようとする場面。
ここで母の死に顔が浮かび、心が揺らぐというシーンの心情理解という問題があるんですけど、
これの正解は、ちなみに何だと思います?心情としては。
えーと、もう一回問題。
割り切れない思いです。
そういうことに答えも言われてたわ。なんか授業だったら、国語はもう答えが出てるんですみたいな。
なんか言われた記憶あるな、これ先生に。
はい、割り切れない思い。まあ現状への妥協なので、割り切れない思いなんだけど、
AIたちはこそって過去の過ちへの反省という選択肢を選んだんですね。
えーそうなんだ。
反省じゃないじゃん。これでいいんだって思ってるから。
でも心が揺らいでる。こういうなんか葛藤した気持ち、こういうのがあいつらはわからんと。
いやーあれだね、もう頭がいいだけのサイコパスな感じがスロイするよね。
そうそうそうそう。
AIは基本的に間違いは正すべきとか、人は反省して成長するものっていう道徳的な学習データっていうのを大量に持ってると。
だから人間特有の悪いとわかってても正当化してしまう弱さとか、こういう割り切れない感情ってのは読み取れなくて、反省しているはずだと。
一般的な解釈に握ってしまう。
なるほど。
らしいですね。
これはすごい面白くないですか。
面白い。
やっぱりチャッピーが満点取った、ジェミニとかクロードもそうだけどさ、だいたいやっぱり科学とか数学とか明確に答えがあるもの。
あーそうね。
で、やっぱ満点を取る傾向にあって、やっぱこういう明確な答えが、まあテスト的に言うぐらい明確な答えがあるんだけどさ。
漢学で言うと明確な答えないじゃん。
そうですね。
っていうものはやっぱり弱いんだなっていうのは感じるよね。
そういうことじゃないんだよなって。
だってダメなんだからダメじゃん、直せ!みたいな。
そうそうそう。
そういう感じだよね。
あーめんどくさいこいつ。
めんどくさいこいつみたいな。
確かに。
ということらしいですね。
だからカウンセリングとかカウンセラーの代替になるとかさ、話し相手としていいとかさ、僕のAIで孤独は解消できるのかっていう回でも話したけど、
やっぱAIでそういうのって解消できるのかなってなった時に、またできないんだよねって話をしたじゃないですか。
なぜならこういう心情が理解できないから、彼らは。
まさしくもう数字で出たね、この答えというかさ。
そうなんですよね。
これができるようになってきたらいよいよちょっと人間だなって感じもちょっとしてきますよね。
確かに。
だから来年はここに注目です。
確かにな、ここが上がったらとうとう人間に寄り添ってきたみたいな、寄り添う系AIになってきたみたいな感覚がするよね。
心を数学で解析できるようになっちゃうみたいな意味合いになっちゃうので、来年はね、要注目でございます。
確かに。
なるほどね。
例えば三角形ABCって言われたら僕らの頭の中では三角形ABCをなんとなくイメージするでしょ。
じゃなくてAは座標0と0、Bは座標1と2みたいな感じで数値化して構築するみたいな。
なるほどね。
座標データとしてね。でさらに思考プロセスによって計算をする前に方針を立てるっていう手順を踏むじゃないですか。
それをすることによってケアレスミスっていうのを根絶したということですね。
で去年日本史もボコボコだったっていうところなんですけど、ここは完全に学習量の成果じゃないかと。
そうだね、やっぱ日本のその歴史のデータとかってやっぱ少ないもんね。
そうなんです。昨年までは英語系のデータが主体で、日本のマニアックな歴史とかに疎かったんですけど、この1年で相当学習をしたらしくてですね、完璧にあの満点を取ったと。
なんか人間で置き換えたらすごいよね。なんかあの私はアメリカ人なんで日本のことよくわかんないです。ちょっと1年勉強してきます。はい満点みたいなさ。
ノリでしょ。そんなことあるっていうさ。
そうそうそう。そんなことあるって。君すごいねってなるよね。
すごいよね。
そういう感じらしいですよ。
しかもね短期の暗期だけじゃなくて、なぜその政策が行われたのかっていう歴史の因果関係も深く理解するようになったから、資料読解問題とかでも文脈から正解を導き出せるようになったと。
なるほどね。
その文脈から因果関係を紐づけて答えを出すっていうめちゃくちゃ高度なこともできる。
そしたらあれだね、なんかその考古学というか歴史学か、そういう資料とかからさ、やる歴史学みたいな文脈ってあるじゃん。
あるね。
なんかそういうところとかでもさ、応用を聞きそうなね、今後新しいその文献みたいなのを見て、ここでこういうことが書かれてるってことはきっとこういう背景があるから、ここでこの人たちが繋がってた可能性があるかもしれないみたいなさ、推測を立てるみたいなさ。
ある全然ね、あると思いますよ本当に。すごいですよね。
ということで今回間違えた部分とか、克服した部分とかお伝えしたと思うんですけども、月に試行時間、この共通テストを解くのにかかった時間も結構差があってですね、先ほどお話ししたように5Pro、これは時間オーバーで失格となったんですけど、GPTシンキングはですね、5時間かかったんです。
なるほど。
で、ジェミニとクロードはなんとですね、1時間半で終わったんですよ。
へー、なるほどね。
かなり違うんですよね。3倍近く違うんですけど、なぜ5.2シンキングだけこんなに時間かかったのって思いません?
これはね、僕がアップルの論文を引っ張ってきて話した回でも喋ってるんですけど、考えすぎてるんですよ。
あーなるほどね。
そんな考えなくていいのにみたいな。すぐパッて答え出るじゃんそれみたいなことも、いや他の選択肢もあるかもしれないって言ってめちゃめちゃ考え出すみたいな。
なるほどね。シャットGPTでさ、しょうもないことたまに聞いたときに間違ってシンキングで聞いちゃったみたいなときにさ、あの推論のやつが出てくるときにさ、いやいやそんなこと考えないと書いてあるときあるよね。
ありますね。もうプロなんてそうじゃないですか、特に。1ヶ月1話に1分ぐらいかかるみたいな。
もしかしたら違うかもしれない。そんなわけねえかなみたいな。
これは引っ掛けかもしれないみたいな。めちゃくちゃ慎重なんですよね。
なのでGPTは簡単な計算問題であっても方針を立てて計算をして、別の方法で計算をして回答を確定するっていうプロセスを得てるっていうことがわかるので、
この圧倒的な慎重さっていうのが他を寄せ付けない高得点の理由でもあるんだけど、時間がかかった原因でもあるということですね。
なんかあれだね、これでさ、ジェミニとの得点差がめちゃくちゃあるんだったらさ、やっぱクオリティ重視で考えることも大切っていうふうに思いたいところではあるけどさ、点数差がそこまでないじゃん。
で、こんだけ時間の開きがさ、あるって考えると、多少のさクオリティを落としてでもいいから時間取りたい場面とかもあったりするわけじゃん、ビジネスの現場だったら。
で、なるとやっぱりそれでちょっとモデル選びとかも変わってきたりするところではあるよね。
そうなんです、まさしくタスクによって使い分けっていうのは昔から言われてますけど、今回のテストですごくかなり明確になったなと思っていて、
やっぱGPTを使う場面でいいのっていうのは、絶対にミスしちゃいけないよね、みたいな業務。で、時間がかかってもいいから出力にこだわるっていうような、
例えば財務とかホームとか、数値レポートとか、そういったとこですよね。逆にアイディア出しとかカスタマーサポートとか、議事録の要約とか、こういうのはGPT別に使わなくてもいいんだよねっていう。
確かにね。
スピードの処理とかが求められるようなものは、ジェミニとかクロートとかの方が効率的だよねっていう。
そうね。時間がね、だって1時間と5時間じゃねえ。
1時間半と5時間。
1時間半と、まあでもそれも3、4倍ぐらい。
3倍ぐらい。
3倍ぐらいじゃん。3倍違ってもさ、得点がさ、ちょっとしか変わんないんだったら、その3倍かけるようになるかなって結構考えるところがあるよね。
そうですよね。970とでも930ですからね。結構違いますね。
確かに違うが違うか。
40点差だから。
そっかそっか。
まあこれも時間の問題だと思うけどね。
確かにね。
どうせ来年には満点近く取れちゃうんじゃないの、みたいな。
そう、だからGPT5 Proもし使ってたとしても、多分画像のところで躓いてると思うんだよね。
まあ画像は完全にジェミニかな。なので、画像系タスク。
なるほどね。
で、それ以外のまあ速さ、重視はクロート、ジェミニ。
まあだから事業計画を考えてほしいとか、そういうのはやっぱ5 Proとかがいいですよね。
確かに5 Proに関しては圧倒的に頭抜けて回答の質がいいっていう感覚はあるので、
3万円で課金しないと使えないモデルなんで、そんなに使ってる人いないと思うんですけど、
もし使うよっていう人は、その圧倒的な精度は一回体感してほしいなとは思いますよね。
ということで、日本のAIの活用、まだまだ遅れていますけども、
使えてない人たちにやっぱ多い意見として、AIまだ間違えるからねっていう言葉あるじゃないですか。
どうですか。この970点取るAI君と人間比べた時に、どっちの方が間違えないと思います。
ほんとそうだよね。よっぽど人間の方が信用ならないよな。
よっぽど人間の方が間違えるよね。まあ汎用的にね、いろんなことできますけど、人間の方が。
たとえば能力としてはとてもかなわないので、こういうところって。
9割超えを取ってるっていうことを見方を変えれば、支持した仕事の90%を数秒で終わらせてくれる部下って考えてもらったら、
よりAI活用しようってなるんじゃないかなと思います。
あとどっかの回でも話したと思うんですけど、これだけAIが人間のテストをバシバシ解いちゃうと、
我々人間は一体何を測られているんだろうっていう気持ちになりません。
そうだね、確かに。
別に僕らが解く必要なくないみたいな。っていう根本的な問題にも立ち向かわないといけなくなるなとも思いますよね。
そうだね、なんかさ、あんまりないけどさ、たとえば本当に穴掘りたかったら銃器とかさ、入れるわけじゃん。
なのになんかいまだにそんな穴掘り速度テストみたいなさせられてるみたいなさ、めっちゃこれ早く掘れるようになったけど、銃器使ったらもっと早いのになみたいなさ。
もう使わないものをなんかずっと測定されてるみたいな、そういう感覚になりかねないよね。
そうなんですよね。君めちゃめちゃシャベルの使い方うまいねみたいな。
うん、みたいな。
じゃあ銃器で。みたいな。
そうなんですよね。だからこれからの問題って大きく変わると思うし、さっき言った心情理解だったりとか、永遠に解けないような問題にしていくのか。
そもそも問題を作った背景って明治時代からのやっぱり慣習というか、いろんな背景が絡まってますけど、どっかで話したよね、これもね。
そもそもテストっていうのは、早く経済成長させるためにできそうな人を会社に入れていくっていうのを早めるための手段として存在してたものだから、
むしろそれがいらなくなってくると、人を採用しないっていう状態にもなってくるんじゃないかなっていう極論も出せるようになって。
だって人を採用するためにテストがあって、見極めるために。
でもそれがAIでバーって解かれるようになっちゃうってことは、AIで仕事ができるってことになっちゃうわけじゃないですか、タスクができる。
ってなったらじゃあ人間は?ってなった時に、何を測るの?ってなってきますよね。
やっぱ信用とか、人の人に依頼をしたいとか、資格とか、全然ちょっとわかんないですけど、これからは人の何を、何のために測るのかっていう根源的な問いにね、