1. AI未来話
  2. 大学入学共通テスト970点のAI..
2026-02-05 28:39

大学入学共通テスト970点のAIが間違えた「割り切れない思い」#3-19

spotify apple_podcasts

2026年の共通テストで970点という驚異的なスコアを叩き出したAI。しかし、彼らがどうしても理解できなかったのは、人間特有の「心情」でした...。完璧な知性が躓く意外な落とし穴とは?

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

✉️ 番組へのお便りはこちら!

⁠→ https://forms.gle/4XAqHW9GfwH7NpYs5⁠⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
毎週木曜朝7時、AIメディアを運営する共同経営者の2人が生成AIのメガトレンドユースケースAIによる社会への影響を30分で解説。AIの未来を「ながら聞き」でキャッチできるPodcastです。

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

🦆 公式X

→ AI未来話⁠https://x.com/ai_miraitalk⁠)

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️AIメディア MiraLab AI

⁠⁠→ https://miralab.co.jp/media/

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️おすすめAIガジェット #PR

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️Podcastリンク

Spotify

⁠https://open.spotify.com/show/4YQI4JvX83mURM6xywKn5w?si=34b96be128584bad⁠

Apple

https://podcasts.apple.com/jp/podcast/ai未来話/id1733462439?uo=2⁠

LISTEN

⁠https://listen.style/p/aifuturetalk⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

サマリー

大学入学共通テストにおいて、AIモデルが970点を達成した驚くべき実験について考察を行います。さまざまなAIの強みや弱みを分析し、どのモデルが優秀かを明らかにする過程に焦点を当てます。AIの大学入学共通テスト分析を通じて、心情の理解や色の識別が未成熟であることが指摘されています。特に、ジェミニが他のAIの中で図形や地図の情報処理において優れていることが強調されています。また、日本の歴史に関する学習能力の向上やテスト結果の改善についても議論されています。AIが大学入学共通テストで970点を取る時代において、その精度や能力についての疑問が提起されており、今後のテストのあり方や人間が何を評価されるべきかという根本的な問いも議論されています。

AIの実験と結果
AIメディア、MiraLab AIの平岡です。
同じくMiraLab AIのたつけです。この番組は、AIメディアを運営する2人が、AIの未来を考察するポッドキャスト番組です。
今日お話しするニュースなんですけど、新年といえば何でしょうか。
やっぱり出会いの季節。
いいですね。
いいですか。
新年といえばね、2026年大学入学共通テストですよね、やはり。
やはりなのかな、そうなんだ。
ということで今日は、この共通テストをですね、複数のAIモデルに解かせたという実験内容がありまして、その結果をね、喋っていきたいなと思うんですけども、
一応このテスト自体はね、AIベンチャーのライフ・プロンプトさんと日本経済新聞社による共同検証で実施された内容で、
ライフ・プロンプトは、2023年から毎年恒例でこのAIvs共通テストっていうのをやってるんですよ。
で、今年で4回目というとこなんですけど、最初2023年、このテストの回答、正答率どのくらいだったと思います。
え、どのくらいだったっけ、50、半分くらいだったっけ。
半分ちょい上くらいで、66パーとかだったんですね。
去年は東大を合格できるようなレベルまで来て、さて今年はどうなのかというとこなんですけど、
1000点満点中、何点までで取れたと思います。
あれこれ満点とかのニュースだよね確か、違ったっけ。
満点はさすがに取れてます。
あれ満点じゃなかったっけ、何点だって取れない、ちょっと見たなニュース、ちょっとどうせしちゃったな。
でも確かかなりすごかったんだよね。9割ぐらいとかだっけ。
9割は超えてますね。
9割は超えてる。
これね970点まで。
970点までいったのか。
まあほぼ満点と言ってもいいんだけどね。
そうだね。
それぐらいいってます。
科目数で言うと、15科目中9科目が満点だった。
ああそうだそうだ、一部が満点だったんだ、そうそう。
っていう形ですね。
AIモデルの使用と検証
うん。
だからこれテレビとかでもニュースやってたらしいので、知ってる人も多いんじゃないかなとは思うんですけど、
へえAIってすごいねって多分終わっちゃうじゃないですか。
まあそうだね。
このニュースって大体。
うん。
ああなんかすごいなみたいな。
まあでもちょっと間違えてるんですよ。
うん。
なんでここ、なんで間違えたのかっていうところをちょっと深掘りしてあげるとですね、AIの使い分けが分かってくる。
ああなるほど、確かに。得意不得意が分かるわけだもんね。
そうなんですよ。どういうのが得意で、どういうのがまだ不得意でっていうところを掘っていって、どうやってAIを生かしていこうかっていうヒントにしていこうじゃないかということですね。
ではですね、今回使用したモデルなんですけど、GPT 5.2シンキングモデルですまず。
うん。
で2つ目がGemini 3 Proです。で3つ目がクロード4.5オーパスと。
はい。
3大巨頭が。
そうだね3大巨頭がね。
バチバチにやると。でこれ誰が勝ったのかって知ってます?
あ、いやちょっとわかんないな。
この3体に同じ問題解かせて、さっきお話しした970点はあるモデルが達成してるんですよ。
あ、そうなんだ。
明確に点数差が出てます。だから誰が優秀なのかっていうのがわかるんですよこれで。
これ個人的な予想なんですけど、やっぱり我らがオープンAI GPTさんじゃないですか。
チャッピー?
チャッピー。
いいですね。チャッピーは単勝1.2倍だけど大丈夫?
チャッピー人気高いな。そうなんだ。
チャッピー人気高いと思いますよ。
だいぶだな1.2倍は。
クロードが単勝35倍とか。
そんなに開いてないだろ別に感覚として。
っていうとこですね。皆さんどこにかけるかちょっと考えながら聞いていただければと思うんですけど、
今回の検証ではAIの実力を公平に図るためにいろんなルールがあるんですね。
あと対象科目もあるのでそれを紹介すると、まず科目は文系理系を問わず、英語、国語、数学、社会、理科、基礎、情報みたいな形で解かせております。
入力手順ですね。入力手順は自動受験システムでAPI経由で試験を実施しているというところです。
なぜ自動なのかっていうと、人間がコピペするとちょっとミスってしまったりとか、
恣意的にヒント与えちゃうとかそういうことをしないように、完全にそういうことを排除するために自動受験システムっていう専用のシステムを作ってます。
なるほどね。
これ結構大事ですよね。やっぱりデータ汚染とかありますから。
具体的な手順としては、まず問題のPDFをシステムにアップロードして、この全ページを画像化するんですって。
同時にテキスト解析を行って、どこからどこまでが第一問かっていう構造を自動判定させると。
切り分けられた問題画像はこのAPI経由で各モデルに送信されると。
これはチャット画面じゃなくて、プログラム経由で直接指示を送ることで、ミスのない厳密な検証が可能になりますよと。
なるほどね。
で、モデルの設定としては、5.2シンキングのバックグラウンドモードっていうね、深い推論を行わせるモードがあるんですけど、これを使ってます。
タイムアウトを回避、いわゆる長い時間考えちゃうと止まっちゃうじゃないですか。
あれを回避して数分間の思考時間を許容してます。
クロード4.5オープスはシンキングモードの思考トーク、これを有効化してます。
ジェミニー3も画像認識精度を高めるために、シンキングレベルっていうのを選べるんですけど、ローミドルって。
これ一番高いハイ、上ですね、設定しているということです。
ステップ3が回答の構造化っていうところで、AIが出力した自由記述の回答であるじゃないですか。
それはそのままだと採点できないから、別のAIプロセスが回答文を読み取って、問1は3、問2は4みたいな感じで、採点可能なマークシート形式に自動変換しているということです。
なるほどね、結構複雑な経路を辿ってるんだね、思ったより。
そうですね、なかなか難しいですから、こういうのをAIにやらせるって。
問題文をPDFでチャットにボーンって投げて、解いて、で終わりじゃないからさ。
なんかXでそういうことしてさ、OCRの精度の違いだけだったみたいなやつあったよね。
ありましたね、そうですね。
そういうことも起きかねないようなことがあるから、ちゃんとこうやって一律になるようにしてるってことですね。
一律になるように、ちゃんとシステムを組んでやってると。
かなりデータ汚染もされてないし、チャッピーに関してはカットオフ、情報の学習期間が、確か2025年の8月とかなんですよ、8月31だったかな。
なので、今回の問題は完全に新しく作られたやつ。だから学習の仕様もないですし、これまでの蓄積データを元に解いているっていう感じですね。
間違えた理由と考察
あと英語のリスニング問題、どうやって解かせんねんってなるじゃないですか。
解かせられないんで、試験センターが公開している読み上げスクリプト、台本があるんですよ。
それをテキストで入力した。
リスニングじゃないね、それ。
リスニングじゃないな。
リスニングはしてないのよ。
確かに。
読んでるだけだからね。英語リスニングだけカンニングみたいになってる。
そうだよね。ちょっと面白いね、それ。
あと縦書き文章、国語で出てくるじゃない。右から縦書きで読む。
あれってAIやっぱ読めないんですよ。
そうなんだ。
めっちゃ苦手なんで、事前にノートブックLMで文字起こししたテキストデータを使用したということですね。
縦がまだ読めないと。
日本独特の文化ですもんね、あれは。
そうですね。
ということで、実験をパッとやった結果、衝撃の9科目と満点が。
やっぱ冷静かけてやばいよね。
ねえ、だって、なんていうんだと思ってんのって言ったらイエーってなるよね。
なる。
しかも9科目だよ。
だからそんなさ、もう天才じゃん。そんなやつがいたら。それがいるんですよ、我々の片手に。
確かに。
常に。
常に天才が片手にいるって考えたらすごいよね。
すごいよ、本当に。こんな天才にずっと相談できるっていうね。
Thinkingモデルだから、有料じゃないと使えませんけど。
そうだね。
何を満点を取ったかっていうと、まずGPT工程にThinkingモデルは、公共、政治、経済、100点。
数学1、数学A、100点。数学2、数学B、数学C、100点。
科学100点。物理基礎50点、満点。科学基礎、地学基礎、生物基礎、情報1、これ全て満点と。
ということですね。
Gemini3 Proは、数学1、数学Aが満点。生物基礎が満点。以上です。
もうこの時点であれ。
いや、黒道パスさんがね。
大穴だけど大丈夫?
大穴でひっくり返すかもしれないよ。
公共、政治、経済100点。科学基礎50点。生物基礎50点、満点。3つですね。
やはり我々のチャッピーか、これは。
はい、ということで、明らかにチャッピーがダントツでございます。
しかもさ、合点にThinkingでしょ。
そうなんですよ。
じゃあ、プロが控えた上でのこれってすごくない?
そうなんですよ。よく気づきましたね。
これ、今、現行の最高モデルを使ってるんですけども、いよいよプロはとなるじゃないですか。
プロはですね、考えすぎて試験時間オーバーしたため、アウトです。
そういうこと。
なるほどね。
そうなんですよ。
考えすぎるじゃないですか。
試験時間を人間より遥かに超えてしまうっていう。
なるほどね。適材適所とはこのことだね、まさしく。
そうですね。
でもどうだろうな。プロでも満点は難しかったんじゃないかなと思います。
その理由ね、ちょっとお話ししていきますけど。
とりあえず、合計得点としてはThinkingが970点、ジェミニが937点、オーパスが938点と。
いやでも、なんかもうあれだよね。なんかハイレベルな奴らの争いというか、下から見てたら全員お前ら一緒だろみたいなさ、そういう感覚のあるような戦いだよね。
確かにそういうレベルよね。
じゃあ、どこを間違えたのかっていうところをお話しすることで、プロでも解けなかったんじゃないかっていう根拠になるんですけど。
まず共通して間違えた問題、図が読めないっていう。
図が読めない。
文字は読めるんだけどね。図が読めないということで。
例えば、英語リスニングのバスの乗り方っていう問題があって、音声スクリプトでは後ろから乗って前から降りるとはっきり指示されていて、
AIの思考ログも見ても完璧にこれを書き起こされていたと。
だからバスの乗り方だから後ろから乗って前から降りる。で、その図を選んでくださいと。
あー、なるほど。
ってなった時にバスのイラストが選べなかった全モデル。
へー、バスがわかんないんだ。
その後ろから前がわからないみたいな。
後ろから前がわかんないのか。
その矢印がね、前後のドアに向いてるんですよ。
で、いくつかそのイラストがあって、どれが後ろから前に乗るやつでしょうかっていう。
なるほどね。
わからん。
わからないんだ。
AIの間違えた心情理解
どれみたいな。だから問題の指示を理解したけど、どの絵が後ろから乗っているのかが判定できなくて、
AIにとってこのイラストの微妙な矢印の意味とか、空間的な奥行きとかを論理と結びつけるっていうのが、かなりシナンの技なんじゃないかと。
なるほどね。
だからよくXとかでもさ、ベンチマークとして、カニとかの画像にさ、エビみたいな文字を載せてさ、これは何でしょう?なった時に、エビって読んじゃうみたいな。
なるほどね。あるね、それ。
そうそうそうそう。最近のはね、できるようになってきましたけど、やっぱ画像から論理を結びつけるってのは難しいんだろうねっていう。
で、二つ目。これがね、ちょっと面白いんですよ。割り切れない思い。
これがね、国語の問題なんですけど。
あーなるほど。
間違えておりますというところで、主人公が理想を捨てて、安楽な生活を送る自分を、これでいいんだと無理やり正当化しようとする場面。
ここで母の死に顔が浮かび、心が揺らぐというシーンの心情理解という問題があるんですけど、
これの正解は、ちなみに何だと思います?心情としては。
えーと、もう一回問題。
割り切れない思いです。
そういうことに答えも言われてたわ。なんか授業だったら、国語はもう答えが出てるんですみたいな。
なんか言われた記憶あるな、これ先生に。
はい、割り切れない思い。まあ現状への妥協なので、割り切れない思いなんだけど、
AIたちはこそって過去の過ちへの反省という選択肢を選んだんですね。
えーそうなんだ。
反省じゃないじゃん。これでいいんだって思ってるから。
でも心が揺らいでる。こういうなんか葛藤した気持ち、こういうのがあいつらはわからんと。
いやーあれだね、もう頭がいいだけのサイコパスな感じがスロイするよね。
そうそうそうそう。
AIは基本的に間違いは正すべきとか、人は反省して成長するものっていう道徳的な学習データっていうのを大量に持ってると。
だから人間特有の悪いとわかってても正当化してしまう弱さとか、こういう割り切れない感情ってのは読み取れなくて、反省しているはずだと。
一般的な解釈に握ってしまう。
なるほど。
らしいですね。
これはすごい面白くないですか。
面白い。
やっぱりチャッピーが満点取った、ジェミニとかクロードもそうだけどさ、だいたいやっぱり科学とか数学とか明確に答えがあるもの。
あーそうね。
で、やっぱ満点を取る傾向にあって、やっぱこういう明確な答えが、まあテスト的に言うぐらい明確な答えがあるんだけどさ。
漢学で言うと明確な答えないじゃん。
そうですね。
っていうものはやっぱり弱いんだなっていうのは感じるよね。
そういうことじゃないんだよなって。
だってダメなんだからダメじゃん、直せ!みたいな。
そうそうそう。
そういう感じだよね。
あーめんどくさいこいつ。
めんどくさいこいつみたいな。
確かに。
ということらしいですね。
だからカウンセリングとかカウンセラーの代替になるとかさ、話し相手としていいとかさ、僕のAIで孤独は解消できるのかっていう回でも話したけど、
やっぱAIでそういうのって解消できるのかなってなった時に、またできないんだよねって話をしたじゃないですか。
なぜならこういう心情が理解できないから、彼らは。
まさしくもう数字で出たね、この答えというかさ。
そうなんですよね。
これができるようになってきたらいよいよちょっと人間だなって感じもちょっとしてきますよね。
確かに。
だから来年はここに注目です。
確かにな、ここが上がったらとうとう人間に寄り添ってきたみたいな、寄り添う系AIになってきたみたいな感覚がするよね。
心を数学で解析できるようになっちゃうみたいな意味合いになっちゃうので、来年はね、要注目でございます。
確かに。
ジェミニの色識別能力
3つ目、色の濃淡が見えないというところで、チリとか世界史で多発したのが、地図とかグラフの読み取りミスですね。
はいはいはい、濃淡が確かに。
例えば関東の濃淡図になった時に、色が濃い方が山岳地帯みたいな、色が薄い方が平坦みたいな、分布図とか、そういう色の微妙な違い、これが識別的に図に全滅と。
なるほどね、なんかこの図をさ、コピー機で白黒にコピーしたらさ、なんか全部塗りつぶれて出てくるじゃん。
あーそうですね。
なんかそんな感覚で見えるのがね、AIからすると。
なのでAIはね、文字を読むのは得意なんだけど、色のグラデーションから数値を読み取るっていうのはまだ苦手と。
なるほどね。だがしかし。
なんだって。
ジェミニだけは違ったらしいです。
えーそうなんだ。
はい、ここで面白かったのが同じチリの問題で、AIが地図上の位置とグラフの特徴を結びつけるのに失敗する中、
ジェミニだけが唯一地図上の地形と気候グラフを正しく視覚的にリンクさせ、正解を導き出したということで。
やっぱ画像はジェミニ強いっていうイメージあるじゃないですか。
あるある。
まさしく強いんですよ本当に。
なるほどね。
しかも結構論理と紐付けやすいと。
なんかさ、これは本当に噂ベースの話だけどさ、ナノバナナとジェミニ自体は別のモデルじゃん。
なんだけどなんかその裏側でさ、ジェミニ3プロとかがなんかその推論でちょっと入ってきてたりとかさ、してるみたいなそんな噂とかあったりするよね。
あーそうなんだ。
そうそうそうそう。なんかそこの技術が転用されたりとかしてるんじゃないかみたいなさ。
ただこういう画像のところがやっぱ性能がいいのってそういうところに紐付いてるのかなみたいな。
あーなるほどね。
そうそう。
確かに。なかなかやっぱGPTとかクロートだとこの辺は画像を文字情報の塊として処理する傾向があるんじゃないかみたいな。
あーなるほどね。
風に言われてて、純粋にビジュアル情報の読み取りでつまずきやすい。
でジェミニはなんでかわかんないけどやっぱ画像を画像として捉える力が強い。からこういうのが解けるっていう形っぽいですよ。
なるほどね。
だからやっぱ画像の読み取りとか映像とかはジェミニに渡した方がいい成果が出ますよね。
で次に去年との比較ですね。去年は数学1Aと日本史ボッコボコだったんですよ。
で特に図形問題ボロボロだったんですけど。
そうなんだ。
はい。図を描くっていう概念がなかったっぽい。
なるほどね。
去年はまだ。
でも今年の合点にシンキングは満点を取ったというところで劇的に成績が上がったらしいんですけど、
おそらく松蔭は図形を絵としてじゃなくて座標データとして脳内で再構築する能力を手に入れたことじゃないかって言われてるんですよ。
日本史における学習の進展
なるほどね。
例えば三角形ABCって言われたら僕らの頭の中では三角形ABCをなんとなくイメージするでしょ。
じゃなくてAは座標0と0、Bは座標1と2みたいな感じで数値化して構築するみたいな。
なるほどね。
座標データとしてね。でさらに思考プロセスによって計算をする前に方針を立てるっていう手順を踏むじゃないですか。
それをすることによってケアレスミスっていうのを根絶したということですね。
で去年日本史もボコボコだったっていうところなんですけど、ここは完全に学習量の成果じゃないかと。
そうだね、やっぱ日本のその歴史のデータとかってやっぱ少ないもんね。
そうなんです。昨年までは英語系のデータが主体で、日本のマニアックな歴史とかに疎かったんですけど、この1年で相当学習をしたらしくてですね、完璧にあの満点を取ったと。
なんか人間で置き換えたらすごいよね。なんかあの私はアメリカ人なんで日本のことよくわかんないです。ちょっと1年勉強してきます。はい満点みたいなさ。
ノリでしょ。そんなことあるっていうさ。
そうそうそう。そんなことあるって。君すごいねってなるよね。
すごいよね。
そういう感じらしいですよ。
しかもね短期の暗期だけじゃなくて、なぜその政策が行われたのかっていう歴史の因果関係も深く理解するようになったから、資料読解問題とかでも文脈から正解を導き出せるようになったと。
なるほどね。
その文脈から因果関係を紐づけて答えを出すっていうめちゃくちゃ高度なこともできる。
そしたらあれだね、なんかその考古学というか歴史学か、そういう資料とかからさ、やる歴史学みたいな文脈ってあるじゃん。
あるね。
なんかそういうところとかでもさ、応用を聞きそうなね、今後新しいその文献みたいなのを見て、ここでこういうことが書かれてるってことはきっとこういう背景があるから、ここでこの人たちが繋がってた可能性があるかもしれないみたいなさ、推測を立てるみたいなさ。
ある全然ね、あると思いますよ本当に。すごいですよね。
ということで今回間違えた部分とか、克服した部分とかお伝えしたと思うんですけども、月に試行時間、この共通テストを解くのにかかった時間も結構差があってですね、先ほどお話ししたように5Pro、これは時間オーバーで失格となったんですけど、GPTシンキングはですね、5時間かかったんです。
なるほど。
で、ジェミニとクロードはなんとですね、1時間半で終わったんですよ。
へー、なるほどね。
かなり違うんですよね。3倍近く違うんですけど、なぜ5.2シンキングだけこんなに時間かかったのって思いません?
これはね、僕がアップルの論文を引っ張ってきて話した回でも喋ってるんですけど、考えすぎてるんですよ。
あーなるほどね。
そんな考えなくていいのにみたいな。すぐパッて答え出るじゃんそれみたいなことも、いや他の選択肢もあるかもしれないって言ってめちゃめちゃ考え出すみたいな。
なるほどね。シャットGPTでさ、しょうもないことたまに聞いたときに間違ってシンキングで聞いちゃったみたいなときにさ、あの推論のやつが出てくるときにさ、いやいやそんなこと考えないと書いてあるときあるよね。
ありますね。もうプロなんてそうじゃないですか、特に。1ヶ月1話に1分ぐらいかかるみたいな。
もしかしたら違うかもしれない。そんなわけねえかなみたいな。
これは引っ掛けかもしれないみたいな。めちゃくちゃ慎重なんですよね。
なのでGPTは簡単な計算問題であっても方針を立てて計算をして、別の方法で計算をして回答を確定するっていうプロセスを得てるっていうことがわかるので、
この圧倒的な慎重さっていうのが他を寄せ付けない高得点の理由でもあるんだけど、時間がかかった原因でもあるということですね。
なんかあれだね、これでさ、ジェミニとの得点差がめちゃくちゃあるんだったらさ、やっぱクオリティ重視で考えることも大切っていうふうに思いたいところではあるけどさ、点数差がそこまでないじゃん。
で、こんだけ時間の開きがさ、あるって考えると、多少のさクオリティを落としてでもいいから時間取りたい場面とかもあったりするわけじゃん、ビジネスの現場だったら。
で、なるとやっぱりそれでちょっとモデル選びとかも変わってきたりするところではあるよね。
そうなんです、まさしくタスクによって使い分けっていうのは昔から言われてますけど、今回のテストですごくかなり明確になったなと思っていて、
AIの能力と精度
やっぱGPTを使う場面でいいのっていうのは、絶対にミスしちゃいけないよね、みたいな業務。で、時間がかかってもいいから出力にこだわるっていうような、
例えば財務とかホームとか、数値レポートとか、そういったとこですよね。逆にアイディア出しとかカスタマーサポートとか、議事録の要約とか、こういうのはGPT別に使わなくてもいいんだよねっていう。
確かにね。
スピードの処理とかが求められるようなものは、ジェミニとかクロートとかの方が効率的だよねっていう。
そうね。時間がね、だって1時間と5時間じゃねえ。
1時間半と5時間。
1時間半と、まあでもそれも3、4倍ぐらい。
3倍ぐらい。
3倍ぐらいじゃん。3倍違ってもさ、得点がさ、ちょっとしか変わんないんだったら、その3倍かけるようになるかなって結構考えるところがあるよね。
そうですよね。970とでも930ですからね。結構違いますね。
確かに違うが違うか。
40点差だから。
そっかそっか。
まあこれも時間の問題だと思うけどね。
確かにね。
どうせ来年には満点近く取れちゃうんじゃないの、みたいな。
そう、だからGPT5 Proもし使ってたとしても、多分画像のところで躓いてると思うんだよね。
まあ画像は完全にジェミニかな。なので、画像系タスク。
なるほどね。
で、それ以外のまあ速さ、重視はクロート、ジェミニ。
まあだから事業計画を考えてほしいとか、そういうのはやっぱ5 Proとかがいいですよね。
確かに5 Proに関しては圧倒的に頭抜けて回答の質がいいっていう感覚はあるので、
3万円で課金しないと使えないモデルなんで、そんなに使ってる人いないと思うんですけど、
もし使うよっていう人は、その圧倒的な精度は一回体感してほしいなとは思いますよね。
ということで、日本のAIの活用、まだまだ遅れていますけども、
使えてない人たちにやっぱ多い意見として、AIまだ間違えるからねっていう言葉あるじゃないですか。
どうですか。この970点取るAI君と人間比べた時に、どっちの方が間違えないと思います。
ほんとそうだよね。よっぽど人間の方が信用ならないよな。
よっぽど人間の方が間違えるよね。まあ汎用的にね、いろんなことできますけど、人間の方が。
たとえば能力としてはとてもかなわないので、こういうところって。
9割超えを取ってるっていうことを見方を変えれば、支持した仕事の90%を数秒で終わらせてくれる部下って考えてもらったら、
よりAI活用しようってなるんじゃないかなと思います。
あとどっかの回でも話したと思うんですけど、これだけAIが人間のテストをバシバシ解いちゃうと、
我々人間は一体何を測られているんだろうっていう気持ちになりません。
そうだね、確かに。
別に僕らが解く必要なくないみたいな。っていう根本的な問題にも立ち向かわないといけなくなるなとも思いますよね。
そうだね、なんかさ、あんまりないけどさ、たとえば本当に穴掘りたかったら銃器とかさ、入れるわけじゃん。
なのになんかいまだにそんな穴掘り速度テストみたいなさせられてるみたいなさ、めっちゃこれ早く掘れるようになったけど、銃器使ったらもっと早いのになみたいなさ。
もう使わないものをなんかずっと測定されてるみたいな、そういう感覚になりかねないよね。
そうなんですよね。君めちゃめちゃシャベルの使い方うまいねみたいな。
うん、みたいな。
じゃあ銃器で。みたいな。
そうなんですよね。だからこれからの問題って大きく変わると思うし、さっき言った心情理解だったりとか、永遠に解けないような問題にしていくのか。
そもそも問題を作った背景って明治時代からのやっぱり慣習というか、いろんな背景が絡まってますけど、どっかで話したよね、これもね。
そもそもテストっていうのは、早く経済成長させるためにできそうな人を会社に入れていくっていうのを早めるための手段として存在してたものだから、
むしろそれがいらなくなってくると、人を採用しないっていう状態にもなってくるんじゃないかなっていう極論も出せるようになって。
だって人を採用するためにテストがあって、見極めるために。
でもそれがAIでバーって解かれるようになっちゃうってことは、AIで仕事ができるってことになっちゃうわけじゃないですか、タスクができる。
ってなったらじゃあ人間は?ってなった時に、何を測るの?ってなってきますよね。
やっぱ信用とか、人の人に依頼をしたいとか、資格とか、全然ちょっとわかんないですけど、これからは人の何を、何のために測るのかっていう根源的な問いにね、
テストの未来
立ち戻っていくんじゃないかなっていうようなニュースでもありましたね。
確かに。
考えさせられますね。
考えさせられますねっていうやつが一番考えねえんだよ。
それでは番組の感想、質問、深掘りしてほしい話題をお待ちしています。
お便りフォームは概要欄からお待ちしています。
AI未来話の番組フォローとレビューもお待ちしています。
来週も木曜朝7時1分にお届けします。通勤通学の30分にAIの未来をキャッチアップしていきましょう。
それでは本日もありがとうございました。
ありがとうございました。
28:39

コメント

スクロール