なるほど。
繋がりますね、前回のAppleの論文のやつからね。
はい、これはね、わざとです。
さすがです。
この話題が多分出るだろうなと思って話しておきました。
予期してた。
予期してた。
すごいね。
多分夢見た、夢。夢に出てきたんです。
ということでね、今日は国際数学オリンピックで金メダルを取ったという話をね、話していきたいと思います。
じゃあまずですね、この国際数学オリンピックIMOと言いますね。
IMOは毎年開催される高校生向けの世界最高峰の数学競技大会のことなんですよ。
で、6問しか出ないの。
そうなんだ、そんな少ないんだ。
6問なんだけど、全部が死ぬほど難しいっていう数学問題なんですよ。
で、合計42点満点で採点されて、毎年上位8から10%の参加者のみが金メダルを獲得できると。
点数的に言うと35点が金メダルのカットオフというところなんですね。
で、今回Gemini、そしてOpenAIの推論モデル、これがそれぞれ35点を獲得して、AIとして初めてIMOでの金メダル基準に到達したというお話なんですね。
成績のこの検証方法と発表までの経緯をお話しすると、まずGoogleの方はIMOと協力したんですよ。
で、実際の大会と同様の条件下でモデルに今年の問題、最新の問題を解かせたんですね。
で、直近で話したAppleの論文のお話をすると、最新で簡単な問題は全然解けなくて、過去のもので難しい問題が解けたみたいな話をしたと思うんですね。
これは何でかというとデータ汚染なんじゃないかと、カンニングしてんじゃねみたいな話ですね。
問題自体をそのまんま学習してるってことだよね。
とか、構造的な問題、これ似てるなみたいな形で解いてるんじゃないかみたいな話があったと思うんですけど、今回は最新です。
最新で超難しい問題です。
が、解けてんだよね。
そうなんです。だからAppleの論文とはまたね、対をなすんですね。
確かに。
その状態で35点、つまり金メダル得点を取ってるわけなんですね。
で、これは実際IMOの委員長も非常に高く評価していて、提出された回答は極めて明快かつ正確で、多くは非常にわかりやすいものでしたと評価されているというんですね。
で、OpenAIの方。OpenAIも35問到達できてるんですけど、ちょっと違うのはですね、公式競技には参加してなく、社内で非公開テストを行ってるんですね。
なんか怪しい匂いがしてきたぞ。
OpenAI側はIMOと同じ4.5時間×2日間の制限時間内で問題を解かせたと。
インターネットや計算ツールは一切アクセスさせず、人間と同様に紙とペンで解くような状況で、モデルが自然言語の証明を作成する形式を採用したと。
なるほど。
で、回答は3名の元IMO、メダリストの数学者に特命で採点してもらい、人間の採点基準で35点の評価を得たということですね。
そういうことですね。
なのでちょっと非公式か、公式じゃないっていうところはちょっとあるんですけど、35点を一応取ったというのは事実であるっぽいです。
なるほど。
ただ1個ですね、僕が懸念したのはですね、Googleがこの35点取ったらすごいでしょって話をIMOの公式の確認を待ってから発表したんですよ、ちゃんと。
でもOpenAIは大会終了直後にSNS上で成果を公表したから、発表タイミングを巡って両者間でちょっと揉め事があったらしいですよ。
そうなんだ。
最終的にOpenAIもIMOの表彰式後まで正式発表を控える形になったんだけど、ちょっと似合わせじゃないけど、SNSで言っちゃったみたいな感じだったので、やっぱりパフォーマンスを早くしたいみたいなそういう文化があるのかなと。
そうかもね、先に獲得しましたっていうのがやっぱ大事なのかな。
そうそう、やっぱりマーケ的な意味合いでね。ただ発表に関してはあるんだけど、重要なのは今回両者とも問題及び模範回答が事前にモデルに漏えいしないように厳重に対処したっていう点なんだよね。
じゃあデータ汚染されてないっていうことだよね。
はい、そうなんです。でその訓練データがちゃんと含まれてないっていう確認をする客観的な処置っても取られているので、
ちゃんとカンニングなしで最新で超難しい問題を解いたっていうのはやっぱ事実なんですよ。
すごいね。
だからね、すごいことなんですこれ。
結構すごいね。
そうなんです。この間話した論文何だったのって思っちゃうぐらい。
確かに。
すごいんです。じゃあなんでこれができるようになったのかっていう話をね、核心に迫っていきたいと思うんですけど。
確かに一番気になるところですね、これは。
技術的な進歩、これ昨年からのアップデートとモデルの内容ちょっと話していくんだけど、端的に言うと新技術の導入とモデルのチューニングなんですよ。
なるほど、新技術。
まずGoogle DeepMindのジェミニ。ジェミニは昨年のIMO、去年も解いてるのよ。
この時だと問題文を一手で翻訳してから解かせるっていうフォーマルシステムっていうのを用いたんだよね。
これで4問正解して28点達成したの。
なるほど。
ただこの手法をやると各問題の回答に数字使用するとか、人間離れした計算資源とか手間が必要だと。
今年はジェミニ2.5 Proにディープシンクモードと呼ばれるコード推論モードを搭載しましたよね。
そうですね。
IOで発表されてましたよね。これが新技術です。
このディープシンクモードを使って問題文から自然言語で直接回答を導くエンドツーエンド手法というのに切り替えてるんですよね。
だから人手を返してたのを返せなくなったって話。
なるほど。
このエンドツーエンド、ディープシンクモードを使ってより具体的にどういうことをやったのかっていうお話を一個一個していきたいと思うんですけど。
まず並列思考をやりました。
なるほど。
これは複数の仮説とか回答の方法だよね。これを並行して求めていくっていうやり方ですね。
だから数学のコーチがいっぱいいて定理に強いコーチとか、方程式に強いとか、ちょっと僕は中卒なんであんまわかんないんですけど。
その種類がね。
その種類がね。ちょっとあんまわかんないですけど。代入とか。なくせず強いコーチがいて、彼らに並行して思考してもらう。
なるほど。
っていう並列思考ですね。これによって一個の方針で行き詰まっても別のルータから解決方法に到達できるから、難問に対する探索っていうのがめちゃめちゃ効率したと。
これダメなの?こっち行こう。じゃあこういう方法があるな、こう行こうみたいな感じですね。
2つ目が強化学習なんですけど、これは車、自動運転とかに使われてる技術ですね。
これは特に数学定理証明とか多段階問題解決のデータセットを用いて強化学習を追加訓練をしたということなんだけど、つまりその回答ではないんだけど、数学を解くということに関してはめちゃめちゃ頑張って学習したってことです。
じゃあシンプルにその小中って数学頑張ってやりましたみたいなそういうことだよね。
そういうことですね。これをやることによってモデルが長い推論チェーン、長い時間推論できるように最適化したということで、1回に考えられる推論の深さっていうのが向上したらしいと。
なるほど。
だから強化学習すると考える時間が長くすることができるんだっていう発見ですね。
確かに。
3つ目が質の高い回答例を学習すると。これは過去の数学オリンピックで出ためちゃめちゃいい答えを学習すると。
単に回答を暗記させるんじゃなくて、ワンショットでお手本として優れた証明の書き方とか典型的な戦略みたいなのを学習させたと。
だから我々人間も過去問とか解くじゃないですか。で、いい答えとは何かというのをやっていくイメージですね。
人間の勉強方法に似てるね、すごい。
そう、似てるんですよ。これはモデルにとって人間の優秀な答案をインスピレーションとして与える効果を狙ったらしいですね。
なるほどね。
3つ目がチューニングなんですけど、これが面白くて、IMO向けの指示チューニングをしたらしいんですよ。
これはモデルが問題を解くときに、IMO問題の一般的な取り組み方に関するヒントとか法略っていうのをプロンプトの中に組み込んだんだよね。
つまりこれも先ほどの過去問解いて対策を取ろうみたいな感じで、IMOを攻略するためのヒントとか、こういう考え方でいきましょうとか。
なんかあれかね、塾とか行ってる時の塾の先生が、受験は受験対策としてなんか教えたりするじゃん。
それに近い感じかもしんないね。
そうそうそう、そういうふうにチューニングしたみたいな感じですね。
なんかさ、一番難しい問題だけは解かなかったりしたらしいじゃん。
それはきっとその対策として一番難しい問題は解かない代わりに、他のところで満点取ろうよとかってそういう戦略みたいな部分ってことかな。
まさしくです。台本ブレイクですね。
台本ブレイクごめん、言わなかった。
台本ブレイクなんですけど、まさにその通りですね。
あ、そうっすか。
これ今回6問あるって言ったでしょ。5問正解したって言ったでしょ。
これ一番最後の6問目は果てしなく難しいらしい。
らしいよね。そこだけね、僕も見たんですよね。
あ、そうなんだ。で、これはOpenAIの推論モデルもGeminiも解けなかった。
で、部分点数みたいなのもあるんだけど、100点はあげられないけど、ここは合ってるからみたいな。それすらも得られなかったと。
へえ、そうなんだ。
完全なるゼロ点。
完全なるゼロ点、もうタッチ打ちできない感じだね。
タッチ打ちできない感じですね。
ただ、5問目まではいけたと。だからそういったチューニング化されてた可能性はありますね。
そうだよね、なるほどね。
で、最後に長時間の試行プロセスっていうところで、訓練とか推論時にモデルに通常より長い試行時間とか試行回数を与えるっていうやり方ですね。
これ標準のGemini 2.5 ProとかだとIMO問題の3割程度しか解けなかったんですよ。
ただ、ディープシンクモードでやるとほぼ5問全て時間内に解き切るまでに性能が飛躍してるわけですね。
ディープシンクモードすごいね。
ディープシンクモードが多分すごいんだよね、これ。
で、オープンAIの研究者もあるモデルは数秒しか考えない。高度なモデルでも数分。
それに対して今回のモデルは何時間もかけて考えると言ってんで、
より長い試行のスケールっていうのが難問解決の鍵になったということを言ってると。
なるほどですね。
だからAppleの論文だと、どれだけトークンリュー与えても考えないと。難しかったら無理だと。
考えるの放棄するって言ってたもんね。
考えない放棄するっていうこともやってたんですけど、やっぱりちゃんとチューニングしてやると考えてくれるっぽいですね。
だから要は放棄するなよと、しっかり深く深く考えろよっていうふうに多分チューニングしてあげてるってことだよね。
そうですね。
ただのチューニングだけではないとは思うんですけど、やっぱAppleがやった論文って標準モデルに対しての研究なんだよね。
だからモデル開発してる人たちが独自にチューニングをして本気出したらやばいんだぜっていう。
だから良い対象の研究だよね。
Googleからすると、いやAppleさんあんたが作れないだけでしょみたいな感じだよね。
いやいや本気出したら小暮れでいけますよみたいな。
いやバチバチでいいねみたいな。
これは僕もびっくりしました。
これちなみになんですけど、今回の数学オリンピック、35点っていうのは金メダルの最低点なんですけど、
人間の参加者でもこの点数以上取れたのは630人受けたんですけど、630人のうちの10%しかいないんだよね。
少ないね。
67人。だからAIが上位10%の人間と肩を並べたと言っても過言ではないと。
確かにそういうことだね。
感じたんだけどさっきもタスキが言ったように、解けたのは6問中5問ですと。
最後の6問はめちゃめちゃ難しいと。
そういった意味でいくと今回のAIは人類のトップ層にはまだ及ばないけど十分堂々の土俵に立ったと言えるかなという感じですね。
そうだね。戦うことはできるようになったって感じだよね。
ただやっぱその最終問題ってすごい想像力とかが必要みたいで、こういうひらめきとか柔軟性は以前やっぱ人間の方がリードしていると。
なるほどですね。
だからタスキが前に話したようにクリエイティブなことは人間の方が得意だよねっていうのは以前まだまだというところですね。
また今回明らかになったのは最新の特別チューンされたAIモデルと現行の汎用モデルの間っていうのは相当の開きがあるんですよね。
だから実際のジミーの2.5プロ、スマホとかでもPCでも使えますよねアプリでも。
これはメタの評価プラットフォームのテストでIMO2025の問題に挑戦したら19点だったんです。
あれ35点取ったんじゃないのみたいな。
っていうことはやっぱりこのチューニングの能力、特別な追加訓練とか工夫とかっていうのがどれだけすごいかっていうことを示してるわけですよ。
確かに全く別物ってことだもんね。
そうなんですよね。だから逆に言えば皆さんの今使えるジミーの2.5プロで解かせてもやっぱり大して解けないんですよ。
ということはですよ、やはりAIは補助輪であるっていうのはやっぱり変わらないですね。
誰がどういうふうな使い方をするかっていうところでこれだけ変わるってことだもんね。
そうなんですよね。
面白い。
今回の金メダルを取るためにこの数学オリンピックという競技を達成するためにっていう改造度が超高い優秀な人がチューニングしてるわけですよ。
だからいけたっていうだけ。
これって超優秀なビジネスマンがこういうふうに資料を作って厳密に言えばいいものできるわけじゃないですか。
それって一緒なんですよね。
確かにそういうことだね。
だから自身の業務の改造度が高くない限りパフォーマンスは引き出せないっていうことの証明でもやっぱあるなっていう感じなんですよね。
またIMOの主催者側も提出された回答が完全正解であるってことは確認したと。
ただモデルやシステムそのものの検証まで行ってないって言ってて。
つまりAIがどうやってその回答にたどり着いたかっていうのは以前ブラックボックスなんですよね。
怖いよね。ずっとその辺怖いよね。
そうなんですよね。これ怖いじゃないですか。
なんでブラックボックスなのかっていうとトランスフォーマー型っていうやはりこのアーキテクチャ。
この今のAIの土台となっている技術っていうのがどうしてもブラックボックスになってしまうんですよね。
で来週か再来週かちょっと僕の別の回でこのトランスフォーマー型に変わる新しい技術っていうのをね今度話していきたいなと思うんですけど。
やっぱこのブラックボックスであるというのは非常に厄介なんですよね。
でもこれをもしかしたら解決できるかもしれないっていう今ね目がちょっと出てるんですよ。
なるほどね。
はい。なのでこれはねちょっとまた別の回で楽しみにしていただけたらなと。
いや楽しみですね。
思うんですけど。
ただやっぱね依然としてモデルの性能は伸び続けてるなとも思うし。
やっぱ能力の高い人間がAIを使いこなすと到底もう追いつけないレベルになるなっていうのも事実だなと思ったというそんなニュースでしたね。
確かに。
はい。
それではエンディングでございます。
これ実際ねオープンAIのサムアルトマン、サムちゃんもオープンAI創業当初はこんなことが現実的だとは思えなかったと。
もう夢だったと。
もうこの10年間でここまで行ったのは本当にすごいことだって感動したと言ってて。
でGoogleディープマインドの開発者もこの1年で銀メダルから金メダル基準へのこの飛躍っていうのは驚異的な進歩ですと。
で両方とも開発者たちはAIが非形式的な領域で人間並みの高度推論ができるようになったと。
ちゃんとその推論ができるようになったよねっていう風に成果を位置づけてるんですよ。
でもそれを受かった見方するとそれはパターンマッチングだろうとかちゃんと推論できないんじゃないかというとこもあるわけですけど、
今回の発表をいろいろ見るとデータ汚染ちゃんとされてないし、ちゃんと推論できてそうだなって感じしますよね。
そうだねちゃんと推論できてそうだなって思うし、
そのチューニングに関しても受験攻略みたいな感じである意味人間らしい動きな感じというかさ。
難しい問題解かないで簡単な問題だけやってとかってさ、戦略的に受験するじゃん人間も。
なんか別に同じような動きができてるなっていうのは感じるよね。
そうですね。だから一番最後の難しい問題は多分アルゴリズム渡しても解けないと思うんだよ。
だからそういった意味で原則はあんまり変わらないと思うんだけど、
今のモデルでもチューニングして極めたらここまではできるようになるっていう時点で、
なんかもうめちゃめちゃすごいことだなってシンプルに思うよね。
思うね。さらにモデルが進化した時どうなるのって話だもんね。
そうなんですよね。今回のトランスフォーマーじゃなくて新しい型、新しい技術が生まれた時にまたとんでもないことになるなと思うと、
やっぱりモデルの進化ってすごい早いよね。
本当に早いね。
我々収録前にさチャットGPT3.5そういえばいつ出たっけみたいな話したじゃないですか。
2022年の12月ですよ。今3年まだ経ってないですよね。2年半ぐらい。やばくないですか。
確かにね。なんかもっと前じゃなかったっけって感じるぐらいの速度感だよね。
2年半ですよ。まだ中学校入学して卒業してないですよ。
確かに。
っていう中で最初新橋にはこんな飲食店がありますっていう嘘をたくさんねカルシネーションだらけだった3.5から
数学オリンピックまで行っちゃうのもね。
え?みたいな。
確かに確かに。
ただ確率で出してるだけだったあいつがえ?ってなりますよね。
そうだね。
だからもうこれがねただの右肩上がりではなく指数関数的に伸びていっているっていうのもね怖いですよね。
怖いですね。
で、ブラックボックスっていうね。
このブラックボックス問題は解決しようとしている研究者がいっぱいいるのでここもきっと解決されるだろうなって感じはしてますね。
そうですね。その辺の進化はちょっとできたよね。面白そうですね。
それでは番組の感想をお待ちしています。感想はXでハッシュタグAI未来話でぜひ投稿してください。
スポーティファイのコメント機能や概要欄に記載の頼りフォームからもお待ちしています。
またお聞きのPodcastアプリでAI未来話の番組フォローとレビューもお待ちしています。
現在Appleテクノロジーランキングで10位前後です。応援のほどよろしくお願いします。
来週も木曜朝7時1分にお届けします。通勤通学の30分にAIの未来をキャッチアップしていきましょう。
それでは本日もありがとうございました。
ありがとうございました。