1. AI未来話
  2. #2-1 Appleのポジショントーク..
2025-06-19 27:50

#2-1 Appleのポジショントーク?推論モデルはただのパターンマッチング

spotify apple_podcasts

毎週木曜朝7時、AIメディアを運営する共同経営者の2人が生成AIのメガトレンドや論文、ユースケースを30分で解説。経営者視点だからこそ分かるAIの未来を「ながら聞き」でキャッチできるPodcastです。

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
⭐️2ndシーズンへのご意見はこちらから⭐️

https://forms.gle/MLGTqJFajmJaSVhs6

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️AIメディア MiraLab AI

⁠⁠https://miralab.co.jp/media/⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️番組へのお便り↓

⁠https://forms.gle/j8sJ1v1hH5JSaZm97⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️記事で読みたい人はこちらから↓

⁠https://miralab.co.jp/media/category/special_feature/⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️おすすめAIガジェット #PR

最強ガジェット「PLAUD NotePin」

詳しい記事はこちらから↓↓

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️公式X

AI未来話

⁠https://x.com/ai_miraitalk⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️Podcastリンク

Spotify

⁠https://open.spotify.com/show/4YQI4JvX83mURM6xywKn5w?si=34b96be128584bad⁠

Apple

https://podcasts.apple.com/jp/podcast/ai未来話/id1733462439?uo=2⁠

LISTEN

⁠https://listen.style/p/aifuturetalk⁠

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

サマリー

Appleが発表した論文について、推論モデルLRMの特性や限界が考察されています。AIの推論能力を評価するためのデータ汚染の問題や実験結果を通じて、AIとの効果的な付き合い方が提案されています。このエピソードでは、Appleが推論モデルの限界を指摘し、単なるパターンマッチングにとどまる可能性が議論されています。特に、モデルの思考プロセスやアルゴリズムの実行能力の制約を通じて、汎用的な問題解決能力の未熟さが強調されています。また、AppleのAI技術と推論モデルについて、AGIの実現可能性や今後の展望、オープンAIのモデルに対する評価が重要なテーマとなっています。AIモデルのベンチマークやユースケースへの適用方法についても考察が行われています。

00:03
AIメディアMiraLab AIの平岡です。
同じくMiraLab AIのたつけです。
この番組は、AIの最新動向をもとに未来を考察するポッドキャスト番組です。
それでは本日のトークテーマお願いします。
Appleの論文と推論モデル
Appleのポジショントーク?推論モデルはただのパターンマッチング
先日の論文ですかね、これは。
はい、ということで本日はAppleから発表された論文についてお話ししていきたいと思うんですけど
めちゃめちゃ話題になりましたよね。
そうね。
一応この論文は大規模推論モデル、LRMですね。
LLMじゃなくて、LRMと呼ばれるものについて調べた内容で
今日収録日が6月の11日なんですけども
朝起きたらね、O3 Proさんが発表されていたんですけども
ある意味タイムリーもタイムリーだね。
そうなんですよね。
O3 Proも推論型モデルというところで
この推論モデルっていうのが本当にちゃんと推論してるのっていうのを
ちゃんと調べたっていう論文なんですよ。
論文が出た後、XとかだとどうせAppleはAI開発うまくいってないから
AIの評価を下げるためのポジショントークしてんだろうみたいな
そういうかなり穿った感じの話がいっぱいあったと思うんですけど
それってね、僕がするとちゃんと論文読んでないんだろうなって感じがしましたね。
なるほどね。
今回のポッドキャストを撮るために論文を読んだんですけど
全然やっぱこう意図が違うというか
そういう意味で言うと僕もその論文そんなちゃんと読んだわけじゃないんで
ちょっと興味ありますね。
そうですよね。
なのでAI未来話のリスナーの皆さんには
そんな斜めからの意見じゃなくて
ちゃんと公平な視点でしっかり論文内容を理解してもらいたいなと思うので
今日はちゃんと解説していきたいなと思います。
なるほど。
実際この論文ちゃんと理解すると
AIとの付き合い方とか
シンプルに使い方がうまくなると思います。
なるほどね。
このモデルの性質、限界っていうのを知れるので
場合によっては推論
こういう場合は標準型モデルの方がいいとか
その本質をちゃんと理解できるっていう感じなので
最後まで聞いていただければと思います。
じゃあまず最初にLRMというモデルの特徴なんですけど
最終的な答えを出す前に
人間のような思考のプロセスをちゃんと生成するっていうことですよね。
今こういうことを考えて
ああいうことを考えてって出てくるじゃないですか。
論文内ではこれをチェーン・オブ・ソート
よく聞きますよね。
思考連鎖と自己反省っていう風に表現してます。
実際このチェーン・オブ・ソートとか
自己反省を取り入れることによって
様々なベンチマークテストを
いい結果を出してきたと
そういった話はシーズン1でもいっぱいしてきたと思うんですけど
実際推論モデル出たときはすごかったからね。
すごいですよね。まだ1年経ってないですけどね。
確かに。
こういうモデルっていうのは
いずれ汎用的な人工知能
つまりAGIに到達するための
重要なステップなんじゃないかっていう風に
一部の研究者からも期待されてるわけなんですよね。
我々もそういう話したしね。
ただここで注意しなきゃいけないのが
データ汚染の問題
このベンチマークの問題なんですよ。
なるほどね。
ベンチマークっていうのは
数値が高ければ高いほど
正確だなとか
頭がいいとかって思うじゃないですか。
実は現在のベンチマークっていうのは
データ汚染っていう問題を抱えてるんですよ。
データ汚染?
このデータ汚染って何かっていうと
トレーニングデータの中に
テストで使われるデータそのものとか
非常に類似しているデータが
含まれちゃっているっていうことですね。
なるほどね。
めちゃくちゃ簡単に言うと
テストでカーニングしてるようなものですよ。
はい、テストやります。
はい、答え見て。
はい、答えました。
はい、正確ですよねみたいな。
それもうベンチマークだってないよね。
そうなんです。
とか、カーニングまでいかなくても
あれ、この問題
あの構造と似てるなみたいな。
過去問やったけど
その過去問がそのまんま出てくるみたいな感じだよね。
ああじゃなくて
違いますか。ごめんなさい。
そのパターンなんだけど
過去問で解いたから
この問題は内容は違うけど
パターンは一緒だっていうパターン。
なるほどね。
だから同じような解き方すれば解けるよねっていう
いわゆるパターンマッチング
みたいな感じなので
本当にゼロから考えてるっていうわけじゃなくて
単なるパターンマッチングとか
シンプルにその記憶で解いている
っていうケースが結構あるんですよ。
だからそうすると
LRMがどれだけ汎用的な
推論能力を持っているのかとか
そもそも根本的な能力とか
限界とかっていうのは
正確に理解するのできてないですよねっていう
そういう問題提起なんですよ。
おっしゃる通りだなって感じではありますね。
ただですね
データ汚染って本当ってなるじゃないですか。
だからまずこの論文では
データ汚染かどうか
本当にそれが起きてるのかどうかっていうのを
調べたんですよ。
数学ベンチマークである
AIME24っていうものと
25っていう2つの問題を
用意したんですよ。
論文によると25の方が
新しくて
簡単な問題です。
24の方は古くて
難しい問題が多いと。
実際に人間が解きました。
そしたら25の方が成績いいです。
簡単だからね。
ってことは推論本当にできるなら
同じように
25の方が正答率いいはずだよね。
でも実際には
難易度が高いはずの24の方が
成績が良かったと。
古い問題だから。
そうなんです。
簡単で新しい25の方が
成績が悪かったと。
これはもう確証ですね。
つまりこれは24の方が
モデルの訓練データに
既に含まれてしまっていて
データ汚染されてる可能性があるんじゃないか
って話になったわけですよ。
じゃあそうなってくると
データ汚染がもうない状況で
純粋に推論能力調べたくなるじゃないですか。
本当のとこどうなの?
君の力は?
知りたいよね。
推論能力の実験
そこで今回の研究ではパズルを使って
モデルの推論能力を確かめたということですよ。
なるほど。
研究では4つのパズル
っていうのが用意されて
灰野の塔、チェッカートビー、
川渡りパズル、
ブロックの世界っていう4つのもの。
詳細はちょっと省きますけど
どれもボードゲームみたいな形で
ルールが与えられて
その場で推論しながらゲームをやってみてください。
っていうもの。
だからイメージとしては漫画でいうと
駆け狂いとか
ジャンケットバンクとか
嘘食いとか
全く知らないゲームのルールを
急に聞かされて
今からデスゲームやってくださいみたいな。
突然オリジナルゲームにスタートしましたみたいな。
そういう状況を
AIに与えて
本当のG頭の良さっていうのを試してみると。
実験を行ったんですよね。
今回は実際に
灰野の塔の研究結果を
紹介していきたいと思います。
灰野の塔
見たことあると思います。
これを見て
訓練データに含まれてねって
僕はちょっと思ったんですけど
画像これ
見たことあるでしょ。
皆さんもググってほしいんですけど
灰野の塔
見たことあると。
クイがあって
異なるサイズのディスクみたいのが
あるんでね。
クイにドーナツみたいな感じで入ってるんですけど
このディスクを
クイから別のクイに移動させていく
古典的な再起パズルっていうものですね。
ルールは
一度に一枚のディスクしか動かせないとか
常に一番上のディスクしか
動かせないとかそういうルールがあるわけですよ。
この灰野の塔の
難しいところっていうのは
ディスクの数なんですよ。
ディスクが増えれば増えるほど
手が多くなっていくんだよね。
指数関数的に。
なので評価の目的としては
推論能力、プランニング、
最適的思考、ワーキングメモリー
制約重則といった
いろんなものを試されるような
すごくシンプルなんだけど
めっちゃ難しいゲーム。
ディスクが10個あると
大体100手くらいあるんですよね。
すごいね10個で。
この評価方法なら
この線を比較的避けられるし
問題の複雑さもこっちで自由に
調整できるわけだよね。ディスクの数を
増減させることで。
増やせば増やすだけで難しくなるわけだもんね。
論理的かつアルゴリズム的な
推論能力が評価できる
ということで
偶然いい手を打ったとしても
それは単に
結果でしかないじゃない。
だから大事なのはどういう思考で
その結論にたどり着いたのかっていう
プロセスを知るための実験だから
このパズルを使った実験っていうのが
採用されたっていう早期ですね。
前提条件として
標準型モデルと
推論型モデル両方にやらせるんだけど
同じトークン数を
与えてます。
同じトークン予算
6万4千
ここまでは使っていいよっていうのが決まってる。
モデルは
クロードソネット3.7シンキング
とディープシークのR1V1
っていうのを使ってます。
実際に
試行プロセスをさせたところ
様々な能力の限界を
見ることができたんですよ。
お待たせいたしました。
楽しみに待ってました。
まず最初は
ある複雑さを超えると
正確性が完全に崩壊してしまう
っていう結果が見られたんですね。
つまりある一定の複雑さ
っていうのはディスクの数なんですけど
ディスクの枚数が8枚以上の
倍に起きたそうです。
8枚だと255
なんですけど
そこから8枚
9枚10枚って増やしたんだけど
どれもすべて
正確性が完全崩壊した
というとき。 完全崩壊した。
もうお手上げ状態。
全然ダメみたいな。
これは最新の
推論型モデル使っても
一定の問題の難しさっていうのを超えると
完全にゼロになるっていう
ことを証明できたんだよね。
まさしくもう限界って感じだね
本当に。 そう。つまり
思考プロセスっていうのを生成したとしても
根本的な限界があるっていうことは
やっぱ明らかになったっていうところですね。
さらに面白かったのが
問題の難易度が高まっていくと
最初はモデルもね
よし難しいなこれ
もっと考えようっていう感じで
トークンをどんどん使っていくわけですよ。
つまりこの思考の努力を
たくさんするんだけど人間もそうじゃない。
めっちゃ考えるじゃん難しい問題って。
調考してねそれこそね。 そう、調考するじゃないですか。
で、この難易度が一定の限界に
達した時に突然
考える努力を減らし始めたらしいんですよ。
えーなんかすごい人間っぽいね。
そう。あ、もうこれ無理だわ
解けないわって感じで諦めちゃうんですよ。
しかも
利用可能なトークンっていうのは
まだまだ予算上全然残ってるのにも
関わらずそれを使おうとせず
途中で諦めるっていう。
えーめっちゃ面白い。
推論モデルの限界
まあ人間にもさこういう状況めちゃくちゃあるでしょ。
えーなんかむしろ。
これAIがさすごい人間っぽく振る舞ってんのかな
っていう感じでさめちゃくちゃ面白いですよね。
うーん面白い。人間もねもう
絶対解決できない困難な
状況に来るともう急にさ
現実逃避じゃないけどさ考えることやめるもんね。
そう考えることやめるじゃないですか。
人間じゃんと思って。確かに。
逆にね。で他にも
興味深いこと分かってて
じゃあもっと簡単にしてみたらどうだと。
ちょっと難しすぎたよねって思って
1枚から3枚にしたんですよ。
1枚から3枚なんで7点くらいしかない最大。
あーなるほどねめっちゃ簡単だね。
超簡単。なんですけどこの場合
過剰思考っていう現象が確認されたんですよ。
へー過剰思考。
具体的には
比較的簡単な問題の場合
推論モデルが
思考プロセスをする早い段階で
もう答え見つけちゃってるんですよ。
答え見つけてるのにその後も
何故か間違った別の答えをね
探し始めちゃうっていう。
なるほどね。
過剰に思考続けてしまうみたいな。
これが正解だっていうのを
早めに見つけてるのに
いややっぱ違うかも。こっちかもみたいな。
そんな簡単なわけない。
そうそうそう。すっげー考えちゃうみたいな。
へー。
これも人間よくやりますよね。
確かにね。もっとシンプルに考えろよみたいなこと
仕事とかでもあるもんね。
東大元暮らしみたいな感じで。答えはもうそこにあるのに
ずっと探し続けちゃうみたいな。
AIの場合は無駄に
管理ソースを消費してしまってるから
効率性の面ですごく問題になるよね。
しかも
冗長な出力を生成したりとか
思考が進むにつれて
解決策の精度が低下しちゃったんですよ。
なるほどね。
で不安定に変動したりする傾向
っていうのが見られたようで
その結果ですよ。最終的に
通常の推論プロセスを
持たないモデルよりも
精度が劣るっていう
ケースが発見されたと。
えーそうなんだ。
アルゴリズムの実行能力
だから簡単な問題とかは
推論しない方が精度いい。
でも確かにオープンAIも
日常的なタスクは
4オーとか言ってるけど
でも結構プロプラントが契約してると
全部O3でええやんみたいな
ニュアンスになっちゃうところあるじゃん。
実際やっぱりモデルの性質とみると
そうじゃないってことだよね。
そうなんですよ。推論モデルは
ここには使わない方がいいんですよね。
精度値上げ。
簡単なのと難しいのになったので
じゃあ中程度ぐらいの
難易度だったらどうだっていうところで
ディスクの数を4枚から
7枚ぐらいにしたんですね。
15手から127手ぐらいの
中程度の難易度に
設定した場合
初めて試行プロセスを持たない
一般的なLLMに対して
推論型モデルが
優位性を示し始める領域になったと。
なるほどね。
つまり中ぐらいの問題だったら
推論モデルが一番
パフォーマンス発揮したよと
いうことですね。
推論を継続していくことによって解決策の精度
っていうのをわずかに改善する傾向が
見られたと。
面白いね。
まとめると難易度か簡単な問題っていうのは
普通のやつ使った方がいいし
中程度なら推論モデルを
使った方がいい。ただ難易度が
高いものはどっちのモデルも
全くはが立たなかったっていう。
まだまだってことですね。
完全に崩壊してしまうと。
しかも考えることをやめちゃうということですね。
で、もう一個
めちゃめちゃ興味深い話なんですけど
これ。その高難易度の問題
解けなかったじゃないですか。
なんとかして答えさせてあげようと。
明示的にアルゴリズムっていうのを
プロンプトで提供したんですよ。
でも全くダメだったっていう。
えーそうなんだ。
料理でいうと、レシピ渡してるのに
いやーこのレシピむずいから無理って
言って解けないみたいな。
そうなんですよ。
アルゴリズムをプロンプトで渡しても
完全崩壊するっていう。
つまりモデルが解決策を
見つける能力だけじゃなくて
指示された論理的手順を
実行する能力にも限界がある
ってことが分かったと。
推論以外にも
かなり限界点っていうのが見えたわけなんですよね。
でも確かにいくらなんだろう
料理普段やってますって人でもさ
プロの料理人になってるのさ
めちゃくちゃ難しいレシピ渡されたらさ
いくらなんでもレシピ渡すと無理みたいになるような
イメージなのかな。
かもしれないですね。
だから推論型モデルってさ
それっぽいことも言うし、めっちゃ頭いいし
すげーってなるんだけど
実は結構限界あるんだぜ
っていうところが分かったっていう論文なんですよ。
なるほどね。
ただですね、今ハイノの塔の
話したと思うんですけど
これパズル変えたらどうなんだっていうところが
この論文の肝なんですよね。
なるほど。
そうするとパズル間での
推論の一貫性っていうのは
書いているっていうことについて
発見されたと。
一貫性がないってこと?
はい。
これどういうことかっていうと
じゃあハイノの塔では100点近くまで
エラーなしで実行できたじゃないですか。
クロードさんっていうのがね。
ただ別のパズル問題で4点ぐらいしかない
もうめっちゃ簡単なやつ
っていうのは絶対に失敗するみたいな。
マジかよ。
パズルによっての
難易度っていうのは一貫性がなかったんですよ。
え、これできたのになんで
お前これできないのみたいな。
えーそうなんだ。
そうなんですよね。きっとこれは
モデルのトレーニングデータに
含まれてたんじゃないかみたいな話なの。
じゃあヒラのこれトレーニングデータ
含まれてんじゃねえの予想は結構
あってたってことだよね。
そうあっててやっぱハイノの塔って
みんな何回一回ぐらいは見たことあるから。
オンライン上にデータがすごいあるんですよね。
あそこから推論してたように
見せてたみたいな。
でも実際にそのデータが少ないような
パズルゲームっていうのは
もうマジすんごい簡単でも解けないみたいな。
えーじゃあ推論できてないね。
そう。だから推論できて
汎用的問題解決能力の未熟さ
ないんじゃないか。限界があるよね
っていうところは
やっぱね、かなり挙動としては
ありそうなんですよ。
具体的に言うとリバークロッシング
っていうパズルがあって
わずかの11手で
溶けるはずのリバークロッシングは
絶対失敗するみたいな
話だったらしいですね。
聞いたことないもんね。
全く聞いたことない。
じゃあつまりですね、これらの発見っていうのは
どういうことが言いたいのかと言うと
汎用的な
問題解決能力っていうのは
全然まだまだできてないよ
っていう話なんですよ。
で、僕最初に言いましたよね
この推論型モデルってのは
AGIに近づくためのものだと。
つまりAGIって汎用型人工知能じゃないですか。
つまり汎用的に
ちゃんと考えられないと
AGIっていけないよね。
でもこの結果
全然考えられてない。
パターンマッチングで解いてるパターンが
めちゃめちゃ多そうみたいな。
だから根本的な改善が
必要ですよねっていうことを
Appleは言いたいって感じですね。
なるほどね。
でもAppleさんいいとこに目つけてるね。
それは。
だからただのパターンマッチングだから
AI全然ダメだぜっていうポジショントーク
とかじゃなくて、むしろ
AIを発展させるために
こういう限界があるから
次はこういう風にやっていこうよっていう
むしろポジティブな論文なんだよね。
これって。だから実際に
読んでみると全然印象変わったなって感じ。
確かに印象変わった。
だからXでそういう風にやいうしてる人は
全員フォロー外した方がいいです。
こいつら適当なこと
言いやがって。
ほんと全然読解せずに
適当なこと言ってるなって思いますよね。
私なんか個人的にやっぱモデルの
使い方もなんかちょっと変わるな
っていう。やっぱ結構推論ってやっぱ
最強だなと思ってたからさ。
なんでもかんでも推論でって思ってたけど
やっぱそんなことないなっていうのを
改めて感じるよね。
まあまた同時に
すごい人間っぽい挙動もするな
とも思ったよね。
考えるのやめちゃうとかさ。
なんでみたいな。
普通考えるでしょって思いがちなんですけど
そのトークンギリギリまで使えよ
みたいな。だから
そのトークンの予算を与えてるにも
関わらずトークンを使い切らない
っていうこともこれ限界点なんですよ。
つまり
推論型能力の限界ってそういうことで
いわゆるトークン使い切れないんだったら
推論させることがそもそもできてないよね
っていう。ああそういうことだね。
これをどれだけトークン数増やしました
ってしても解けないものは解けん。
みたいな感じになっちゃうわけですよ。
ああなるほどね。
だから何が言いたいかっていうと
人間ってめちゃめちゃ難しい問題で
全然解けないものでも
気合でなんとかしようとするじゃないですか。
つまりこの論文何か言うと
AIには気合が足りねえって言ってるんですよね。
ああなるほどね。面白い視点だね。
全然もっと考えられるのに
考えるのやめるっていう行為って
気合ないよね。
気合足りてないよね。
脳の上限全部使えよみたいなね。
だからこの気合が
AIに身につかないと
推論能力の限界って突破できないんですよね。
ああなるほどね。
だってアルゴリズムで答え渡してるのに
答えられないわけですよ。論理的に
手順が踏めないわけですよ。
だから様々な問題限界っていうのが
見えてるわけなんですよ。
これを知った上でO3 Proを
ちょっと使ってみたいなって思ったんですよ。
いやあめっちゃO3 Proに繋がりますね。
そうなんですよ。たまたまですけど。
たまたまですけどね。朝起きて気づいた繋がり。
朝起きてたまたまですけど。
ああでもそうだね。O3 Proの見方も変わるね。
これでもうO3 Proがあれば
何でもいけるみたいな。
そんな単純な問題じゃないよっていうのもね
改めて理解できるし。
そうなんです。だからめちゃめちゃ難しい問題っていうのは
意外とベンチマークを見ただけでは
何もわからない。
プレーニングデータの膨大さ
イコールベンチマークみたいな感じになっちゃってるから
思考型の
評価をするんだったら
全然当てにならないんだよね。
ベンチマークって。
ベンチマーク問題は4.5の時もあったじゃん。
あったね。
感情指数みたいなものって
今のベンチマークじゃ測れないよねとか
ベンチマークにない
能力がめちゃくちゃ高い
って可能性もあるわけじゃん。
だからベンチマーク問題は結構
深いよね。
AIモデルのユースケース
だから実際にユースケースの方が
すごく大事で
たくさんいろんな使い方をさせて
挙動を見て特徴を捉えていく
っていう方がAIの使い方としては
すごく上手になる
やり方だと思うので
この使い方したらどうだろうとか
そういう発想の方が
AI使いこなしてる感あるなって
思いますね。
だからAGIはマルチエージェント
みたいな感じでそういう風に
AIを使うのが上手いAIみたいな
流れになっていくのかな
きっと。 どうなんですかね。
話聞いてると僕は個人的にそういう感じかな
と思った。だからその気合担当みたいな
AIもそのうち出てくるんじゃない。
なるほどね。 もっとお前
思考足りてない働けみたいな
ケツ叩く係みたいな
ケツ叩いたとこでもう考えようとしてないから
そうね。だから意味ないのか
オープンAIの評価
そうですね。
推論型モデルがそもそも
ちゃんとトークン使い切って考えられるように
できるレベルにならないと
やっぱブレイクするって起きないよね。
なるほどね。 だからアップル的には
2027っていうのは多分来ないと思う
って言っててAGIは
もうちょっと遅いんじゃないかと
2010年とかっていう風な話もしてる。
なるほどね。 でもサムアルトマンは
2027ぐらいしかもちょっと
早くなるかもみたいな話もしてて
そもそもAGIとはみたいな定義
はありますけどね。
汎用型人工知能
汎用的に問題解決できる
っていうところっていうのは
今のAIじゃまだまだちょっと難しいと
ちなみに
余談なんだけどモデルの選定基準
これオープンAIの
O3も入ってたんですけど
O3も実際に
テストはさせられたんだけど
今回の評価には出てこなかったんだよね。
これ何でかっていうと
クロードとかディープシークはどういう風に
試行したかっていうのがちゃんと見れたんだけど
オープンAIは見れなかったんだって。
えーそうなんだ。 ちゃんと。
だから評価ができなかった。
じゃあブラックボックスってことね。 割とブラックボックスかもしれない
っていう感じですね。
なるほどね。じゃあ試行過程を見たら
これは過去にやった問題だからこれと一緒だね
とかっていう試行までしてる可能性もあるわけだもんね
もしかしたら。 現状で言ったら
今の推論問題って全部そうなんですけど
逆に言うと
オープンAIのモデルに関しては
ブラックボックスだからもしかしたら
到達してる可能性はあるっていう。
あー逆のそういうことか。そっちのパターンか。
この論文はあくまでクロード3.7と
ディープシークが
ベースになってるので
オープンAIだけはちょっと違う可能性はある。
独自のベンチマークの提案
だからこそサムちゃんも
2027を疑ってないっていうのも
そういうとこにあったりするかもしれないのか。
なるほど。面白いですね。
だから推論型使うならやっぱり
オープンAIのGPTがいい。
GPTモデルがいいのかもしれない。
っていう話もあるんですよね。
なるほどね。
ただ根底的にはさっき言ったパターンマッチング的な
推論の仕方っていうのが
傾向的に多く見られたので
それも加味した上で使ってみるといいんじゃないか。
なるほど。
ベンチマークに左右されずにいろんな使い方をして
やっていけたらいいんじゃないかなと思います。
それではエンディングでございます。
どうでした?
いやもうシンプルにめっちゃ面白かったですね。
良かったです。
シーズン2一発目ですけども。
たまたま最新動向と被ったおかげで
ちょっとシーズン2っぽくなかったかもしれないですけど。
そうね。
なんかだし、
この論文って確かあれだよね。
この前のAppleの開発者会議の直前ぐらいに出た論文だよね。
そうそうそう。
こんな論文出しといて開発者会議のAI機能が
あんの程度かっていう。
それは言っちゃダメです。
ごめんごめんごめん。
それはダメですよ。
ごめんごめん。っていう風に感じるところもありつつだけど。
この論文自体はすごい面白いね。
そうですね。非常にいろんな資産に富んだ論文だったと思いますね。
これを元に
たすけさんO3 Pro
どうやって使いたいとかあります?
たすけ O3 Proの
使い方っすか。
なんかそのペンチマークの
検証的なことを
自分たちでやってみるとか。
あんまそこまで
研究してる人以外ってやらないじゃん。
でもやっぱ我々メディアですから
独自の
ベンチマークみたいな検証とかさせたりとか
したらすごい面白そうだなと思いましたね。
確かにそれ面白そうですね。
通常のベンチマークだったら
数学とか科学とか
コーディングとかああいうところになりますけど
そういう答えがないような
ものをベンチマークにしてですね。
そうそうそう。あとうちらがユースケースとして
使ってて、なんかこのモデルって
こういう使い方するときすごい
しっくりくるんだよなって思ったら
それに関連するようなもので
やらせてみるみたいなのとか。
見つけられたらめっちゃ面白いですね。
それこそ同じユースケースと全部のモデルで
やって性能評価測るとかでも
面白いかもしれないし。
あのさXとかでもさ
例えば日暗のスレッド作らしてみたとかさ
モデルが出るたびに
変な問題解かせたりするじゃないですか。
ああやってるね。確かにある意味それと同じようなことかもね。
そういう感じですよね。
笑いのセンスベンチマークみたいな。
なんかそういうのを作って
やってみたいですね。
笑いってじゃあ何が面白いのかとか
っていうのを数値化するのって難しいじゃん。
そうですね。
でなるとやっぱりベンチマークが今の世の中のものに
偏っていくっていうのをちょっと
理解できるなっていう気もする。
独自だからいいんじゃないですか。
俺たちが面白いと思ったら100みたいな。
でもいいねそれは。
俺は面白いと思ったけど
たしか面白くないと思ったら80みたいな。
確かに確かに審査員としてね。
M1とかそういうもんだもんね。
審査員が面白いかどうかって決めてるわけだからね。
M1みたいなもんですか。
確かにじゃあミラーロボのMでM1グランプリやりますか。
確かにそれ面白いかもしれない。
でもちょっといいねそれ。
笑いでやるってあんまりいないもんね。AIで笑いにっていうさ。
確かに。
われわれでやりましょう。笑いベンチマークM1グランプリ。
分かりました。じゃあ笑いベンチマークお楽しみください。
ちょっと待って。
それでは番組の感想をお待ちしています。
感想はXでハッシュタグ
AI未来話で
ぜひ投稿してください。
Spotifyのコメント機能や概要欄に記載の
お便りフォームからもお待ちしています。
またお聞きのPodcastアプリで
AI未来話の番組フォローとレビューも
お待ちしています。
現在Apple Technologyランキングで第6位です。
応援のほどよろしくお願いいたします。
来週も今日朝7時1分に
お届けします。
また来週の30分に
AIの最新トレンドをキャッチアップしていきましょう。
それでは本日もありがとうございました。
ありがとうございました。
27:50

コメント

スクロール