まずさっきから言ってますけども、ベンチマーク、ベンチマークと。ベンチマーク何なんだという話なんですけど、これ別にAIだけの言葉ではなくて、いろんなところで使われてるよね、ベンチマークって。
なんかパソコンのスペックとかね。
GPUをね、どっちがいいんだみたいなね。
スマホとか、パソコンとかだとね、よくベンチマークって言葉出てくるじゃない。
出てくるね。だから僕はね、昔Android使ってたんだけど、iPhoneに乗り換えたきっかけがもうベンチマークテストの結果よ。
あーはいはいはい。
もうずっとね、iPhoneはね、なんかしょぼいと思ってたの。なんか初心者よでしょみたいな。
なるほどね。
なんかAndroidやたらとスペックがさ、無駄に高い機体とかいっぱい出てたじゃん。
だからAndroid最強でしょって思ってたんだけど、ベンチマークテストの結果でさ、iPhoneめちゃめちゃスコア高いじゃんって。
それで見て、速攻乗り換えたっていう。
分かりやすいよね。
分かりやすいっす。
だってなんかさ、スマホのベンチマークって確か何万とか何十万みたいな戦闘力みたいなやつ出てくるよね。
うん、戦闘力で分かりやすい。
あれで10倍になってるとか、2倍だとか、そういうのが分かると思うんだけど。
数字は嘘つかないね。
やっぱ定量的な指標が大事なんですよ。
うん、やっぱAIでもそう?
そう。
数字はいいけど実際はみたいなことはない。
いいね、今日その話もするんでね。
そうなの?
さすがカネリオ、もう先取り先取りしてくるんだから。
危ない危ない、あんま喋らんほう。
先取りAIラジオでございますね。
先取りね。
ということで、ベンチマークっていうのは基準みたいなもんですね。
もともとは測量の言葉らしいんだけど。
そうなんだ。
測るときの基準点のことを、その台にマークをつけてたからベンチマーク。
ここを基準に測りましょうねみたいな。
それがそのまま今の言葉になってると。
現代だと比較とか評価のための基準という意味で使われてます。
なるほどね。
LLMの場合はどういう意味のベンチマークかっていうと、
AIのモデルの能力を客観的に比較すると。
そういう標準化されたテストのことをベンチマークテストと言います。
だから今日はこのベンチマークどんなものがあるんだっていうのを知っていただく回なんだけども。
毎度のことだからまずちょっと歴史からやっていきましょう。
真面目にね。
ベンチマークの歴史。すぐ終わるけどね。
もともと2010年のチャットGPTが出てくる前までの言語モデルってすごいシンプルだったのよ。
だから1個の指標しかなかったの。
そうなんだ。
それがパープレキシティっていう指標なんだよね。
パープレキシティってあるじゃんサービス。
そう。パープレキシティっていうサービスあるからややこしいんだけど、そもそもあのサービスはこのAIの指標から取ってる名前を。
そうなんだ。
そう。もともとこういう指標があって、これ困惑度とかそういう困ってる度合いみたいな。
だからどれくらい言語モデルが困ってるか。
困ってるか。
困ってるかを表す、迷ってるかみたいな指標で。
シンプルに言語モデルってさ、その文脈の次の単語を予想するってことを常に繰り返してるんだけど、その次の予想結果が正確に予想できればパープレキシティは低いよねっていうの。
低い。
低い。
困惑してない。
そう。検討違いの単語とかを持ってきちゃったりとか候補がいっぱいあるみたいな。そういう状態はパープレキシティが高いっていう状態だね。
なるほどね。
っていうのでそのパープレキシティっていう指標で高い低いと。
じゃあゼロに近い方がいいみたいなこと?
そうそうそうそう。数式圏やねそういう風になってると。
防御率みたいなねなんか。
そう。ちなみにサービスのパープレキシティの方は人々をそうやって困惑させないように導くんだっていう意味でパープレキシティっていう名前つけたらしいよ。
なんか落ち着けAIみたいじゃん。
そう落ち着かせるみたいなね。困惑させないようにするって意味と、あとAIのその指標であるパープレキシティっていう単語をつけることで専門性も誇示するみたいなね。そういうね2つの狙いがあったと。
いう雑学もちょっと交えつつ。
そうなんだ。
そうそう。
なるほどね。
昔はめちゃくちゃシンプル。そういうただの次の単語を予想するよっていうものだけが指標だったもんね。
ここで競ってたんだけど。だけどですねやっぱこう2020年以降でね。だからGPT-3とかチャットGPTが登場したことで一気にね指標が変わってしまったんですね。
そうなんだ。それさっきの言ってたパープレキシティってあれ言語だけ?
言語だけ。次の単語を予想するっていうその単語をいかにこう的確に予想できるかっていう。
なるほどね。
それだけです。その指標だけね。なんだけどチャットGPTが登場したことによってすごくこの言語モデルが実用されるようになったよね。
だから単純に言葉のやり取りするだけじゃなくてさ。じゃあプログラミングできますかとか。数学の問題解けますかとか。大学の有志できんのみたいな。
この質問に正しく答えられるかなとかなんか癒してくれるかなみたいないろんなタスクがあるわけじゃん。
そうね。画像とか動画とかも。
そうそれも含めて。じゃあさそれって次の単語を予想するとかそのぐらいの指標じゃ足りないの全然。これはもうちょっとパープレキシティじゃ評価しきれんと。
そのLLM。だから言語モデルの能力ってその次の単語1個を予想するだけじゃなくていろんな指標いるよねというところで一気にベンチマークテスト。
だから指標ですねどういう評価をした方がいいのかっていうのがここ数年でバーと進化したのよ。
めっちゃ増えそうだねなんか。
あのめっちゃくちゃある。落ち着かないのこの数はね。
これ見たってわかんないなーって感じだねじゃあ。
そうだからね数もう本当細かいものを入れたら多分数千いくかいかないかぐらい。
そんなにあるの?
ある。公開されてる主要ベンチマークだけ200以上あるの。
なんかさ新しいの出るたびにさSNSとかでさグラフが毎回こうなんか回ってくるよね。
あるあるある。
こんな比較して強いですみたいなさ。でもあれなんかもう切り抜きみたいな感じなのかなって疑ってかかっちゃうよね。
今日はね今日の話聞けばあれが落ち着いて見れると思う。
あーなるほどね。
一応ねああいうSNSで回ってくる主要ベンチマークってのが今あるのよ。
そこはとりあえず一応押さえておきましょうと。
いう話をするんで。
ここがすごければすごいですよみたいな。
そうそうそう。それは何の能力なのかっていうの分かれてるわけ。
で今ベンチマークがいっぱいありますよって言ったんだけど、
逆になんでいっぱいあるかっていうと、
その試さなきゃいけない能力が多岐に渡るからねさっき言ったように。
じゃあ実際その総合的な知識、知能というか知識がちゃんとあるかなっていうのもあるし、
そのプログラミングできますかっていうのもあるし、
最近は推論だよね。高度な思考できますかと。
そういういろんな能力があるから、その能力ごとにベンチマーク用意したほうがいいよねと。
なるほど。
いっぱいあるんだけど、その中でも主要ベンチマークって呼ばれるやつがあるんで、
今日はそれをちょっと今から紹介していきます。
なるほど。
人間のいろんな専門家の人の知識がちゃんと答えられますかみたいな。
これをバーッと全部答えさせて、そのスコアを競うっていうのがMMLU。
これじゃあ結構単純に知識知ってるかどうかってこと?
そう。これはもう単純にLAMの学習の中で知識を持ってるかっていう。
暗記してますかってことね。
そうだね。どのぐらいの広い、でも本当に広い専門性だよね。
百科事典みたいな感じかな。
そうそう。ちゃんとそのぐらいのものを正しく答えられますかっていうのがMMLUと。
なんかもうもはやほぼ満点に近いんじゃないの?
カネリンはもうすぐ座っていいとこついてくるね。
ちょっと隙見せるとすぐいいとこついてくるからね。
ついちゃった?
もう俺が次言おうとしたこと言っちゃうから。
結局これほぼみんないい点数取れるようになっちゃうのよ。能力が上がってくると。
そうだよね。ただ暗記するだけでしょ。
そう。なのでより高度なバージョンが最近開発されて、それがMMLU Proってやつね。
シンプルよね。名前のつけ方がね。
本当だね。それは何?暗記大会じゃないの?
これも暗記大会なんだけど、まず4択のものが10択になりましたよと。
そういう問題なの?
そういう問題。
それも結局解けちゃうんじゃないの?
結局ね、解けちゃう。けどより難しくしたことで、みんなが満点になったらもうベンチマーク意味ないじゃん。
じゃなくてもう70点80点ぐらいを平均的に取るよねっていう。
当然どんどんさらにLLABが進化していったら、これも満点に近くなるんだけど、そしたらまたブラッシュアップするみたいな。
なるほどね。
ベンチマークって常にそうやって進化していくものではあるんだけども、結構ランダム性を持たして大幅に正解率を下げさせたのよ、あえて。
で、実力差を明確にするっていうのがMMLU Proっていうもの。すごい難しい版だよね。
なんかさ、暗記だったらもう答え知ってるんじゃないのっていう選択肢なしでも答えられないんだ。
選択肢なしでも答えられないんだと言いましたか、今。
すぐさっき好き見せるといいとかついてくるね、ほんとに。
なになになに。
その次言おうとしてたことだから。
そうなの?
これ何、先行った方が勝ちっていうゲームでいいの?これは。
いや、いいね。今のところちょっと負けてるね、俺ね。
俺が見てる台本見えてる?って思った。
でもそう思うんだけど、もうなんかだからさ、要はさ、暗記力を試すなんてもうAIなんかもう何のあれじゃん、100点満点でしょって、なんか思ってんの。
結局それはスコア上がっていってしまうんで、推論能力を上げたいよね。
いろんな事実から基づいて考えて答えを出せるよっていう能力。
はいはい。
そういうベンチマークがね、あるんですね。
そうだよね。
それがね、GPQAってやつね。
GPQA。
はい、GPQA。またね、この4文字なんですよ。覚えにくいね。
なんかGHQみたいなね。
まあそうだね、確かに。ちょっと戦後感があるんだけどさ。
まあこれはね、Google Proof Q&Aベンチマーク。
これはどういうことかっていうと、Google検索を使っても答えが見つからない問題のデータセット。
ほうほうほう。
だから検索しても分かんないよと。
考えなきゃ分かんないよねと。
それはもう生物学とか物理学とか科学の分野における白紙号を持ってるような先生たちが、
学生向けにこうレポートとか書かすじゃない。
そういうレベルの出題が出て、それをちゃんとあなたたちは解けますかと。
単純な検索、事実検索とか知識だけでは解けないように設計されてる問題集みたいなのがあるのね。
それがGPQA。
これも、これは推論能力だよね。
だから知識を持ってるかじゃなくて、ちゃんと考えれるかみたいな。
高度な推論ができるかっていうのを試す、そういうベンチマークです。
これはね、ちゃんと、いわゆるさっきカネリンが言ったようなSNSで出てくる、
パッと貼られた企業みたいなやつあるじゃん。
グラフみたいな。
あれ上のほう見ると、ときどきGPQAとか書いてある。
なるほど、なるほど。
これはなんか、性能測れそうだね。
性能測れそうでしょ。
この他にも、似たような推論の能力を測るもので、数学的推論を測る。
これはもう本当にさ、物理学とか生物学とか、そういう知識レベルのものなんだけど、あくまでもね。
じゃなくて、もう数学の問題を解けるかっていうベンチマークもあって。
なるほど、なるほど。
GSM8KとかGSM1Kとかね、またあるんですわ。
シンプルにマスっていうね、ベンチマークもあるんだけど。
数学を解かせるというよりは、数学を解くっていう能力が、そのAIの持っている論理的思考を測る上ですごく使えるので。
そういう意味で、数学をベースにしたベンチマークテストもあるよと。
数学ね。
そうそう。それもまたね、ちょっと概要欄に貼っときますけど。これも出てきます。パッと貼られるようにね。
最後、もう一つ最後あるのが、プログラミング能力。これまた別だよね。
別か。
コード書けるかっていうの。これもね、いろんなベンチマークがあるんだけど、一番よく言われるのはライブコードベンチっていう。
ライブコードベンチ。
ライブコードベンチっていうベンチマークがあります。
ヒューマンイーバルとか、SWEベンチとか、ライブコードベンチ。この三つがプログラムの能力を測るものなんだけど、これも覚えなくていいです。
貼っときます。とにかく、プログラム能力を測るよっていうベンチマークテストもあると。
こういうことで、推論能力とか、そもそも持ってる知識の能力とか、プログラミング能力。こういうものを測っていけるんだよね。
なるほど。
だが、さっきね、カネリンが言ってくれた話なんだけど、結局このベンチマークって、AIが進化すればするほどに、どんどん意味がなくなっていくというか、問題を抱えていくわけ。テスト自体が。
今、ベンチマークテストにおいて最大の脅威と言われてるのは、
何?
テストデータの漏洩なの。
なるほど。
AIってさ、学習するとき、LLM作るときってさ、ネット上にあるほぼ全ての情報、文章を学んでいくわけ。
その中に、ベンチマークのテスト問題、含まれちゃうよねっていう話がある。
含まれちゃうんだ。
含まれちゃう。だってあるから、世の中に。それはベンチマークってさ、公開されてないとさ、意味ないじゃん。
公開されてないんだ、中身。
だってみんながさ、それを試したいわけよ。自分の作ったモデルを。
そうか。
標準化された手法だから、それをさ、自分たちだけで抱えてたもんさ。
なんか当社費みたいな。うちのテストではこんな結果でしたよって言われても誰も信用してくれないじゃん。
だからもう一応標準化されたものでやりたいんだけど、結局そうなると、公開されてますと。
じゃあ何かの弾みでその問題全部学んじゃったよってなったら、それってカンニングじゃん。
出た、カンニング。
カンニングしてるよね。だからその問題分だけを知ってるっていう状態、入力汚染って言うんだけど、か問題と正解両方知ってる状態。
これが最も深刻な状態なんだけど、このラベル汚染っていう状態になっちゃうと、ベンチマークテストやっても正しい結果が出てこないと。
なるほどね。カンニングだもんね。
そう。こういう問題があります。
なるほど。
あとさらにもっと根深い問題があってですね。それがね、グッドハートの法則っていう法則があるんだけど。
グッドハート。
グッドハートの法則。これは別にAIに関わらないことなんだけど、一般的に言われてること。指標の話なんだけど。
指標。
何かの指標があったとき。指標が目標になると、それは良い指標でなくなるっていう法則なのよ。
はいはい。分かったような、分からないです。
これどういうことかっていうと、いろいろ例はあるんだけど、すごい分かりやすいで、今まで出てきた、今まで歴史上で起こったグッドハートの法則の例を説明すると。
あのね、19世紀のベトナムで起こった問題があるんだけど、すごいネズミが出たんだって。
ネズミ。
とんでもないくらいいっぱいネズミが出ちゃうと。だからみんなでネズミを退治しましょうねと。
まあその指標で、だからネズミの尻尾一本持ってきた人に、報償金あげますよっていう対策を打ったのよ。
はいはいはいはい。
だからネズミの尻尾をいっぱい集めてやれば、いっぱいネズミを倒したってことじゃん。それで報償金がもらえると。
集めたネズミの尻尾の本数が成果ですよと。
はいはいはい。
それをみんな最大化してくださいってやったんですけど、結果的にですね、何が起こったかっていうと、人々がネズミを飼育し始めると。
なるほど。尻尾を量産し始めた。
尻尾を量産しようと。
だからそのネズミの尻尾を集めるっていう指標が目的になると、本質的なことからそれちゃうよと。むしろ結果的にネズミが増えましたねっていうことが起きたと。
あれだね、AIみたいだね、なんかね。変なやり方ハックして。
あ、そうそうそうそう。強化学習みたいだね。
強化学習のね、なんて言いましたっけ。
ん?何が?あ、そのインチキ?
うん。
ずる、ずる。一休さん、なんかあったっけそれ。
リワードハッキングでございます。
リワードハッキングです。
リワードハッキングでございます。
それリワードハッキングだよね、それ。
リワードハッキング近いね、人間がやっちゃうようなね。とかね、なんかいろいろそういう事例が歴史的にはあってさ。
なるほど、そういうことを言ってんだ、この。
そう。
指標が目標になるってのは。
そう、指標が目標になると良い指標じゃなくなると。このベンチマークのテストも結局みんなAI開発してる人は良い指標、良い点数を取りたいのよ。良い性能を出したいじゃない。
そうだね。
だけどさ、それってさ、やっぱそのベンチマークで比較しようと思った瞬間に指標が目標になっちゃうよね、AIって。
なるほどね。
だから特定のベンチマークでスコアを上げ過ぎることに特化すると、反過性能が落ちてくると。他の類似の問題とか新しい問題に対応できなくなるよと。
実際そういうモデルが増え始めてしまったっていうのがあるよね、ベンチマークが広がってきたことで。
なんかあれか、試験問題、試験突破に特化してあんま他のことやんないみたいな。
あ、そうそうそう、本当にその受験勉強を特化しすぎて。
人間と一緒じゃん。
別にその受験勉強の枠外でその能力使えないみたいな。
はいはいはいはい。
実際そんなことはないんだけど、あんまりにもそこに特化しすぎると。
試験に出ない内容は勉強しないみたいな。
しないとか、数学の数式丸暗記しちゃうみたいなね。
法則をすべてもう理解せずに全部丸暗記していくみたいな、教科書1から10まで。
ほんと一夜漬けまんじゃん。
それって本質的な能力ではないが問題を解けるようになるじゃん。
アプローチとしては間違ってるじゃない。
数学の数式丸暗記みたいなのって。
理解したほうがいいじゃん。
っていうそういうね、ずれが生じてくるよと。
なるほどね。常にずっとブラッシュアップし続ければいいのそれ。
でもブラッシュアップしたところで、新しいベンチマークに対してまたそこを点数が取れるように取れるようにというふうなイタチごっこがなるわけよ。
イタチごっこだね。
だからこれに対する対策をしなきゃいけない。
そういう仕組みなのね。で、常に生成や移動してバトルしてる。そういうアリーナなのよ。
これ結構、みんなやんないとデータ貯まらないってことだよね。
そうだね、やんないと貯まらない。
人は何をインセンティブにやるのこれ。
これはね、いいとこ、いいとこつくね、もう。
いやさ、やってって思ったのよ。これ何か使えるけど、何か別にボランティアだよなっていうか。
ボランティアなんだけど、ナノバナナの話もしたんだけどさ。
今Googleが作ってる、まだ公開されてないモデルみたいなものも、この中にぶち込まれるの。
それでナノバナナが出てきたんや、そういえば。
そう。
なんやこれって。
これでナノバナナが出てきた。ナノバナナっていう、何かバナナのマークの変なAIが出てきて、何だこれと。
それがナノバナナっていう名前になったんだけど、バナナのマークだったから。
バナナのアイコンで、何かめちゃくちゃいい画像出してくるやつがあると。
なるほどね。
何だこいつはって言って、もうとにかくその画のモデルで画像を早く生成したいって言って、みんなエレエレアリーナでもうランダムだよね。
だからそれが出てくるかどうかわかんないけど、何回も何回もトライして、バナナ出てきたすげーみたいな。
もういろんなギークたちが集まってた、もう対戦しまくるね。
でそれまだ世に出てないやつにワンチャンガチャで使える楽しさでやってんの?
そう、とかもうそう、なんかこう覆面レスラーみたいなやつが登場するから、それいいよねと。
あと別に無料で使えるからさ、いいモデルが。
普通になんかちょっと課金せずに使えるっていうのもあるから。
ガチャでね。
そういうインセンティブあるよね。ガチャだけど。
ガチャだよね。
ガチャガチャ。ずっとやらなくてもいいと思うけど、みんなこのいろいろ全国にタダで公開されてるから、ちょっとって触るだけでもだいぶそこに貢献できるよってのあるね。
今だとね、今は今日収録日が11月24日だけど、今現在だともうジェミニ3.0のプロがもうすべての1位を取ってるね。
そうだね。確かに確かに。でこれがもう公開されてる時にはまた違うのがひっくり返ってるかもしれないよね。
そう、これ収録してるのからまた1週間2週間後後に公開されるからさ、その時にはもう違うモデルになってるかもしれないけど、ここねこうやっていろいろ能力を見れるわけですよ。
チャットボタンアリーナね、いろいろ1個の指標じゃなくてさ、いろんな指標があるのよね。
まず総合能力でしょ。これはもう本当に総合力。
全部の指標を合わせて、とりあえず一番賢いのはどれって知りたい時はもうオーバーオールってやつ見ればいいし。
オーバーオール。
オーバーオールってやつがあるね。あとはハードプロンプトって、なかなか難解な問題に答えられますよっていう能力。
コーディング、これはプログラミングだよね。あとはマス数学、あとクリエイティブライティング、創作とか文章制作とか。
なんかいろいろ指標があるのよ。あとロングテキストとかね。
イメージトゥビデオとか。
そうそう。それはもう本当にそのままだよね。画像から動画にするよとか。
いろいろ下の方に、たぶん今カネリンが見てるページの下の方に行くと、総合的な表みたいなのが出てくると思うんだけど。
なんか表があるね。
そこにたぶんオーバーオールとかハードプロンプトとかコーディングとかマスとか並んでると思うよね。
ほんとだ。
それがその各分野の能力って感じ。
ほぼほぼジェミニ3プロじゃん。
今のジェミニプロが全部。
全部じゃん。
現時点ではゾワって取っちゃってるからさ。これはすごいことなんだけど。
すごいね。次がグロック4.1だよ。
グロック意外と頑張ってるんだよ。
グロック強いじゃん。
そうそう。グロック意外と頑張ってるよね。
もう何?
次クロードソネット4.5で次ジェミニ2.5プロだよ。
そう。
GPTなんかもどっか行っちゃったじゃん。
GPTが結構今下の方にいるね。
ジェミニ2.5プロの次にいるよ。
こういうのでどのくらいの能力がわかる。意外だよねそれってすごく。
ジェミニのさ。
うん。
ちゃんとGPTの5と比較して。
前の世代より下だよ。GPT。
ただこれはあくまでもさっきも言ったように人間の習慣が入ってるから人としての使いやすさ。
能力とはまたちょっと違う。その推論能力で見るとまたちょっと変わってくるのよ。
なるほどね。
だからこれも見つつさっき言ったような指標たちのそのリーダーボードとかを見てあげると実際の能力とは使いやすさっていうのが結構こうなんとなく見えてくる。
結構主観的な使いやすさランキングか。
そうこれはそうだね。でも動的なベンチマークだから非常に人の血が通ってるような。
なるほどね。パックしにくいしなんでこんな順位なのみたいなのはあんまないってことだよね。
あんまない。
なるほど。
だけどこのあくまでも定量的になってなるとさっき言ったようにMMLUとかGPQAとかそういうとこ見てあげるとそんな感じなんだなっていうのがわかる。
今もう見るとそれ全部Gemini Proが1位なんだけど。
そっちの定量的なやつも。
そう。
王者だね。
めっちゃ強いなっていう感じ。っていうのがこのベンチマークを見れるようになったらわかるのよ。実際どのぐらいすごいのかと。
その次は誰なのかって見るとこれよりこんだけすごいんだねっていうのが捉えられるようになる。
そうだね。
だから落ち着かない新しいモデルが出るたびにだいたいもう解約しましたみたいな。他のAI解約しましたみたいな人が出てくるんだけどさ。
これ1本でもういいのかなみたいな。俺あれ使ってるけど乗り換えなきゃいけないかなみたいな。
今のとGemini使えばいいかなってなるよね。
そう。今のとGeminiもうJetGPT使ってるオワホンですよみたいな。そういう落ち着かないような情報が出てくるから。
そうだね。
実際それが定量的にどうなのかっていうのはベンチマーク見ればわかるからさ。
まだそっちのベンチマークは有効。
有効。
そのうちなんかハックされたりしてあんまり有効じゃなくなってくるってこと?定量的な数字。
そのたびに結局定量的などんどんそのベンチマークも更新しよう更新しようって新しいのが出てくるから。そこはイタチごっこ。さっき言ったようにイタチごっこではあるんだけど。
イタチごっこね。
まだ頭打ちしばらくは頭打ちにならないとは思う。
なるほどなるほど。
うん。なんだけどその定量的なものもそうだし、でそのさっき言ったチャットボットアリーナのその人間が評価しているものもちゃんと見たほうがいい。やっぱり2つ見ると非常にいいと思います。
両方見なかんのや。
あとね一応ね日本語ベンチマークってのもあるのよ。
いいねそれ。それ大事だね。
そう。推論能力とかチャットボットアリーナのベンチマークが必ずしも日本人に使いやすいかって言ったらちょっとずれてる。
だから国際的なベンチマークで高いスコア出してもやっぱ日本語の性能を保証するわけじゃないから。
なるほど。
日本語の文法とかそのトークンの効率とかそういうものをベンチマークのテストして比較しましょうっていうのもあるのよ。
はいっていうねそういうものがありますよと。
驚き疲れなくなりそう。
そう。さらにこう今後どういうことが行われていきそうかっていうのがあって。
まあ若干始まっているんだけどLLM as a judgeっていうね。
これはね結局今言ったじゃんその人間が評価してますよと。
そのインセンティブ何なのって彼に言ったじゃない。
そうよそうよやらなくなっちゃうよ。
確かにやらなくなっちゃったら困るよね。
じゃあその人間の代わりにLLMにLLMの評価させりゃいいんじゃないみたいな。
出たよ。
だからLLMが入れて帰ってきてこっちがいいこっちが悪いっていうのをLLMに評価させると。
その無限にずっと評価してくれるみたいな。
そうね。
それは動的なのよ。
動的に入るんだ。
動的ベンチマークじゃん。だって問題だって変わるし審査するときも必ずしも同じ答えを出すわけじゃないじゃん。
いろんなモデルがあるしいろんなパラメーターとかチューニングすれば全部違うようになるし。
ハックしづらい。
そう。決まった答えがあって必ずそういう答えで正解なわけじゃなくて動的なので。
かつチャットボットアリーナみたいに人を開催してコストをかけてやらなくても自動でやってくれると。
こういう仕組み非常にいいよねってことでそれがLLMアザージャッチというもの。
アザージャッチ。
アザージャッチ。人手の評価じゃなくて、やっぱ人手の評価って人によってブレるじゃん。
俺とカネリンが評価しても多分全然違う結果になる。
そうね。
うん。なんだけど賢いAIにやらせてあげればもうちょっと動的でありながら効率的かつ堅実な評価できるんじゃないのっていうのでこういうのが結構取り組まれてると。
人間のニュアンスみたいなところまでAIに明け渡しちゃうのか。
まあ、そうそうね。
感覚みたいなところを明け渡すのかっていう寂しさはあるけど。
そう、この感覚を明け渡すと。やっぱ人間は人間らしいことをね、やらなきゃみたいな。そういう文脈なのかもしれないけど。
そこはさ、人がジャッチした今のLMアリーナとさ、どれくらいずれてくるのかっていうのにちょっと興味湧くな。
気になるよね。
うん。全然遜色ないのかさ。おいおいこれはちょっとよってなるのかっていう。
なんかね、リーダーボードあるのかなって探したんだけど、あったけど、なんかね、ちょっと更新されてなかったよね。すぐ見れるやつは。
もう走ってるのこれ。
走ってるやつがある、プロジェクトとしては。
えー。
なんだけど、ちょっと更新されてなかったから、なんかうまくいってないのかもしれないけど。
いってないのか。
一応ね、メリットもあるし弱点もある。
弱点あんだ。
当然バイアスもあるから。
バイアス、まあ人間にもバイアスあるじゃん。
うんうん。
だけどAIって結構さ、一バイアスっていうさ、なんかちょっと、それ本当に影響しちゃうの?みたいなバイアスがあって。
順番を出される、出される順番でバイアスがあるっていう。
へー。
だから回答A、Bって出した時に、片方、先に出た方を好む人もいれば、後に出た方を好むみたいな、そういうね傾向、一バイアスみたいなやつがあったりとか。
へー。
なんかあれだよね、ゴタクで、ゴタクのマークシートでどこを選びやすいです人間は、みたいなのと似たようなもんかな。
あ、そうそうそうそう。
あるよね。
なんかそのね、真ん中を選ぶのか、真ん中よりちょっと一個上選びたいみたいな。
そういうバイアスがAIにもあるし、あと冗長性バイアスって言って、これ人間も同じなんだけど、内容が薄くても長くてそれっぽい文章の方が好評化されるみたいな。
うんうんうん。
これもねやっぱね、バイアスがあると。
それってそもそも人間のバイアスが学習されてるからっていう例のやつ?
それもあると思う多分。
あー。
なぜAIがそっちを高く評価するのかは、人間がそれを高く評価してるからっていうこともあるかもしれないね。
そこまではちょっと書いてなかったけど。
なんかさ、そこも踏まえてスコアリングすれば良さそうな気もするよね。
そう。
一バイアスの影響かどうかも含めて。
それをねやっぱバイアスを取り払うってこともやってる。
うんうんうん。
で結構面白いのがね、自己好みバイアスってのがあって。
自己好み。
うん。だからGPTはGPTの出力が好きっていう。
あーありそう。
そうそうそうそう。
ありそうだよね。筆記だよね。
自分の系統のAIが出力した文章を、そのAIが高く評価するっていうバイアスもあるみたいで。
それもなんか人間ぽいよね。
ちょっと可愛いよねそれね。
あーこれは俺たちの仲間の出力者だっつって。高いテンスをつけてやろうって。
そりゃそうだよなでも。
そうLLM as a judgeだとねそういう風になる。
どこまでいっても人間臭さが残るAIちょっと面白いな。
そうそうそう。
という感じでね、今日の話はこのぐらいなんだけど。
うんうん。
まそういうまとめると、とにかくそのLLMを評価する指標っていうのはいっぱいありますと。
はいはい。
それはテストがあって、そのテストの点数で測るっていう定量的な指標から、人間とかAIが動的に評価するよっていう指標、2つがありますよと。
でまあその指標もね色々と汚染されたりとか、指標自体はAIが学んじゃうっていうそういう汚染もあるし、指標自体が目的になると、
反過性能が落ちる、汎用的な能力じゃなくなっちゃうよねっていうのもあるので、非常にその評価の標本を作るのも難しいのよ。
なるほどね。
だけどまあ今そういう研究ってさ、評価あって初めてそのAIの能力が表明できるから、
やっぱりAIのその仕組みを作る人と評価をちゃんと作る人っていうのがいるよね。それぞれ研究されてると。
でもさ、評価のさ、ベンチマークの中身をブラックボックスにしたベンチマークってのは、何でダメなんだろう。
ブラックボックスにしたベンチマークは、ベンチマークとして保証できないからじゃない?
何の能力が高いのか分かりませんみたいな感じ?
そのベンチマークが、例えばさ、そのベンチマークをアメリカが作りましたよって言ってさ、
アメリカのLLMがすごい高得点取ってたらさ、なんか不公平な感じ出ちゃうよね。
そうね。
中国のベンチマークですってさ、中国の国が作りました。でもこれはブラックボックスだけど平等ですって言って、
なんか点数に偏りがあったらさ、疑いが出ちゃうじゃん。だからベンチマークって基本的に公平じゃなきゃいけないよね。
公開されてる。それが定量的な指標、フェアな指標として証明できないとベンチマークとして使えないんじゃないかな。
そういうことなんだね。分かったような分からんような感じだけど。
ブラックボックスだと辛いよね。でもインプットしてアウトプット出てきちゃうよね、ブラックボックスだとしても。
だからあれか、そのブラックボックスにAIを突っ込んで、何点みたいな。ハリーポッターみたいな帽子被せたらグリフィンドールみたいな。
そういう帽子を被せるみたいな感じ。
そういうことになるのか。
そう、そうなっちゃうよね。何人か分かんないけど、とりあえずモデル作りました。帽子被せます。グリフィンドールって言われた。なんで?
いやそれは言えないけど。これでグリフィンドールだからみたいな。
そういうことになるか。
そういうことになっちゃうよね。納得できないよね、みんなね。
オープンにはせざるを得ない。
オープンにはせざるを得ないと思う。
カンニングはやっぱ防ぎようがなくなるってこと?
そのカンニングを、知ってるか知ってないかを評価するっていう研究もある。このLLMがベンチマークの問題を学習してしまってるかどうかを測るための手法みたいなのもあって。
それも結構論文が出てたりするよね。
なるほどね。
なんか疑義が生じたときにチェックできるんだったら問題なさそうだね。
一応ねチェックできる技術はあるみたい。
だったらいいね、別にうぞうむぞうの下の方はどうでもいいもんね、勝手にやってて。
そうね、下の方はどうでもいいかって言われるとね。
どうでもよくない?
結構ね、下の方も重要でさ、下の方にあるのって大体オープンソースのモデルなのよ。
だからGoogleのモデルってさ、ジェミニってさ、我々はAPI経由で使ってるとかチャット経由で使ったりとかブラウザ経由で使ったりするわけじゃん。
じゃなくて中にはOSSだからオープンソースのモデルがあるわけ。
それは自社のリソースの中に入れて使うよと。
自分たちのパソコンの中でちゃんと動かして自分たちのサービスとしてLLMを動かしますよみたいなそういうオープンソースのモデルもいっぱいあるのね。
そのオープンソースのモデルもやっぱ反価性能っていうのは高めてもらわなきゃいけないんだけど、
オープンソースのモデルで性能を高めましょうって言って不正にベンチマークのものを購入してたらまずいわけじゃん。
まずいね。
この企業がさ、これはちょっとオープンソースのものだからこれ製品を開発しようってスコア高いと思ったらそれが不正されてたらまずいよね。
だからジェミニーとかわかりやすいチャットGPTとかクロードとかそういうところもいいんだけど、
その下の方にあるやつは本当に企業が自分の会社の製品として組み込むそういう可能性のあるものだから、そっちの評価もやっぱ大事よね。
そっちもそっちじゃちゃんとカンニングテストできるようになっとかなかうんね、じゃあ。
そう。それはそれでね、そういうテストはあるの。
あ、そう。
うん。ちょっと紹介しなかったんだけど。
カンニングテスト?
カンニングテストというかそのオープンソース用のハギングフェイスっていうサイトがあるのよね。
ハギングフェイス。
ハギングフェイスっていろんなオープンソースの情報がプログラムとか載ってるような。
あ、なんかニコちゃんマークのやつか。
そうそうそうそう。
はいはいはい。黄色いやつ。
ハギングフェイスオープンLLMリーダーボードってやつがあって、それはもう本当にオープンソースのLLM専用のランキングみたいなやつ。
なるほどね。
うん。
なるほど。
これはそういうね、やっぱね、おかしなスコアがあると議論される仕組みになってる。
うんうん。
こいつなんかちょっとおかしいぞ。この表紙だけ高いってことはなんか学習ミスってるというか、ベンチマークの文章を学習してんじゃないかみたいな。
うんうん。
そういうのをみんなで見合って指摘して、不正があったらモデル削除みたいな。
うんうん。
そういうね、総合監視みたいな仕組みがあるのよ。
なるほどね。オープンソースだからみんな見れるから。
そう。やっぱね、すべてが、しかもオープンソースの場合って言ったらすべてが透明になってるから、不正ができないよねっていう監視関係にはある。
うんうんうん。
そうやって総合監視したりとか、汚染しないようにしようねっていうのをうまく作ってるのがハギングフェイスのオープンLLMリーダーボードってやつで、一応そういう文化もあるのよ。
ハギングフェイスって何なのこれ、コミュニティなの?
そうだね。俺もちょっと詳しくは説明できない。
GitHubとRedditが合体したみたいな感じなのかな。
俺もお世話になっているけど、オープンソースのAIのモデルが公開されてみんなで使いましょうねみたいな。
うんうん。
そういうプラットフォームやね。
なんかステーブルディフュージョンのさ、モデルがいちいちこう上がってて。
そうそうそうそう。ここにめちゃくちゃある。
俺はね、当時使ってた時によくここアクセスしてたもん。
そうこっからねモデルダウンロードしてきてさ。
ヤバそうなモデル。
自分のステーブルディフュージョンに入れてさ。
ヤバいモデルがいっぱいあったよな。
あったねー。あれ楽しかったねあれはねー。
楽しかったけど。
あの時期楽しいよね。ワクワクするもんなあれね。
こんなことできちゃっていいのかなーみたいな。
こんなできるよー。もうあれはね頭がおかしくなりそうだった本当に。
もうステーブルディフュージョンって下火なの?
下火なのかなー。
ローカルで動くからいいよねーみたいな感じだった?
ローカルで動くのはいいと思う。
未だにどうなの?
あるんかな?
あの後のこの画像生成ってどうなってんだろうって。
みんななんかナノバナナとか言っちゃってんじゃん。
いやもう多分ナノバナナじゃない?
そうなっちゃったの?
ちょっとエッチなの作りたい人だけのものかね。
そうだね。
エロ用。
エロ用はだいぶね誤解を招くというか。
真面目に使ってる人がいたらちょっとまずいけどさ。
大変申し訳ないですね。
どうなんだろうねステーブルディフュージョンも。
オープンソースの文化だから結構自分たちで作り込めるとか。
クロートはねかなりまだまだ与えられたものでやるんじゃなくて、
もう自分で作りたいんだよとか。
こういう絵しか俺は出さんみたいな人は多分全然。
学習データを自分で選べるっていう。
選べるし作れるじゃんあれってね。
なんでそういう人たちは多分使えると思うから、
まだあるとは思うけど期間ね確かに。
なんか全然話題にならなくなっちゃったよね。
ちょっとそれ調べてみよう今度。
なんか面白いネタかもしれんね。
あれはどうなったのかみたいな。
ね。
実はそこ面白いことになってるかもしれんしね。
あの後どうなったのかシリーズいいね。
あの人は今シリーズね。
あんなに驚かれてたあの人は今どこにいるんだみたいな。
ほんとだよな。
そのシリーズいいね。
こういう風に定着したんですよとか、
実は皆さんが使ってるこれの中に形を変えているんですみたいな。
なんかありそうだよね。
風情あるよねそれね。
ミッドジャーニーとステーブルディフュージョンが俺の中でなんか過去の存在になってて。
ミッドジャーニーは全然あるんじゃない?
ありあり?
うんありありだと思うよ。
全然使われてる気がするけどな。
ナノバナナよりも。
ナノバナナ強すぎるからな。
もう全部持ってっちゃうのかなって。
今この11月末の時点ではちょっとそうなっちゃってるね。
そうなレベルなんだ。
ナノバナナ強すぎるよねみたいな。
やっぱりエロしかないね。
そうね。やっぱ勝つのはエロしかないね。
俺もエロい画像生成しまくってたからね。
電気使って。
本当にさ、どうにかしなきゃいけないんだけどさ。
どこに保存してたか忘れちゃって。
たぶん1万枚ぐらいの魚体の画像があるのよ。
一晩で生成したやつが。
やばい。やばいなそれ。
やばいじゃん。やばいんだけどさ。
いっぱい出ると思ってさ。
いっぱい出る?
すげーと思って回しまくってたのよ。ローカルでね。
その大量のエロ画像のデータをどこに保存したかわからなくなっちゃって。
俺は今コロッと死んだらさ、パソコンからそれが出てきたらさ。
で、しかも半端じゃない量あるよね。1万枚とかさ、たぶん平気であるんだよね。
だって一晩でさ、ダーってこう、何秒後に1枚って出ちゃうから。
そうだね。
しかもなんか手足がなかったりさ、そのなんだろう。
粗悪な生成だからさ。プロンプトが曖昧だから。
人の形をしていれば人の形をしていないものもあるから。
なんかやべえやつだったんじゃないかみたいな。
思われるよな。
あれ早く探さないとな、ちょっと。
ちょっとそれもう販売してほしいな、NFTで。
NFTで販売できるかな。
NFTってあれアダルトありなの?
いや、アダルトありとかなしとかっていうか普通に。
うん。
いけるの?
普通に法的な問題ですよね。
法的な問題をクリアしても大丈夫?
法的な問題ですよね。
まあなんかね、その辺の論争もどうなったのかあんまりさ、規着点を理解してなくてさ。
うん。
あったじゃん、絵師さんというかさ、イラストレーターがガンガン自分の学習されてさ、有名な絵師さんの絵出てくるよとかさ。
うんうん。
なんか有名な人じゃなくても、これクリエイターの権利はどうなってんだみたいなのが。
あったね。
結構、ステイブルディフュージョンあたりでさ、結構勃発してたけど、どうなったんだろうって。
なんかあれだよね、ちょっとごめん。
ジジイのネタを扱うと少しタイミングがずれちゃうかもしれないけど。
ちょうど、なんか逮捕されたよね、誰か。
あら。
最近。
大丈夫、首長。
初めて、エイローじゃないよ。
エイローじゃないか。
なんか生成AIの生成物での著作権違反みたいなので、国内初逮捕みたいなやつあった気がする、今週あたり。
あ、そうですか。ちょっと勉強しておきます。
ちょっと話それましたけども。
ちょっとね、新しい企画も生まれたところで。
いいね。
あの人は今企画もやりますけど。
今日の落ち着きポイントは、新しいモデルが出たら、こういう指標を見ましょうと。ベンチマークがありますせと。
その見方を、見方というか、まずベンチマーク見てみましょうと。それで落ち着きましょうねという結論でございます。
で、見るべき指標は概要欄にありますと。
めっちゃ貼っときます。
ブックマーク。
めっちゃね、今回の概要欄はいっぱい貼ってるよ。リンクがね。とりあえず全部ブックマークすればいいと思う。
あ、全部やればいいのね。
全部とりあえずやっとけばいいと思う。
わかりました。
この指標が何なのっていうのは書いておきますんで。
学習がてな概要欄見てください。
はい、お願いします。
落ち着いていきましょう、みなさんも。
落ち着きの武器を手に入れた感じだな。
そうなんだよね、やっぱ。
そういう知ってるか知らないかでね。グラフ出てきたとき、ああ、なんか難しいグラフだって思わないで、これは落ち着きAIで効いたぞって。
それなんだよね。
そこを目指してますから。
なんかすごそう。
なんかすごそうは落ち着かないから。
そう、なんかすごそうだけど、うーんって思考停止しちゃう。
そう。
で、メンション。あ、で、これ皆さんね、メンションしてくださいね。
あ、そう。
困ったら、あの、支部長とかね、この落ち着きAIを。
カネリンとか落ち着きAIを、はい、メンションしてください。
メンションしまくってください。
あの、ごメンションには気をつけてくださいね、ほんとに。
ごメンションって。
ごメンション。
ごメンション、ごめんなさい。
言ったとしたら、なんかいいね、ごメンション。
はい、落ち着かないネタをお待ちしてます。
はい。はい、じゃあ、ということで、本日はおしまいですね。
はいはい。
また次回お会いしましょう。
番組公式ハッシュタグは、シャープ落ち着きAI、ひらがなで落ち着き、アルファベットでAIです。
番組の感想は、XなどSNSでハッシュタグをつけて書き込んでください。
メンションでも大丈夫です。
はい。
今回の話、良かったな落ち着いたなという人は、星5つのレビューをつけて応援をお願いします。
それではまた1週間、落ち着いて過ごしていきましょう。
さようなら。