1. おちつきAIラジオ
  2. もうAIニュースに踊らされない..
2025-12-05 1:01:13

もうAIニュースに踊らされない。ベンチマークの読み方を知り「自分軸」で性能評価する技術(ep.22)

spotify apple_podcasts

生成AIの性能はどうやって決められているのでしょうか?実は、AIモデルの開発競争の裏では、テストスコアを巡る「いたちごっこ」が起きています。今回のテーマは「LLMのベンチマーク」。AIの実力を測るための様々なテストとその仕組みを深掘りします。

百科事典的な知識を問う「MMLU」から、Google検索でも答えが見つからない難問「GPQA」、さらに日本語能力に特化した「Nejumi LLM Leaderboard」まで、見るべき指標を徹底解説。しかし、ベンチマークには「テストデータの漏洩(カンニング)」や、指標自体が目的化して本来の性能が歪む「グッドハートの法則」といった落とし穴も存在します。そこで注目されているのが、動的に問題が生成される「Chatbot Arena」や、AI自身が審査員となる「LLM-as-a-Judge」です。ただの数字の羅列に見えるグラフの向こう側にある、エンジニアたちの工夫と苦悩を知れば、AIニュースの見え方がガラリと変わるはずです。

【目次】

() オープニング:AIニュースに落ち着かないあなたへ

() 今回のテーマ「LLMのベンチマークを学ぼう」

() そもそもベンチマークとは?スマホでの実例

() 歴史的指標「パープレキシティ」と現代のテスト

() 知識の広さを測る「MMLU」と推論能力「GPQA」

() テストデータの漏洩と「グッドハートの法則」

() 人間がジャッジする「Chatbot Arena」の信頼性

() 日本語特化の指標「Nejumi LLM Leaderboard」

() AIがAIを評価する「LLM-as-a-Judge」の未来

() オープンソースとHugging Faceの相互監視

() エンディング:指標を知って落ち着きを手に入れる

【今回の放送回に関連するリンク】

Chatbot Arena

Chatbot Arena leaderboard

MMLU-Pro Benchmark Leaderboard

GPQA Diamond Benchmark Leaderboard

LiveCodeBench Benchmark Leaderboard

Hugging Face Open LLM Leaderboard v2

Nejumi LLM Leaderboard

【今回の要チェックキーワード】

ベンチマーク(Benchmark)

AIモデルの性能を客観的に評価するためのテスト。または比較基準そのもの。複数モデルの実力差を測る“ものさし”として使われる。

パープレキシティ(Perplexity)

言語モデルが文章をどれだけうまく予測できるかを示す指標。値が小さいほど「文脈を正しく理解して予測できている」ことを意味する。

MMLU(Massive Multitask Language Understanding)

大学レベルの問題を含む57分野の知識テスト。一般教養の幅広さを測定する、LLMの代表的な総合ベンチマーク。

MMLU-Pro

従来のMMLUより難易度・品質を改善した改訂版。問題文の曖昧さを減らし、最新モデルの実力差をより正確に測れるようにした。

GPQA(Graduate-Level Google-Proof Q&A)

大学院レベルの高度な科学・数学問題を中心とした難問ベンチマーク。検索で答えが見つからない“純粋な推論力”を測るテスト。

GSM8K(Grade School Math 8K)

小学校高学年レベルの算数文章題を8,000問集めたベンチマーク。LLMの「基礎的な論理推論力」を測るときによく使われる。

LiveCodeBench

AIに“実際のプログラミング環境”でコードを書かせ、その実行結果で評価するベンチマーク。

HumanEval

コード生成能力を測る初期の有名ベンチマーク。与えられた問題に対して正しく動作するプログラムを書けるかをテストする。

SWE-bench(Software Engineering Benchmark)

実在のGitHubリポジトリのIssueを解決できるかを評価するテスト。AIの“本物のソフトウェア開発能力”を測る指標として注目されている。

グッドハートの法則(Goodhart's Law)

「指標を目標にすると、指標として機能しなくなる」という法則。AI評価でも、ベンチマーク対策が進むと本来の能力を正しく測れなくなる問題を指す。

LLM-as-a-Judge

AI自身を“判定者”として使い、他のAIの回答品質を比較する仕組み。公平性やバイアスの扱いが課題だが、スケールしやすいため研究が進んでいる。

Nejumi LLM Leaderboard

日本語LLMを中心に評価したランキングプラットフォーム。MMLU-JPなど日本語特化の指標でモデルを比較できる点が特徴。

Hugging Face Open LLM Leaderboard v2

世界中の公開LLMを統一指標で比較するリーダーボード。MMLU・GPQA・GSM8Kなど複数ベンチマークを総合してスコア化している。

Chatbot Arena

ユーザーが2つのAIを“匿名で”比較し、どちらが良いか投票する評価方式。多数の人の投票による“ライブ対戦形式”で、実力を直感的に比較できる。

—----------------------------

【番組の概要】

日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。

★ご感想やコメントは、番組公式ハッシュタグをつけてX(旧Twitter)でポストしていただけるとありがたいです。

【番組公式ハッシュタグ】

#おちつきAI

【番組公式X】

https://x.com/ochitsuki_AI

【パーソナリティ(MC)】

▼しぶちょー

・AIエンジニア

・技術士(機械部門) 

「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI(ディープラーニング)の実装スキルを証明する「E資格」を保有。機械(ハードウェア)への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞 審査員特別賞を受賞。著書に『集まれ設計1年生 はじめての締結設計』(日刊工業新聞社)。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海 共同代表も務める。」

https://x.com/sibucho_labo

https://voicy.jp/channel/3963

▼かねりん(金田勇太)

・KANERIN Podcast Studios 代表

・一般社団法人 地方WEB3連携協会 理事

「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。多様なパートナーと共に、未来へつなぐ声の原典を共創している。」

https://x.com/kanerinx

https://voicy.jp/channel/2534

【プロデューサー】

かねりん https://x.com/kanerinx

【サウンド・アーキテクト】

Aviv Haruta https://x.com/oji_pal

【カバーアートデザイン】

UTA https://x.com/uta_dib

【制作/著作】

KANERIN Podcast Studios

--------------------------------------------------

※画像引用元:https://lmarena.ai/

【各種ポッドキャストスタンドへのリンク】

Spotify

https://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2o

Apple Podcast

https://podcasts.apple.com/us/podcast/id1841316430

Amazon Music

https://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/

YouTube

https://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCD

LISTEN

https://listen.style/p/ochitsukiai

サマリー

このエピソードでは、LLMのベンチマークについて学び、AIの性能評価の重要性が説明されます。具体的には、MMLUなどの主要なベンチマークが紹介され、それぞれのテストがAIモデルの能力をどのように評価するかについて深く掘り下げられています。また、AIの性能評価に関する新しいベンチマークであるMMLUとGPQAについて詳しく解説されています。ベンチマークが進化する中で、テストの信頼性や有用性に関する問題が浮き彫りになり、GK法則やカンニングの問題も取り上げられています。AI技術の進化に伴い、動的ベンチマークの重要性が増しています。エピソードでは、チャットボットアリーナという新しい動的ベンチマークを通じてAIの評価方法について探求されており、特にLLMアリーナを用いた性能評価と日本語ベンチマークの必要性にも触れられています。ポッドキャストでは、日本語のLLM(大規模言語モデル)のリーダーボードや評価基準について議論されており、評価のための指標として定量的なものやAIによる動的な評価があり、その公平性やバイアスの問題についても触れられています。また、AIベンチマークの公平性やパフォーマンス評価の重要性について議論されており、特にオープンソースモデルの信頼性やカンニングテストの役割に焦点が当てられています。リスナーは、ベンチマークを正しく読み取り、自分自身の基準でAIの性能を評価する方法を学びます。このエピソードでは、AIのパフォーマンス評価のためのベンチマークの重要性が解説され、情報に流されずに自分の基準で評価する技術について語られています。

AIパフォーマンス評価の重要性
おちつきAI
おちつきAI
おちつきAI
AIエンジニアのしぶちょーです。
AI素人のかねりんです。
この番組は、日々のAIニュースで驚き疲れたあなたに、ゆっくりじっくりAIを学んで落ち着いていただく、そんな番組でございます。
はい、ということで今回も始まりました、おちつきAIラジオ。早速ですけども、今日のテーマはこちらです。
LLMのベンチマークを勉強しようというテーマでございます。
よしよし。
最近さ、新しいモデルいっぱい出るじゃない。
出てるね。
前のモデルよりすごいぞって驚くよね。
はいはいはい。
もう前のやつが全然バカだった。さらに頭良くなった。さらに頭良くなったってどんどん進化していくわけじゃない。
それよ。もうね、出るたびに落ち着かなくてね。
おちつきAIの更新を待っているあなた。
って感じだよね。
俺も最近我慢できなくなって、Twitterでメンションし始めたもんね、しぶちょー。
すいません、落ち着かないですこれって。
落ち着かなすぎてメンション先間違ってたもんね。
気づかなかったなあれほんとに。
全然違う、プロの麻雀の選手の方か誰かにメンションしとったよね。
しぶちょーのSIBぐらいまででなんか変なところについちゃったのかな。
そのぐらいかなり落ち着かないと。
落ち着かないよね。どうなのっていうのさ。
毎回待つじゃん。
汎用スキルが欲しいよ。
今日はね、それを皆さんに身につけていただこうという回でございます。
すごいそれ。
やっぱさ、どれくらいすごいのか分かんないと落ち着かないと。
そりゃそうだ。
だけどやっぱLLM、だから生成AIってさ、ベンチマークがあるわけよ。
ベンチマーク。
ベンチマーク、つまりどのぐらいの能力ですかっていうのを定量的に表すテストみたいなやつがあるのね。
客観的な数値で。
そう。同じテストをして、じゃあジェミニーはこのぐらいの点数で、チャットGPってこれぐらいの点数で、グロックはこれぐらいの点数だよねみたいな、そういうベンチマークっていうのがあります。
それは誰でも見れるので。
それを知っておくとですね、新しいモデルが出たときに、あ、これはこのくらいすごいんだな、なんとなくすごいんだなじゃなくて、あ、こういう能力が長けてるんだなとか、これぐらいすごいんだなっていうのが見れるようになると。
それはそんな難しい話じゃなくて、今日この落ち着き合いの話を聞けば、なんとなく理解はできると思うんで。
今後新しいモデル出てきても、それで自分で落ち着けるってことか。
落ち着ける。
セリフ、セルフ落ち着き。
セリフ落ち着きができると。
それいいね。
やっぱ大事なのよ。自分で調べれるっていう力を身につけてもらう。それが落ち着きの極意なんでね。
すごいな、そこを教えちゃうんだ。
そこをね、今日はちょっと掘っていこうと思いますんで、そういう回でございます。
期待してます。
じゃあやっていきましょう。
ベンチマークの歴史
まずさっきから言ってますけども、ベンチマーク、ベンチマークと。ベンチマーク何なんだという話なんですけど、これ別にAIだけの言葉ではなくて、いろんなところで使われてるよね、ベンチマークって。
なんかパソコンのスペックとかね。
GPUをね、どっちがいいんだみたいなね。
スマホとか、パソコンとかだとね、よくベンチマークって言葉出てくるじゃない。
出てくるね。だから僕はね、昔Android使ってたんだけど、iPhoneに乗り換えたきっかけがもうベンチマークテストの結果よ。
あーはいはいはい。
もうずっとね、iPhoneはね、なんかしょぼいと思ってたの。なんか初心者よでしょみたいな。
なるほどね。
なんかAndroidやたらとスペックがさ、無駄に高い機体とかいっぱい出てたじゃん。
だからAndroid最強でしょって思ってたんだけど、ベンチマークテストの結果でさ、iPhoneめちゃめちゃスコア高いじゃんって。
それで見て、速攻乗り換えたっていう。
分かりやすいよね。
分かりやすいっす。
だってなんかさ、スマホのベンチマークって確か何万とか何十万みたいな戦闘力みたいなやつ出てくるよね。
うん、戦闘力で分かりやすい。
あれで10倍になってるとか、2倍だとか、そういうのが分かると思うんだけど。
数字は嘘つかないね。
やっぱ定量的な指標が大事なんですよ。
うん、やっぱAIでもそう?
そう。
数字はいいけど実際はみたいなことはない。
いいね、今日その話もするんでね。
そうなの?
さすがカネリオ、もう先取り先取りしてくるんだから。
危ない危ない、あんま喋らんほう。
先取りAIラジオでございますね。
先取りね。
ということで、ベンチマークっていうのは基準みたいなもんですね。
もともとは測量の言葉らしいんだけど。
そうなんだ。
測るときの基準点のことを、その台にマークをつけてたからベンチマーク。
ここを基準に測りましょうねみたいな。
それがそのまま今の言葉になってると。
現代だと比較とか評価のための基準という意味で使われてます。
なるほどね。
LLMの場合はどういう意味のベンチマークかっていうと、
AIのモデルの能力を客観的に比較すると。
そういう標準化されたテストのことをベンチマークテストと言います。
だから今日はこのベンチマークどんなものがあるんだっていうのを知っていただく回なんだけども。
毎度のことだからまずちょっと歴史からやっていきましょう。
真面目にね。
ベンチマークの歴史。すぐ終わるけどね。
もともと2010年のチャットGPTが出てくる前までの言語モデルってすごいシンプルだったのよ。
だから1個の指標しかなかったの。
そうなんだ。
それがパープレキシティっていう指標なんだよね。
パープレキシティってあるじゃんサービス。
そう。パープレキシティっていうサービスあるからややこしいんだけど、そもそもあのサービスはこのAIの指標から取ってる名前を。
そうなんだ。
そう。もともとこういう指標があって、これ困惑度とかそういう困ってる度合いみたいな。
だからどれくらい言語モデルが困ってるか。
困ってるか。
困ってるかを表す、迷ってるかみたいな指標で。
シンプルに言語モデルってさ、その文脈の次の単語を予想するってことを常に繰り返してるんだけど、その次の予想結果が正確に予想できればパープレキシティは低いよねっていうの。
低い。
低い。
困惑してない。
そう。検討違いの単語とかを持ってきちゃったりとか候補がいっぱいあるみたいな。そういう状態はパープレキシティが高いっていう状態だね。
なるほどね。
っていうのでそのパープレキシティっていう指標で高い低いと。
じゃあゼロに近い方がいいみたいなこと?
そうそうそうそう。数式圏やねそういう風になってると。
防御率みたいなねなんか。
そう。ちなみにサービスのパープレキシティの方は人々をそうやって困惑させないように導くんだっていう意味でパープレキシティっていう名前つけたらしいよ。
なんか落ち着けAIみたいじゃん。
そう落ち着かせるみたいなね。困惑させないようにするって意味と、あとAIのその指標であるパープレキシティっていう単語をつけることで専門性も誇示するみたいなね。そういうね2つの狙いがあったと。
いう雑学もちょっと交えつつ。
そうなんだ。
そうそう。
なるほどね。
昔はめちゃくちゃシンプル。そういうただの次の単語を予想するよっていうものだけが指標だったもんね。
ここで競ってたんだけど。だけどですねやっぱこう2020年以降でね。だからGPT-3とかチャットGPTが登場したことで一気にね指標が変わってしまったんですね。
そうなんだ。それさっきの言ってたパープレキシティってあれ言語だけ?
言語だけ。次の単語を予想するっていうその単語をいかにこう的確に予想できるかっていう。
なるほどね。
それだけです。その指標だけね。なんだけどチャットGPTが登場したことによってすごくこの言語モデルが実用されるようになったよね。
だから単純に言葉のやり取りするだけじゃなくてさ。じゃあプログラミングできますかとか。数学の問題解けますかとか。大学の有志できんのみたいな。
この質問に正しく答えられるかなとかなんか癒してくれるかなみたいないろんなタスクがあるわけじゃん。
そうね。画像とか動画とかも。
そうそれも含めて。じゃあさそれって次の単語を予想するとかそのぐらいの指標じゃ足りないの全然。これはもうちょっとパープレキシティじゃ評価しきれんと。
そのLLM。だから言語モデルの能力ってその次の単語1個を予想するだけじゃなくていろんな指標いるよねというところで一気にベンチマークテスト。
だから指標ですねどういう評価をした方がいいのかっていうのがここ数年でバーと進化したのよ。
めっちゃ増えそうだねなんか。
あのめっちゃくちゃある。落ち着かないのこの数はね。
これ見たってわかんないなーって感じだねじゃあ。
そうだからね数もう本当細かいものを入れたら多分数千いくかいかないかぐらい。
そんなにあるの?
ある。公開されてる主要ベンチマークだけ200以上あるの。
なんかさ新しいの出るたびにさSNSとかでさグラフが毎回こうなんか回ってくるよね。
あるあるある。
こんな比較して強いですみたいなさ。でもあれなんかもう切り抜きみたいな感じなのかなって疑ってかかっちゃうよね。
今日はね今日の話聞けばあれが落ち着いて見れると思う。
あーなるほどね。
一応ねああいうSNSで回ってくる主要ベンチマークってのが今あるのよ。
そこはとりあえず一応押さえておきましょうと。
いう話をするんで。
ここがすごければすごいですよみたいな。
そうそうそう。それは何の能力なのかっていうの分かれてるわけ。
で今ベンチマークがいっぱいありますよって言ったんだけど、
逆になんでいっぱいあるかっていうと、
その試さなきゃいけない能力が多岐に渡るからねさっき言ったように。
じゃあ実際その総合的な知識、知能というか知識がちゃんとあるかなっていうのもあるし、
そのプログラミングできますかっていうのもあるし、
最近は推論だよね。高度な思考できますかと。
そういういろんな能力があるから、その能力ごとにベンチマーク用意したほうがいいよねと。
なるほど。
いっぱいあるんだけど、その中でも主要ベンチマークって呼ばれるやつがあるんで、
今日はそれをちょっと今から紹介していきます。
なるほど。
主要ベンチマークの紹介
じゃあ早速いきます。もう実質業界標準のベンチマークから紹介していきます。
これがよく出てくるやつ一番。
はい。
これこちらです。MMLUと。
MMMU。
MMLUと。
LUと。
やっぱりアルファベットのある人が来ると、覚えられないと思うから、概要欄に貼っとくから。
MMLUってあるんだなっていうのが。
これはMassive Multitask Language Understandingっていうのの略らしいんだけど、
総合的な知識の証明みたいなね。これもうマルチな能力。
基本的には何が、ざっくり言ったらAIの持ってる知識を試すようなテストで、
AI界の大学入試みたいな感じ。
分かりやすい。
とりあえずまずこれ受けて、お前のその能力試すわみたいな。
総合力を見るみたいな。
そう。知識の総合力を見るようなテストがMMLU。これが一番代表的なやつだね。
センター試験だ。
ほんまにね、やってることセンター試験とほぼ一緒で、数学、歴史、法律、医学、物理とか、
あと57ぐらいの科目から出題されて、4択なのね。
それをLAMがひたすら答えていくみたいな。
AIのベンチマーク
人間のいろんな専門家の人の知識がちゃんと答えられますかみたいな。
これをバーッと全部答えさせて、そのスコアを競うっていうのがMMLU。
これじゃあ結構単純に知識知ってるかどうかってこと?
そう。これはもう単純にLAMの学習の中で知識を持ってるかっていう。
暗記してますかってことね。
そうだね。どのぐらいの広い、でも本当に広い専門性だよね。
百科事典みたいな感じかな。
そうそう。ちゃんとそのぐらいのものを正しく答えられますかっていうのがMMLUと。
なんかもうもはやほぼ満点に近いんじゃないの?
カネリンはもうすぐ座っていいとこついてくるね。
ちょっと隙見せるとすぐいいとこついてくるからね。
ついちゃった?
もう俺が次言おうとしたこと言っちゃうから。
結局これほぼみんないい点数取れるようになっちゃうのよ。能力が上がってくると。
そうだよね。ただ暗記するだけでしょ。
そう。なのでより高度なバージョンが最近開発されて、それがMMLU Proってやつね。
シンプルよね。名前のつけ方がね。
本当だね。それは何?暗記大会じゃないの?
これも暗記大会なんだけど、まず4択のものが10択になりましたよと。
そういう問題なの?
そういう問題。
それも結局解けちゃうんじゃないの?
結局ね、解けちゃう。けどより難しくしたことで、みんなが満点になったらもうベンチマーク意味ないじゃん。
じゃなくてもう70点80点ぐらいを平均的に取るよねっていう。
当然どんどんさらにLLABが進化していったら、これも満点に近くなるんだけど、そしたらまたブラッシュアップするみたいな。
なるほどね。
ベンチマークって常にそうやって進化していくものではあるんだけども、結構ランダム性を持たして大幅に正解率を下げさせたのよ、あえて。
で、実力差を明確にするっていうのがMMLU Proっていうもの。すごい難しい版だよね。
なんかさ、暗記だったらもう答え知ってるんじゃないのっていう選択肢なしでも答えられないんだ。
選択肢なしでも答えられないんだと言いましたか、今。
すぐさっき好き見せるといいとかついてくるね、ほんとに。
なになになに。
その次言おうとしてたことだから。
そうなの?
これ何、先行った方が勝ちっていうゲームでいいの?これは。
いや、いいね。今のところちょっと負けてるね、俺ね。
俺が見てる台本見えてる?って思った。
でもそう思うんだけど、もうなんかだからさ、要はさ、暗記力を試すなんてもうAIなんかもう何のあれじゃん、100点満点でしょって、なんか思ってんの。
結局それはスコア上がっていってしまうんで、推論能力を上げたいよね。
いろんな事実から基づいて考えて答えを出せるよっていう能力。
はいはい。
そういうベンチマークがね、あるんですね。
そうだよね。
それがね、GPQAってやつね。
GPQA。
はい、GPQA。またね、この4文字なんですよ。覚えにくいね。
なんかGHQみたいなね。
まあそうだね、確かに。ちょっと戦後感があるんだけどさ。
まあこれはね、Google Proof Q&Aベンチマーク。
これはどういうことかっていうと、Google検索を使っても答えが見つからない問題のデータセット。
ほうほうほう。
だから検索しても分かんないよと。
考えなきゃ分かんないよねと。
それはもう生物学とか物理学とか科学の分野における白紙号を持ってるような先生たちが、
学生向けにこうレポートとか書かすじゃない。
そういうレベルの出題が出て、それをちゃんとあなたたちは解けますかと。
単純な検索、事実検索とか知識だけでは解けないように設計されてる問題集みたいなのがあるのね。
それがGPQA。
これも、これは推論能力だよね。
だから知識を持ってるかじゃなくて、ちゃんと考えれるかみたいな。
高度な推論ができるかっていうのを試す、そういうベンチマークです。
ベンチマークの問題点
これはね、ちゃんと、いわゆるさっきカネリンが言ったようなSNSで出てくる、
パッと貼られた企業みたいなやつあるじゃん。
グラフみたいな。
あれ上のほう見ると、ときどきGPQAとか書いてある。
なるほど、なるほど。
これはなんか、性能測れそうだね。
性能測れそうでしょ。
この他にも、似たような推論の能力を測るもので、数学的推論を測る。
これはもう本当にさ、物理学とか生物学とか、そういう知識レベルのものなんだけど、あくまでもね。
じゃなくて、もう数学の問題を解けるかっていうベンチマークもあって。
なるほど、なるほど。
GSM8KとかGSM1Kとかね、またあるんですわ。
シンプルにマスっていうね、ベンチマークもあるんだけど。
数学を解かせるというよりは、数学を解くっていう能力が、そのAIの持っている論理的思考を測る上ですごく使えるので。
そういう意味で、数学をベースにしたベンチマークテストもあるよと。
数学ね。
そうそう。それもまたね、ちょっと概要欄に貼っときますけど。これも出てきます。パッと貼られるようにね。
最後、もう一つ最後あるのが、プログラミング能力。これまた別だよね。
別か。
コード書けるかっていうの。これもね、いろんなベンチマークがあるんだけど、一番よく言われるのはライブコードベンチっていう。
ライブコードベンチ。
ライブコードベンチっていうベンチマークがあります。
ヒューマンイーバルとか、SWEベンチとか、ライブコードベンチ。この三つがプログラムの能力を測るものなんだけど、これも覚えなくていいです。
貼っときます。とにかく、プログラム能力を測るよっていうベンチマークテストもあると。
こういうことで、推論能力とか、そもそも持ってる知識の能力とか、プログラミング能力。こういうものを測っていけるんだよね。
なるほど。
だが、さっきね、カネリンが言ってくれた話なんだけど、結局このベンチマークって、AIが進化すればするほどに、どんどん意味がなくなっていくというか、問題を抱えていくわけ。テスト自体が。
今、ベンチマークテストにおいて最大の脅威と言われてるのは、
何?
テストデータの漏洩なの。
なるほど。
AIってさ、学習するとき、LLM作るときってさ、ネット上にあるほぼ全ての情報、文章を学んでいくわけ。
その中に、ベンチマークのテスト問題、含まれちゃうよねっていう話がある。
含まれちゃうんだ。
含まれちゃう。だってあるから、世の中に。それはベンチマークってさ、公開されてないとさ、意味ないじゃん。
公開されてないんだ、中身。
だってみんながさ、それを試したいわけよ。自分の作ったモデルを。
そうか。
標準化された手法だから、それをさ、自分たちだけで抱えてたもんさ。
なんか当社費みたいな。うちのテストではこんな結果でしたよって言われても誰も信用してくれないじゃん。
だからもう一応標準化されたものでやりたいんだけど、結局そうなると、公開されてますと。
じゃあ何かの弾みでその問題全部学んじゃったよってなったら、それってカンニングじゃん。
出た、カンニング。
カンニングしてるよね。だからその問題分だけを知ってるっていう状態、入力汚染って言うんだけど、か問題と正解両方知ってる状態。
これが最も深刻な状態なんだけど、このラベル汚染っていう状態になっちゃうと、ベンチマークテストやっても正しい結果が出てこないと。
指標の目標化
なるほどね。カンニングだもんね。
そう。こういう問題があります。
なるほど。
あとさらにもっと根深い問題があってですね。それがね、グッドハートの法則っていう法則があるんだけど。
グッドハート。
グッドハートの法則。これは別にAIに関わらないことなんだけど、一般的に言われてること。指標の話なんだけど。
指標。
何かの指標があったとき。指標が目標になると、それは良い指標でなくなるっていう法則なのよ。
はいはい。分かったような、分からないです。
これどういうことかっていうと、いろいろ例はあるんだけど、すごい分かりやすいで、今まで出てきた、今まで歴史上で起こったグッドハートの法則の例を説明すると。
あのね、19世紀のベトナムで起こった問題があるんだけど、すごいネズミが出たんだって。
ネズミ。
とんでもないくらいいっぱいネズミが出ちゃうと。だからみんなでネズミを退治しましょうねと。
まあその指標で、だからネズミの尻尾一本持ってきた人に、報償金あげますよっていう対策を打ったのよ。
はいはいはいはい。
だからネズミの尻尾をいっぱい集めてやれば、いっぱいネズミを倒したってことじゃん。それで報償金がもらえると。
集めたネズミの尻尾の本数が成果ですよと。
はいはいはい。
それをみんな最大化してくださいってやったんですけど、結果的にですね、何が起こったかっていうと、人々がネズミを飼育し始めると。
なるほど。尻尾を量産し始めた。
尻尾を量産しようと。
だからそのネズミの尻尾を集めるっていう指標が目的になると、本質的なことからそれちゃうよと。むしろ結果的にネズミが増えましたねっていうことが起きたと。
あれだね、AIみたいだね、なんかね。変なやり方ハックして。
あ、そうそうそうそう。強化学習みたいだね。
強化学習のね、なんて言いましたっけ。
ん?何が?あ、そのインチキ?
うん。
ずる、ずる。一休さん、なんかあったっけそれ。
リワードハッキングでございます。
リワードハッキングです。
リワードハッキングでございます。
それリワードハッキングだよね、それ。
リワードハッキング近いね、人間がやっちゃうようなね。とかね、なんかいろいろそういう事例が歴史的にはあってさ。
なるほど、そういうことを言ってんだ、この。
そう。
指標が目標になるってのは。
そう、指標が目標になると良い指標じゃなくなると。このベンチマークのテストも結局みんなAI開発してる人は良い指標、良い点数を取りたいのよ。良い性能を出したいじゃない。
そうだね。
だけどさ、それってさ、やっぱそのベンチマークで比較しようと思った瞬間に指標が目標になっちゃうよね、AIって。
なるほどね。
だから特定のベンチマークでスコアを上げ過ぎることに特化すると、反過性能が落ちてくると。他の類似の問題とか新しい問題に対応できなくなるよと。
実際そういうモデルが増え始めてしまったっていうのがあるよね、ベンチマークが広がってきたことで。
なんかあれか、試験問題、試験突破に特化してあんま他のことやんないみたいな。
あ、そうそうそう、本当にその受験勉強を特化しすぎて。
人間と一緒じゃん。
別にその受験勉強の枠外でその能力使えないみたいな。
はいはいはいはい。
実際そんなことはないんだけど、あんまりにもそこに特化しすぎると。
試験に出ない内容は勉強しないみたいな。
しないとか、数学の数式丸暗記しちゃうみたいなね。
法則をすべてもう理解せずに全部丸暗記していくみたいな、教科書1から10まで。
ほんと一夜漬けまんじゃん。
それって本質的な能力ではないが問題を解けるようになるじゃん。
アプローチとしては間違ってるじゃない。
数学の数式丸暗記みたいなのって。
理解したほうがいいじゃん。
っていうそういうね、ずれが生じてくるよと。
なるほどね。常にずっとブラッシュアップし続ければいいのそれ。
でもブラッシュアップしたところで、新しいベンチマークに対してまたそこを点数が取れるように取れるようにというふうなイタチごっこがなるわけよ。
イタチごっこだね。
だからこれに対する対策をしなきゃいけない。
動的ベンチマークの重要性
はいはいはい。永久にイタチごっこしてるじゃダメなの?
永久にイタチごっこすると結局何が起こるかって言うと、今LLMで起こってる実際のことがあるんだけど、世の中のすべての情報を学んで、もう学ぶことないよねってなっちゃう。
テキストって有言じゃん。世の中のインターネットに手に入るテキストって有言じゃない。
それをもう学びきっちゃったと。
なるほど。
もう使い切っちゃいそうだよっていうデータの枯渇っていう問題も実はLLMも抱えてる。
もうこれ以上ないと。
そう。だからどうしてもどんどんどんどんイタチごっこしてると必ずどっちかがベンチマーク側が飽和してくる。飽和というか頭打ちになってくると。
それはもう目に見えてますよっていうことで、ここでちょっと究極の対策をしなければならないと。
究極の対策はブラックボックス化じゃないですか。
いや、それはね、ブラックボックス化しようがないですね。ブラックボックス化しても結局作らなきゃいけないじゃん、そのベンチマークのテストと問題を。
作ってる時点で、やっぱそこで限界見えちゃうのよ。
なるほどね。
だからそれはね、動的ベンチマークっていうのが大事なの。
動的。
もう常に新しい問題が生まれ、常に評価する人がいると。
うんうん。
問題がもうずっとこう繰り返し繰り返し生まれ続けるようなベンチマーク。
ほうほうほうほう。
こういう形が非常にいいよね。この動的ベンチマークを作らなきゃいけないよねと。
だからね、AIが問題作り続けるみたいな感じ?
そう、それに近いね。
AI対AIじゃん、もはや。
そう。今日はね、それをね、紹介したいと思います。
人間がやることは終わったと?
いや、AI対AIというよりは、結局人間が問題作って評価しましょうねと。
いうところをやったら、これ究極の動的ベンチマークになるよねと。
ということで生まれたのが、チャットボットアリーナ。LLMアリーナ。またの名をLLMアリーナって言うんだけど。
はいはい。
チャットボットアリーナの紹介
そういうベンチマークがあります。
なるほど。前教えてくれたやつじゃない?
そう。この話1本したいよねっていうのを、多分パート1かパート2とか最初の方に言ったんだけど。
そうだね。それがそうなんだ。
LLMアリーナっていうのがあります。
それが動的?
これが動的ベンチマークです。
そう。
結局さっき言ったスコアの話したんだけど、いろんなベンチマークの話したんだけどさ。
推論能力もそうだし、知識の能力もそうだし、プログラミングもそうなんだけど。
それって能力な話であって、人間にとっての良さを評価するのってちょっと難しいよねと。
使いやすい、使いにくいとか、そういう何とも言えない指標って生成屋を使うためにあると。
人間が使いやすい、使いにくいと。
それを動的で主観で評価してベンチマークにしようとしたのがチャットボットアリーナというものだね。
これがやっぱ一番今ね、ベンチマークのリーダーボードとしては見た方がいいもの。
そのLLMの能力を測る上で、チャットボットアリーナのベンチマークの結果を見とけば、
あ、このぐらいいいんだっていうのがよくわかる。
人間がジャッジするどっちがいいかどうか。
そう。
これはね、皆さんも評価者になれるんで、ぜひともやってほしいんだけど。
入力するじゃない。質問を投げると。
そろそろ回答が2つ出てきます。
Aの回答かBの回答、どっちがいいですかっていうのを自分でジャッジするのね。
ジャッジした後に、実はこれはこっちジェミニでした、こっちクロードでしたっていうのが答えが出ますと。
ジェミニの方を自分が選んでたらジェミニにポイントが入るよみたいなのを世界でやってると。
なるほどね。
これやったよ、さっきっていうか。
やりましたよ。
やりました?
やったやったやった。
そういうことかって思って。
そう、これはいろんな人がやることによって、しかも画像生成とかもあるのよ。
画像もこの言葉、入力したテキストに対して、どっちが自分が欲しかったものかっていうのを自分でジャッジすると。
だからその人にとって、人間が使ってこっちがいいなって選んだ方がどんどんどんどん点数が高くなっていくよっていう。
日本語ベンチマークの必要性
そういう仕組みなのね。で、常に生成や移動してバトルしてる。そういうアリーナなのよ。
これ結構、みんなやんないとデータ貯まらないってことだよね。
そうだね、やんないと貯まらない。
人は何をインセンティブにやるのこれ。
これはね、いいとこ、いいとこつくね、もう。
いやさ、やってって思ったのよ。これ何か使えるけど、何か別にボランティアだよなっていうか。
ボランティアなんだけど、ナノバナナの話もしたんだけどさ。
今Googleが作ってる、まだ公開されてないモデルみたいなものも、この中にぶち込まれるの。
それでナノバナナが出てきたんや、そういえば。
そう。
なんやこれって。
これでナノバナナが出てきた。ナノバナナっていう、何かバナナのマークの変なAIが出てきて、何だこれと。
それがナノバナナっていう名前になったんだけど、バナナのマークだったから。
バナナのアイコンで、何かめちゃくちゃいい画像出してくるやつがあると。
なるほどね。
何だこいつはって言って、もうとにかくその画のモデルで画像を早く生成したいって言って、みんなエレエレアリーナでもうランダムだよね。
だからそれが出てくるかどうかわかんないけど、何回も何回もトライして、バナナ出てきたすげーみたいな。
もういろんなギークたちが集まってた、もう対戦しまくるね。
でそれまだ世に出てないやつにワンチャンガチャで使える楽しさでやってんの?
そう、とかもうそう、なんかこう覆面レスラーみたいなやつが登場するから、それいいよねと。
あと別に無料で使えるからさ、いいモデルが。
普通になんかちょっと課金せずに使えるっていうのもあるから。
ガチャでね。
そういうインセンティブあるよね。ガチャだけど。
ガチャだよね。
ガチャガチャ。ずっとやらなくてもいいと思うけど、みんなこのいろいろ全国にタダで公開されてるから、ちょっとって触るだけでもだいぶそこに貢献できるよってのあるね。
今だとね、今は今日収録日が11月24日だけど、今現在だともうジェミニ3.0のプロがもうすべての1位を取ってるね。
そうだね。確かに確かに。でこれがもう公開されてる時にはまた違うのがひっくり返ってるかもしれないよね。
そう、これ収録してるのからまた1週間2週間後後に公開されるからさ、その時にはもう違うモデルになってるかもしれないけど、ここねこうやっていろいろ能力を見れるわけですよ。
チャットボタンアリーナね、いろいろ1個の指標じゃなくてさ、いろんな指標があるのよね。
まず総合能力でしょ。これはもう本当に総合力。
全部の指標を合わせて、とりあえず一番賢いのはどれって知りたい時はもうオーバーオールってやつ見ればいいし。
オーバーオール。
オーバーオールってやつがあるね。あとはハードプロンプトって、なかなか難解な問題に答えられますよっていう能力。
コーディング、これはプログラミングだよね。あとはマス数学、あとクリエイティブライティング、創作とか文章制作とか。
なんかいろいろ指標があるのよ。あとロングテキストとかね。
イメージトゥビデオとか。
そうそう。それはもう本当にそのままだよね。画像から動画にするよとか。
いろいろ下の方に、たぶん今カネリンが見てるページの下の方に行くと、総合的な表みたいなのが出てくると思うんだけど。
なんか表があるね。
そこにたぶんオーバーオールとかハードプロンプトとかコーディングとかマスとか並んでると思うよね。
ほんとだ。
それがその各分野の能力って感じ。
ほぼほぼジェミニ3プロじゃん。
今のジェミニプロが全部。
全部じゃん。
現時点ではゾワって取っちゃってるからさ。これはすごいことなんだけど。
すごいね。次がグロック4.1だよ。
グロック意外と頑張ってるんだよ。
グロック強いじゃん。
そうそう。グロック意外と頑張ってるよね。
もう何?
次クロードソネット4.5で次ジェミニ2.5プロだよ。
そう。
GPTなんかもどっか行っちゃったじゃん。
GPTが結構今下の方にいるね。
ジェミニ2.5プロの次にいるよ。
こういうのでどのくらいの能力がわかる。意外だよねそれってすごく。
ジェミニのさ。
うん。
ちゃんとGPTの5と比較して。
前の世代より下だよ。GPT。
ただこれはあくまでもさっきも言ったように人間の習慣が入ってるから人としての使いやすさ。
能力とはまたちょっと違う。その推論能力で見るとまたちょっと変わってくるのよ。
なるほどね。
だからこれも見つつさっき言ったような指標たちのそのリーダーボードとかを見てあげると実際の能力とは使いやすさっていうのが結構こうなんとなく見えてくる。
結構主観的な使いやすさランキングか。
そうこれはそうだね。でも動的なベンチマークだから非常に人の血が通ってるような。
なるほどね。パックしにくいしなんでこんな順位なのみたいなのはあんまないってことだよね。
あんまない。
なるほど。
だけどこのあくまでも定量的になってなるとさっき言ったようにMMLUとかGPQAとかそういうとこ見てあげるとそんな感じなんだなっていうのがわかる。
今もう見るとそれ全部Gemini Proが1位なんだけど。
そっちの定量的なやつも。
そう。
王者だね。
めっちゃ強いなっていう感じ。っていうのがこのベンチマークを見れるようになったらわかるのよ。実際どのぐらいすごいのかと。
その次は誰なのかって見るとこれよりこんだけすごいんだねっていうのが捉えられるようになる。
そうだね。
だから落ち着かない新しいモデルが出るたびにだいたいもう解約しましたみたいな。他のAI解約しましたみたいな人が出てくるんだけどさ。
これ1本でもういいのかなみたいな。俺あれ使ってるけど乗り換えなきゃいけないかなみたいな。
今のとGemini使えばいいかなってなるよね。
そう。今のとGeminiもうJetGPT使ってるオワホンですよみたいな。そういう落ち着かないような情報が出てくるから。
そうだね。
実際それが定量的にどうなのかっていうのはベンチマーク見ればわかるからさ。
まだそっちのベンチマークは有効。
有効。
そのうちなんかハックされたりしてあんまり有効じゃなくなってくるってこと?定量的な数字。
そのたびに結局定量的などんどんそのベンチマークも更新しよう更新しようって新しいのが出てくるから。そこはイタチごっこ。さっき言ったようにイタチごっこではあるんだけど。
イタチごっこね。
まだ頭打ちしばらくは頭打ちにならないとは思う。
なるほどなるほど。
うん。なんだけどその定量的なものもそうだし、でそのさっき言ったチャットボットアリーナのその人間が評価しているものもちゃんと見たほうがいい。やっぱり2つ見ると非常にいいと思います。
両方見なかんのや。
あとね一応ね日本語ベンチマークってのもあるのよ。
いいねそれ。それ大事だね。
そう。推論能力とかチャットボットアリーナのベンチマークが必ずしも日本人に使いやすいかって言ったらちょっとずれてる。
だから国際的なベンチマークで高いスコア出してもやっぱ日本語の性能を保証するわけじゃないから。
なるほど。
日本語の文法とかそのトークンの効率とかそういうものをベンチマークのテストして比較しましょうっていうのもあるのよ。
日本語LLMのリーダーボード
とりあえずねじゅみLLLリーダーボードっていう。
ねじゅみ?
ねじゅみ。ねじゅみってやつがあります。
ねじゅみ?
ねずみだと思ったんだけどね。なんかねじゅみらしい。
リーダーボードLMM。
なんでこんな名前つけたんだ。
でたねじゅみって書いてある。
なんでねじゅみなのかよくわかんないんだけど。
オタクっぽい人が作ったのかな。
これはねほんと日本語のLLMのリーダーボードなので。
これを見ると日本語の何が強いのかっていうのがわかるね。
なるほど。これも。
今現時点では。
これもじゃん。
一緒です。
ジェミニじゃないですか。
ジェミニですね。
ジェミニはちゃんと驚いていいやつなんだなっていうのはよくわかる。
全部ジェミニでいいんすねっていう。言えちゃうね。
今現代ではね。だけどこれを聞いてる時点ではもしかしたらガラッと変わってる。
そうだね。
もうGPTだよね。クロードだよねみたいな。
クロード5みたいな。
クロード5もうこれだけでいいよねみたいになってるかも。
それだけこう抜いた抜かれたをずっと繰り返してる。
なるほどなるほど。
いやいいわ。今回の回いいわこれ。
いい?
だってさ今回でさもうね。
ジェミニ使えばOKすよみたいな発信してたらもうさ痛いじゃん。
そうね。数年後ね。数年後というか数ヶ月後か。
もう数ヶ月後には真逆のことになってるかもしれないから。
真逆だし本当にこれ配信日にはもうなんかひっくり返ってたりしたら恥ずかしいじゃん。
ひっくり返ってる可能性もある。
今日はもうそのジェミニがすごいとかそういう話じゃないから。
これを見てくれと。
チャットボットアリーナとかねじみリーダーボードランキングとか他の指標。
そのねいろんな指標がある中でさっきからリーダーボードリーダーボードって言ってたけど。
今言ってるのは指標の話ね。
リーダーボードっていうのはその指標を使って評価したランキング。
これをリーダーボードって呼ぶんだけど。
ランキング。
ランキングね。
何が違うのか。
指標は数学のテストですみたいな。
順位ですがリーダーボード。掲示板に貼り出されますみたいな成績が。
貼り出されてるやつね。はいはいはい。
このテストの成績はこれですっていうのをリーダーボードっていうんだけど。
そのリーダーボードのURLは全部貼っとくんで。
そこクリックすれば今のランキングこうなんだってわかるから。
それはねブックマークしといた方がいいと思うね。
ブックマークしときたいね。
これ日本語のやつはさ日本語の画像生成とかいろいろあるの?項目。
あるはず。確かあった。
これさどういう順番で全部見なあかんのこれ。
ちょっとね見づらいよね。正直ちょっとね。
ねじみはねちょっと見づらい。
まずさっきの。
まあ新しいモデルが出たときに日本語能力どうなんだろうっていうのをここで見ると。
LMアリーナまあとりあえず見て。
で他の何。定量的なやつ見て。
で最後に日本語ねじみも見ると。
見る。まあ自分から取りに行ってもいいし。
SNSどうせ発信してる人いるから。
それを見たときにあこれはこの仕様だなっていうのがわかるようになってればいいと思う。
なるほどね。
まあでもLMアリーナぐらいはちょっと覗いてみて。
ああやっぱこのぐらいにいるんだなとか。
前自分が使ってるモデルとか今自分が使ってるのはこのぐらいの位置にいるんだなっていうのはこう見とくといいと思う。
なるほどね。
AIによる動的評価
はいっていうねそういうものがありますよと。
驚き疲れなくなりそう。
そう。さらにこう今後どういうことが行われていきそうかっていうのがあって。
まあ若干始まっているんだけどLLM as a judgeっていうね。
これはね結局今言ったじゃんその人間が評価してますよと。
そのインセンティブ何なのって彼に言ったじゃない。
そうよそうよやらなくなっちゃうよ。
確かにやらなくなっちゃったら困るよね。
じゃあその人間の代わりにLLMにLLMの評価させりゃいいんじゃないみたいな。
出たよ。
だからLLMが入れて帰ってきてこっちがいいこっちが悪いっていうのをLLMに評価させると。
その無限にずっと評価してくれるみたいな。
そうね。
それは動的なのよ。
動的に入るんだ。
動的ベンチマークじゃん。だって問題だって変わるし審査するときも必ずしも同じ答えを出すわけじゃないじゃん。
いろんなモデルがあるしいろんなパラメーターとかチューニングすれば全部違うようになるし。
ハックしづらい。
そう。決まった答えがあって必ずそういう答えで正解なわけじゃなくて動的なので。
かつチャットボットアリーナみたいに人を開催してコストをかけてやらなくても自動でやってくれると。
こういう仕組み非常にいいよねってことでそれがLLMアザージャッチというもの。
アザージャッチ。
アザージャッチ。人手の評価じゃなくて、やっぱ人手の評価って人によってブレるじゃん。
俺とカネリンが評価しても多分全然違う結果になる。
そうね。
うん。なんだけど賢いAIにやらせてあげればもうちょっと動的でありながら効率的かつ堅実な評価できるんじゃないのっていうのでこういうのが結構取り組まれてると。
人間のニュアンスみたいなところまでAIに明け渡しちゃうのか。
まあ、そうそうね。
感覚みたいなところを明け渡すのかっていう寂しさはあるけど。
そう、この感覚を明け渡すと。やっぱ人間は人間らしいことをね、やらなきゃみたいな。そういう文脈なのかもしれないけど。
そこはさ、人がジャッチした今のLMアリーナとさ、どれくらいずれてくるのかっていうのにちょっと興味湧くな。
気になるよね。
うん。全然遜色ないのかさ。おいおいこれはちょっとよってなるのかっていう。
なんかね、リーダーボードあるのかなって探したんだけど、あったけど、なんかね、ちょっと更新されてなかったよね。すぐ見れるやつは。
もう走ってるのこれ。
走ってるやつがある、プロジェクトとしては。
えー。
なんだけど、ちょっと更新されてなかったから、なんかうまくいってないのかもしれないけど。
いってないのか。
一応ね、メリットもあるし弱点もある。
弱点あんだ。
当然バイアスもあるから。
バイアス、まあ人間にもバイアスあるじゃん。
うんうん。
だけどAIって結構さ、一バイアスっていうさ、なんかちょっと、それ本当に影響しちゃうの?みたいなバイアスがあって。
順番を出される、出される順番でバイアスがあるっていう。
へー。
だから回答A、Bって出した時に、片方、先に出た方を好む人もいれば、後に出た方を好むみたいな、そういうね傾向、一バイアスみたいなやつがあったりとか。
へー。
なんかあれだよね、ゴタクで、ゴタクのマークシートでどこを選びやすいです人間は、みたいなのと似たようなもんかな。
あ、そうそうそうそう。
あるよね。
なんかそのね、真ん中を選ぶのか、真ん中よりちょっと一個上選びたいみたいな。
そういうバイアスがAIにもあるし、あと冗長性バイアスって言って、これ人間も同じなんだけど、内容が薄くても長くてそれっぽい文章の方が好評化されるみたいな。
うんうんうん。
評価の公平性と課題
これもねやっぱね、バイアスがあると。
それってそもそも人間のバイアスが学習されてるからっていう例のやつ?
それもあると思う多分。
あー。
なぜAIがそっちを高く評価するのかは、人間がそれを高く評価してるからっていうこともあるかもしれないね。
そこまではちょっと書いてなかったけど。
なんかさ、そこも踏まえてスコアリングすれば良さそうな気もするよね。
そう。
一バイアスの影響かどうかも含めて。
それをねやっぱバイアスを取り払うってこともやってる。
うんうんうん。
で結構面白いのがね、自己好みバイアスってのがあって。
自己好み。
うん。だからGPTはGPTの出力が好きっていう。
あーありそう。
そうそうそうそう。
ありそうだよね。筆記だよね。
自分の系統のAIが出力した文章を、そのAIが高く評価するっていうバイアスもあるみたいで。
それもなんか人間ぽいよね。
ちょっと可愛いよねそれね。
あーこれは俺たちの仲間の出力者だっつって。高いテンスをつけてやろうって。
そりゃそうだよなでも。
そうLLM as a judgeだとねそういう風になる。
どこまでいっても人間臭さが残るAIちょっと面白いな。
そうそうそう。
という感じでね、今日の話はこのぐらいなんだけど。
うんうん。
まそういうまとめると、とにかくそのLLMを評価する指標っていうのはいっぱいありますと。
はいはい。
それはテストがあって、そのテストの点数で測るっていう定量的な指標から、人間とかAIが動的に評価するよっていう指標、2つがありますよと。
でまあその指標もね色々と汚染されたりとか、指標自体はAIが学んじゃうっていうそういう汚染もあるし、指標自体が目的になると、
反過性能が落ちる、汎用的な能力じゃなくなっちゃうよねっていうのもあるので、非常にその評価の標本を作るのも難しいのよ。
なるほどね。
だけどまあ今そういう研究ってさ、評価あって初めてそのAIの能力が表明できるから、
やっぱりAIのその仕組みを作る人と評価をちゃんと作る人っていうのがいるよね。それぞれ研究されてると。
でもさ、評価のさ、ベンチマークの中身をブラックボックスにしたベンチマークってのは、何でダメなんだろう。
ブラックボックスにしたベンチマークは、ベンチマークとして保証できないからじゃない?
何の能力が高いのか分かりませんみたいな感じ?
そのベンチマークが、例えばさ、そのベンチマークをアメリカが作りましたよって言ってさ、
アメリカのLLMがすごい高得点取ってたらさ、なんか不公平な感じ出ちゃうよね。
そうね。
中国のベンチマークですってさ、中国の国が作りました。でもこれはブラックボックスだけど平等ですって言って、
なんか点数に偏りがあったらさ、疑いが出ちゃうじゃん。だからベンチマークって基本的に公平じゃなきゃいけないよね。
公開されてる。それが定量的な指標、フェアな指標として証明できないとベンチマークとして使えないんじゃないかな。
そういうことなんだね。分かったような分からんような感じだけど。
ブラックボックスだと辛いよね。でもインプットしてアウトプット出てきちゃうよね、ブラックボックスだとしても。
だからあれか、そのブラックボックスにAIを突っ込んで、何点みたいな。ハリーポッターみたいな帽子被せたらグリフィンドールみたいな。
そういう帽子を被せるみたいな感じ。
そういうことになるのか。
そう、そうなっちゃうよね。何人か分かんないけど、とりあえずモデル作りました。帽子被せます。グリフィンドールって言われた。なんで?
いやそれは言えないけど。これでグリフィンドールだからみたいな。
そういうことになるか。
そういうことになっちゃうよね。納得できないよね、みんなね。
オープンにはせざるを得ない。
オープンにはせざるを得ないと思う。
カンニングはやっぱ防ぎようがなくなるってこと?
そのカンニングを、知ってるか知ってないかを評価するっていう研究もある。このLLMがベンチマークの問題を学習してしまってるかどうかを測るための手法みたいなのもあって。
それも結構論文が出てたりするよね。
なるほどね。
ベンチマークの重要性
そういうのは排除したりとか、なるべくこのベンチマークのものを学ばずに学習しようっていうのはある。
そういうふうにしましょうってなるけど、混ざり込んじゃうとか、何らかの形で混入しちゃう場合もあるから。
それ混入しないよねっていうのを確認する必要もあるんだけど、こんだけいっぱいベンチマークのテストがあって、いちいちそれぞれ確認してられないよねっていうのがある。
そうだね。
とりあえず主要のベンチマークだけは学ばないようにするけど、みたいなのもあるけど。
じゃあ今回みたいにさ、明らかに性能高い上位のやつは個別にカンニング学習してないかどうかをチェックする、何かを走らせるみたいな、そういう感じ?
そうだね。
対策としては。
対策としては。
ジェミニ怪しいなおいって言って、調べて。
調べてね。
大丈夫じゃんって。それピンポイントでやっていくことになるのかね。
そうだね、ジェミニ側が自分で多分セルフチェックみたいなのしてるとは思うけど、ベンチマークがやっぱりベンチマーク足りえるためには、そういう公平性をちゃんと見るような仕組みと作り方が必要ってことだよね。
オープンソースモデルの評価
なんか疑義が生じたときにチェックできるんだったら問題なさそうだね。
一応ねチェックできる技術はあるみたい。
だったらいいね、別にうぞうむぞうの下の方はどうでもいいもんね、勝手にやってて。
そうね、下の方はどうでもいいかって言われるとね。
どうでもよくない?
結構ね、下の方も重要でさ、下の方にあるのって大体オープンソースのモデルなのよ。
だからGoogleのモデルってさ、ジェミニってさ、我々はAPI経由で使ってるとかチャット経由で使ったりとかブラウザ経由で使ったりするわけじゃん。
じゃなくて中にはOSSだからオープンソースのモデルがあるわけ。
それは自社のリソースの中に入れて使うよと。
自分たちのパソコンの中でちゃんと動かして自分たちのサービスとしてLLMを動かしますよみたいなそういうオープンソースのモデルもいっぱいあるのね。
そのオープンソースのモデルもやっぱ反価性能っていうのは高めてもらわなきゃいけないんだけど、
オープンソースのモデルで性能を高めましょうって言って不正にベンチマークのものを購入してたらまずいわけじゃん。
まずいね。
この企業がさ、これはちょっとオープンソースのものだからこれ製品を開発しようってスコア高いと思ったらそれが不正されてたらまずいよね。
だからジェミニーとかわかりやすいチャットGPTとかクロードとかそういうところもいいんだけど、
その下の方にあるやつは本当に企業が自分の会社の製品として組み込むそういう可能性のあるものだから、そっちの評価もやっぱ大事よね。
そっちもそっちじゃちゃんとカンニングテストできるようになっとかなかうんね、じゃあ。
そう。それはそれでね、そういうテストはあるの。
あ、そう。
うん。ちょっと紹介しなかったんだけど。
カンニングテスト?
カンニングテストというかそのオープンソース用のハギングフェイスっていうサイトがあるのよね。
ハギングフェイス。
ハギングフェイスっていろんなオープンソースの情報がプログラムとか載ってるような。
あ、なんかニコちゃんマークのやつか。
そうそうそうそう。
はいはいはい。黄色いやつ。
ハギングフェイスオープンLLMリーダーボードってやつがあって、それはもう本当にオープンソースのLLM専用のランキングみたいなやつ。
なるほどね。
うん。
なるほど。
これはそういうね、やっぱね、おかしなスコアがあると議論される仕組みになってる。
うんうん。
こいつなんかちょっとおかしいぞ。この表紙だけ高いってことはなんか学習ミスってるというか、ベンチマークの文章を学習してんじゃないかみたいな。
うんうん。
そういうのをみんなで見合って指摘して、不正があったらモデル削除みたいな。
うんうん。
そういうね、総合監視みたいな仕組みがあるのよ。
なるほどね。オープンソースだからみんな見れるから。
そう。やっぱね、すべてが、しかもオープンソースの場合って言ったらすべてが透明になってるから、不正ができないよねっていう監視関係にはある。
うんうんうん。
そうやって総合監視したりとか、汚染しないようにしようねっていうのをうまく作ってるのがハギングフェイスのオープンLLMリーダーボードってやつで、一応そういう文化もあるのよ。
性能評価の手法
ハギングフェイスって何なのこれ、コミュニティなの?
そうだね。俺もちょっと詳しくは説明できない。
GitHubとRedditが合体したみたいな感じなのかな。
俺もお世話になっているけど、オープンソースのAIのモデルが公開されてみんなで使いましょうねみたいな。
うんうん。
そういうプラットフォームやね。
なんかステーブルディフュージョンのさ、モデルがいちいちこう上がってて。
そうそうそうそう。ここにめちゃくちゃある。
俺はね、当時使ってた時によくここアクセスしてたもん。
そうこっからねモデルダウンロードしてきてさ。
ヤバそうなモデル。
自分のステーブルディフュージョンに入れてさ。
ヤバいモデルがいっぱいあったよな。
あったねー。あれ楽しかったねあれはねー。
楽しかったけど。
あの時期楽しいよね。ワクワクするもんなあれね。
こんなことできちゃっていいのかなーみたいな。
こんなできるよー。もうあれはね頭がおかしくなりそうだった本当に。
もうステーブルディフュージョンって下火なの?
下火なのかなー。
ローカルで動くからいいよねーみたいな感じだった?
ローカルで動くのはいいと思う。
未だにどうなの?
あるんかな?
あの後のこの画像生成ってどうなってんだろうって。
みんななんかナノバナナとか言っちゃってんじゃん。
いやもう多分ナノバナナじゃない?
そうなっちゃったの?
ちょっとエッチなの作りたい人だけのものかね。
そうだね。
エロ用。
エロ用はだいぶね誤解を招くというか。
真面目に使ってる人がいたらちょっとまずいけどさ。
大変申し訳ないですね。
どうなんだろうねステーブルディフュージョンも。
オープンソースの文化だから結構自分たちで作り込めるとか。
クロートはねかなりまだまだ与えられたものでやるんじゃなくて、
もう自分で作りたいんだよとか。
こういう絵しか俺は出さんみたいな人は多分全然。
学習データを自分で選べるっていう。
選べるし作れるじゃんあれってね。
なんでそういう人たちは多分使えると思うから、
まだあるとは思うけど期間ね確かに。
なんか全然話題にならなくなっちゃったよね。
ちょっとそれ調べてみよう今度。
なんか面白いネタかもしれんね。
あれはどうなったのかみたいな。
ね。
実はそこ面白いことになってるかもしれんしね。
あの後どうなったのかシリーズいいね。
あの人は今シリーズね。
あんなに驚かれてたあの人は今どこにいるんだみたいな。
ほんとだよな。
そのシリーズいいね。
こういう風に定着したんですよとか、
実は皆さんが使ってるこれの中に形を変えているんですみたいな。
なんかありそうだよね。
風情あるよねそれね。
ミッドジャーニーとステーブルディフュージョンが俺の中でなんか過去の存在になってて。
ミッドジャーニーは全然あるんじゃない?
ありあり?
うんありありだと思うよ。
全然使われてる気がするけどな。
ナノバナナよりも。
ナノバナナ強すぎるからな。
もう全部持ってっちゃうのかなって。
今この11月末の時点ではちょっとそうなっちゃってるね。
そうなレベルなんだ。
ナノバナナ強すぎるよねみたいな。
やっぱりエロしかないね。
そうね。やっぱ勝つのはエロしかないね。
俺もエロい画像生成しまくってたからね。
電気使って。
本当にさ、どうにかしなきゃいけないんだけどさ。
どこに保存してたか忘れちゃって。
たぶん1万枚ぐらいの魚体の画像があるのよ。
一晩で生成したやつが。
やばい。やばいなそれ。
やばいじゃん。やばいんだけどさ。
いっぱい出ると思ってさ。
いっぱい出る?
すげーと思って回しまくってたのよ。ローカルでね。
その大量のエロ画像のデータをどこに保存したかわからなくなっちゃって。
俺は今コロッと死んだらさ、パソコンからそれが出てきたらさ。
で、しかも半端じゃない量あるよね。1万枚とかさ、たぶん平気であるんだよね。
だって一晩でさ、ダーってこう、何秒後に1枚って出ちゃうから。
そうだね。
しかもなんか手足がなかったりさ、そのなんだろう。
粗悪な生成だからさ。プロンプトが曖昧だから。
人の形をしていれば人の形をしていないものもあるから。
なんかやべえやつだったんじゃないかみたいな。
思われるよな。
あれ早く探さないとな、ちょっと。
ちょっとそれもう販売してほしいな、NFTで。
NFTで販売できるかな。
NFTってあれアダルトありなの?
いや、アダルトありとかなしとかっていうか普通に。
うん。
いけるの?
普通に法的な問題ですよね。
法的な問題をクリアしても大丈夫?
法的な問題ですよね。
まあなんかね、その辺の論争もどうなったのかあんまりさ、規着点を理解してなくてさ。
うん。
あったじゃん、絵師さんというかさ、イラストレーターがガンガン自分の学習されてさ、有名な絵師さんの絵出てくるよとかさ。
うんうん。
なんか有名な人じゃなくても、これクリエイターの権利はどうなってんだみたいなのが。
あったね。
結構、ステイブルディフュージョンあたりでさ、結構勃発してたけど、どうなったんだろうって。
なんかあれだよね、ちょっとごめん。
ジジイのネタを扱うと少しタイミングがずれちゃうかもしれないけど。
ちょうど、なんか逮捕されたよね、誰か。
あら。
最近。
大丈夫、首長。
初めて、エイローじゃないよ。
エイローじゃないか。
なんか生成AIの生成物での著作権違反みたいなので、国内初逮捕みたいなやつあった気がする、今週あたり。
あ、そうですか。ちょっと勉強しておきます。
ちょっと話それましたけども。
ちょっとね、新しい企画も生まれたところで。
いいね。
あの人は今企画もやりますけど。
今日の落ち着きポイントは、新しいモデルが出たら、こういう指標を見ましょうと。ベンチマークがありますせと。
その見方を、見方というか、まずベンチマーク見てみましょうと。それで落ち着きましょうねという結論でございます。
で、見るべき指標は概要欄にありますと。
めっちゃ貼っときます。
ブックマーク。
めっちゃね、今回の概要欄はいっぱい貼ってるよ。リンクがね。とりあえず全部ブックマークすればいいと思う。
あ、全部やればいいのね。
全部とりあえずやっとけばいいと思う。
わかりました。
この指標が何なのっていうのは書いておきますんで。
学習がてな概要欄見てください。
はい、お願いします。
落ち着いていきましょう、みなさんも。
落ち着きの武器を手に入れた感じだな。
そうなんだよね、やっぱ。
そういう知ってるか知らないかでね。グラフ出てきたとき、ああ、なんか難しいグラフだって思わないで、これは落ち着きAIで効いたぞって。
それなんだよね。
そこを目指してますから。
なんかすごそう。
なんかすごそうは落ち着かないから。
そう、なんかすごそうだけど、うーんって思考停止しちゃう。
そう。
で、メンション。あ、で、これ皆さんね、メンションしてくださいね。
あ、そう。
困ったら、あの、支部長とかね、この落ち着きAIを。
カネリンとか落ち着きAIを、はい、メンションしてください。
メンションしまくってください。
あの、ごメンションには気をつけてくださいね、ほんとに。
ごメンションって。
ごメンション。
ごメンション、ごめんなさい。
言ったとしたら、なんかいいね、ごメンション。
はい、落ち着かないネタをお待ちしてます。
はい。はい、じゃあ、ということで、本日はおしまいですね。
はいはい。
また次回お会いしましょう。
番組公式ハッシュタグは、シャープ落ち着きAI、ひらがなで落ち着き、アルファベットでAIです。
番組の感想は、XなどSNSでハッシュタグをつけて書き込んでください。
メンションでも大丈夫です。
はい。
今回の話、良かったな落ち着いたなという人は、星5つのレビューをつけて応援をお願いします。
それではまた1週間、落ち着いて過ごしていきましょう。
さようなら。
01:01:13

コメント

スクロール