まあでも何となくどっちがいいかっていうのが評価の集積で、
なんかそんなにいいんですかねみたいな話はあったりはするんですけど、
あったりはするっていうか、そういう風に感じる方もいらっしゃるかもしれないんですけど、
まあ割とその結構著名な虎の居岡で狸みたいな感じにはなるんですけど、
アンドレ・カルパシーさんみたいなオープンAIに昔いた有名な方がチャットボタリーナを信頼できるみたいなことを言ってたりとか、
あとLLMベンダーの各社がオープンAIとかがGPT-4を出す前にちょっとコソッと忍ばせて、
スコアが出る状態にしておいて、GPT-4が出た後にこれ実はGPT-4でしたみたいな、
なんか第三者評価機関みたいな感じで使って、最近は使っていたりとかいう感じで、
結構その課題もあるはあるんですけど、
人間の好みを示す評価としては結構信頼ができるよみたいな感じでは扱われているっていうところですね。
ちなみに香谷さんってなんかこのペアワイズ評価ってしたことあります?
チャットボタリーナのペアワイズ評価ってなんかしたことってあります?
チャットボタリーナの普通にバトルに参加したかったとですよね。
本当になんか最初の頃やった気がしますけどね、最初の頃は。
最近は全然やってないです。
本当に最初の存在を知ってやってみたかった頃にはやった気はしますけど、
最近は全然正直見てないというか、リーダーボードみたいなやつとかぐらいしか見てないので。
そうですよね。
なんか自分もこれ使い続けてる人がどれくらいいるんだろうっていうか、
どういうモチベーションでやってるんだろうっていうのはちょっと気になるので。
そうですね。
僕があんまりよくわかってないだけで、こう使うと便利とか、
一般、例えば評価のランキングを見るみたいな上でもあるのかもしれないですけど、
定期的に評価見たりとか、評価見たりはするけど参加する方は全然やらないですね、正直。
日本人でどれくらいの人が参加してるのかはめちゃくちゃ気になりますね。
ジャパニーズとかもありますけど、全然見てないです。
見たらわかるのかもしれないけど。
そうですね、ちょっとこれ間違った情報を伝える可能性があるが、
でもほんと数パー、日本語のクエリは3、4パーとか、それでも意外といるなって感覚でしたけど。
24万件の3パーぐらい。
確か。
これ後でファクトチェックしながら。
えらい。
ハンドレイさん、読み方わかってないけど。
僕もよくスポールをしてるんでよく見てますけど、
シャットボットアリーナと、あともう一個信頼するのはたぶんRedditですよね、これ。
コメントって言ってたら本当に極端な人の、割とアーリーアダプターっぽい人の意見だけを信じるみたいな感じの
主張なんだろうなと思いながら、改めてツイート見てて思いました。
そうですね。
一応このペアウェイズ評価というか、
ペアウェイズ評価というよりは、
シャットボットアリーナの評価観点のデメリットみたいなものも一応指摘はされていて、
わかりやすいのが、ちょっとユーザーの好みに寄りすぎているという側面はあって、
結構難しい質問とか、ドメイン知識が求められるような質問をユーザーがしたときに、
その内容をクエディをしたユーザーが正しく評価できるという話があったりして、
ちくいちファクトチェックをするのもだいぶ大変なので、
フォーマットがきれいとか、簡潔に答えているであるとか、
言い方がわかりやすいとか、
その人間がいい答えだなって、その内容自体のチェックというよりは、
人間の好みに合った内容になっているか、みたいなところが弱点だよねみたいな話があったりとか、
あとは、基本的にこの会話はマルチターンではない、シングルターンで終わることがほぼ、
平均ターン数が1.3みたいな感じらしいんですけど、
だいたい1ターンで終わるので、長期の会話でどんなパフォーマンスを示すのか、みたいなところに関しては、
そんなにスコアは実態を表していないのかなというところがあったり、
あとは、その評価者のバックグラウンドにすごい偏りがある、
さっき日本語話者どれくらいいるんだろう、みたいな話があったりしたんですけど、
やっぱり現状を評価してくれている人の大部分が、
USに住んでいる白人男性という言及が、チャットボットアリーナ自体の論文にもあったりして、
あとこれ、後ほど触れるんですけど、
さらに、その中でも多分プログラミング好きな人とか、
LLM好きな人とか、ちょっとそっちにも偏っているだろうなというのがあったりするので、
その辺の回答者のダイバーシティがちょっと偏っているというのは、課題としてはあったりしますねという感じですね。
フォーマット綺麗とかそれっぽさとか、
それこそ最近、オライリーのジップ・ヒューエンさんのAIエンジニアリング本、
我々ゆるく読んでますけど、そこでも正直この話ありましたよね。
こういう人に評価させると、Aの方を選ぶが、私はBが好みなんです、みたいなとこだったりとか、
この辺、よくも悪くも、プレファレンスに寄りすぎているっていうのは、それはそうなるだろうなと思いますし、
それこそ一手でアノテーターとか集めてやるときも、同じ問題は起こるんでしょうけど、
チャットボットアリーナの方が明らかにクラウドを使うみたいなノリなので、
コントロールは確実にしづらいだろうなとは思いますね。
あとはバックグラウンドは本当そうだろうなと思いますね。
チャットボットアリーナ知ってて、チャットボットアリーナ採点に参加する時点でだいぶLLM好きなので、
だいぶ偏っているとは思う。
その辺とか、あえて属性バラすみたいなこととかやってるんだったら面白そうだったなって思いますけど、
さすがにやってない気がするんで、
確かにおっしゃる通り、USに住んでる白人男性の方が93%ぐらいなんじゃないかなって気がします。適当ですけど。
確かに実際そんぐらいだった気がする。
でもこれそうですね、今完全に確かこのチャットボットアリーナを運営してるところもワークウェイのボランティアでやってるんですよね。
多分エイリーではない。
チャットボットアリーナ自体ってやつですよね、このプロジェクトの。
そうですそうです。
なんか寄付でやってるって認識ですね。なんか見た気がする。寄付だけ受け付けてるみたいな。
そうですね。結構ガチめにダイバーシティを持ったデータの人たちを集めるのを担保するってなるとそれなりにお金がかかりそうだからちょっとむずいですよね。
そうですね。そこまでやってくれと祈るのはよく分かる。
本当にめちゃくちゃ使われてない。金銭的にはOSS自体では報われてないみたいな感じがあるからちょっと申し訳ないですね。
そこまで求めるならちゃんとみんなでお金出していこうっていう感じはあるな。
そうですね。フィキピータじゃないけど寄付はしましょうってやつですね。
ちょっともうすでにチャットボットアリーナでひとしきり盛り上がったが、今回紹介した異論文のベンチビルダーっていうものについて話していこうかなと思うんですけど。
ベンチビルダー何かっていうと、まずチャットボットアリーナが多分5、6月ぐらいにアリーナハードっていう難しめのベンチマークを作ったっていうそのぐらいの時期に作りました。
そのベンチマークを作った自動化パイプラインみたいなものが今回紹介するベンチビルダーっていう感じですね。
こやつが何かというと、まずチャットボットアリーナってめちゃくちゃいろんな人がモデルの評価のためにプロンプト送ってくれているので、
そのたくさんあるクエリのデータを活用してベンチマークデータセット作っちゃおうぜというのが今回紹介するベンチビルダーが出ることという感じですね。
ざっくりこのベンチビルダーがどうやってそのベンチマーク作っているかっていうところをバッと紹介していくとですね、
まず最初にトピッククラスタリングといってそのまんまですけど、チャットボットアリーナが集めたプロンプトのデータたちをクラスタリング、そのトピックに応じてクラスタリングを作ってみますと。
トピックって呼んでいるものが具体的にどういうものかっていうと、これさっき言ったようにちょっと偏ってて、上位がクラスタの大きさですね。
上位がPythonでのゲーム開発とか、あとはオートエンコーダーの作り方とか、やっぱり技術者に偏っているんだろうなっていうのはすごい感じがします。
ゲーム開発Python、ゲーム開発Pythonって一番。
そうですね。一応旅行プランの立て方とか、ギフトの選び方とかそういうかわいいトピックも、かわいいというかジェネラルなトピックも一応ちゃんと混ざっているんですけど、そんな感じのトピックをいろいろクラスタリングしますと。
その後にプロンプトの品質評価みたいなものをしていて、これが何かっていうと具体的であるとかドミニチシキを問うようなプロンプトであるかとか、
ロジカルシンキングを試すようなプロンプトであるかとかを、みたいな品質項目をいくつかこのChatbot Arenaを作っている方々が定義して、
ちなみに何でこのプロンプトの品質評価が必要かという話なんですけど、
例えば結構このChatbot Arenaって雑なメッセージも含まれているというか、
そういう挨拶だぜみたいな、そういう雑なメッセージも含まれていたりするので、ちゃんと性能評価をできそうだなみたいな、
そういうプロンプトを絞るためにこういう品質評価みたいなものをしましたということみたいですね。
何かここはLLE MotherJet使って、ちょっとどのモデルを使っていたか忘れてしまったが、
何かそれでプロンプトごとに、各プロンプトにスコアを割り当てて品質評価をしていると。
その後に今回Chatbot Arenaの人たちはモデル、ちょっと話が前後しちゃうんですけど、
今まで既にやったベンチマークだと、ちょっと最近のモデルたちが賢くなりすぎて、
差異が見えづらくなってきたっていう背景があって、
ちょっと難しめの質問をいっぱい集めて、差異が見えやすくするようにしようというのが背景としてあったので、
なので何かさっきのプロンプトの品質評価でスコアが高いものが集まっているクラスターっていうのを選んで、
その平均スコアが高いクラスターたちからプロンプトをサンプリングしてデータセットを作っていったという感じですね。
そうやってデータセットを作って、それで評価を回すためのデータセットができましたと。
じゃあ具体的にどうやって評価を回していくかっていうところなんですけれども、
ここも最初、評価基準どうやって作っていくんだろうなって思ってたんですけど、
ここもちょっと面白かったのが、ここの自動化もペアワイズ評価でやってて、
ペアワイズ評価をするLLMataJudgeみたいなものを用いているってことですね。
アリーナハードって作られたベンチマークデータセットに対して、
そのデータセットに対していろんなモデルでそのプロンプトを回していくと。
そのモデルたちで出力した結果たちを比べていくのも、
人間じゃなくてLLMMataJudgeでペアワイズ評価をしまくる。
だからそのチャットボットアリーナが人間でやっていることを
LLMMataJudgeで再現しているみたいなことをやっているっていうことですね。
結果としては既存のベンチマークよりもモデル間の性能差っていうのが割と見えやすく、
要はスコアの差が見えやすくなったっていうことですね。
あとチャットボットアリーナのランキングとの相関も89.1%の一致率というところで、
割と人間の好みと合っているんじゃないかみたいなぐらいの程度ができましたっていう感じですね。
っていうのがこちらのベンチビルダーというものでした。
というところなんですが。
最初チャットボットアリーナに送られたプロンプト価値が混ざって、
それをトピックごととかにプロンプトクラスタリングします。
プロンプトの品質を評価する指標みたいなやつとかを事前に定義してあって、
それもとに各プロンプトのスコアみたいなのを出して、
そこをトピックとプロンプトのスコアみたいなのを見て、
品質のスコアが高いクラスターを選んで、
そこからプロンプトとってきてベンチマーク作ってみたいなところの評価みたいなところも、
LMR The Judge、エアオバイズ評価みたいなのをやって、
スコアベースとかでやって作ってるってことですよね。
それでやってますね。
これって最近チャット終わったりいないのに、
ハードプロンプトってカテゴリー増えたじゃないですか。
最近ちょっと前か。
それってこれ関係あるんですか。
ハードと0.1で作ったやつとかって。
確か、これは100%の自信があるわけではないんですが、
ハードとカテゴライズされたプロンプトたちに対するものだけで計算されたスコアリングは、
確かこのハードプロンプトだった気がするので、
おそらくどうなんでしょうね。
そこの関係までは調べられてないですけど、
ここでプロンプト品質評価やってるんで、
ここのスコアが高いものだけとか、
そういうのはやってるのもありえそうですよね。
そうですね。そのまま使ってるかともかく、
関連とか知識の転用的なことをやってるような気はしますね。
時間略的に多分ベンチビルダーの方が前だとは思うので。
そうですね。このベンチビルダー読んで、
最初、これで俺のプロダクト独自の評価データセットもパッと作れちゃうのかなっていうのを思ってたんですけど、
そうですね。
プロダクトによってはあり得なくはないぐらいのところはあると思うんですけれども、
そうですね。正直、クエリのダイバーシティがないっていうところが再三話してはいるんですけど、
やっぱりプログラミングに偏ってたりとか、
日本語のクエリそもそもそんなにないみたいなところで、
パイプラインは参考になるかもしれないんですけど、
そんな簡単には使えなさそうだなっていうところと、
あと、実際そうかわかんないんですけど、
パッと調べた感じ、そもそも肝心のデータセットは公開されてないという、
そもそもの前提の話がありまして、
そういった点でちょっと使えなさそうだなというところがありましたね。
これ自分たちで使えるかって言われると、どうなの?確かに。
同じようなトピッククラスタリングで、
各々のプロダクトだったりとか、
ドメイン的に欲しい何かのトピックとかクラスターを、
自分たちで選んできてやるとかだったら、
一から集めるよりは楽なケースはあるのか?どうだろうな。
確かに我々とかで言うと、
多分今プロダクト的には結構管理会計とか、
そっちの領域のプロダクトとかやってるので、
何だろう、ちゃんと何千万円みたいな感じの言い方になってる方がいいよねとか、
そういうのとかがあるんだったら確かに使いたいかもしれないけど、
さすがにない気がしますね。
そうですね。やっぱ結局そういうデータを作るであったりとか、
集めるであったりとか、
そういうところも大変そうだなっていう感じは、
結論にはなりそうだな。
そうですね。
でもなんかちょうど今日この回とか、
ルートLAMって分かります?
多分タスクとかプロンプと見て、
最適なLAM、コストのバランスとか見て、
ルーティングするみたいなやつ、
オープンソースで出てるやつ。
オープンソースじゃなくてサービスになってるやつとかも、
昔試して遊んだ記憶はあるんですけど、
ちょうどこの多分チャットぼったりの運営してるところとかが、
ルートLAMをオープンソースとかで出してて、
これってなんかもうちょっとルーター複雑なことやってそうな、
行列分解モデルとか書いてて、
結構いろいろやってそうなんですが、
なんかデータ的にはチャットぼったりのデータで訓練してるって書いてたので、
なんかこういうベンチマークとか1個作ると、
こういうふうに横転できるんだなみたいなのを思いながら見てました。
そうですね。
なんかちょっと話繋がってるかわかんないけど、
去年の6月段階、
6月ぐらいに出た最初のチャットぼったりなの論文で、
なんかすごい綺麗だなって思ったのが、
このモデル、こういうルートLAMもそうだし、
最初は名前なんだっけな、
ちょっと名前忘れちゃったんですけど、
このチャットぼったりなで集めたクエリとかを元に、
ファインチューニングとかを行って、
ちょっとモデルの精度を上げてみますみたいな話があったりして、
なんていうかすごい賢いな、
このデータを集めるプラットフォームを作って、
データをいろんなところに展開していくみたいな。
チャットぼったりなのデータは商用利用OK。
ライセンスまで書くんですけど、
それは使うときに考えるということで。
そうですね。
データセフトとか難しいです。
なんかチャットぼったりの話から全然ずれるんですけど、
銀の弾丸が登場する未来があんまり見えないな。
そうっすね、どうなんだろうな。
エキスパートにリサーチとかヒアリングできるサービスとかあるじゃないですか、
VisaskとかUniとか、
あれじゃないですけど、
僕らでいうとちょっと職種としては変わってるというか、
少し人数、比較的一般社会でいうと少なめなので、
そういう人たちに決め打ちでチャットボットアリーナ的な
フェアワイズ評価してくれるプラットフォームとかあったら
使うかもなって気がしてきました。
Visaskのチャットボットアリーナ版みたいなやつ。
これは企業チャンスが出てきましたね。
これいけるのかな、これいけるか。
僕が話してて、人を集めるみたいなところと
そこのフェアワイズある程度、
ある程度良さげに作って欲しいけど
1から作るほどまで言えば、
ナレッジがないのか、コース避けないのかみたいな時とかに
募集条件とか要項とかやって回答してもらって、
要件的にこの人だったらOKそうっていうのを見たら
採用されてお金支払われてみたいなやつとかだったら
っていうエキスパートアノテーションプラットフォームという
マッチングプラットフォームみたいなものとかは
っていうのを今話し聞いてて一瞬思いました。
どうですか?面白い?これやったら使えますか?
でも割と使いたくなりそうな予感もするな。
いや、なんかしたくなる気がしますね。
なんかどれ?どうだろうな。
なんか弊社も、っていうと
なんかキャラ物のAIとかを作っていたりするんですけれども
なんかそれの似てる似てないみたいな
キャラのファンの人たちが似てる似てないの判定みたいなもの
っていうんですかね。
その素人である、そのキャラを最近知った社内の人間が
漫画であるとか記事であるとか
そういうものを読み込んで作っただけだから
ちょっとどうしても弱くなるというか
やっぱファンの人たちからのリアルな評価っていうのが
あったほうがいいよなっていうのは感じるので
なんか我々が作ったキャラAIみたいなものがいるとして
ひたすら、そこモデルの評価ではないか
まあでもなんかこれペアワイズ評価と離れていってるな
まあでもなんかエピソード評価してくれる
なんかそういう条件に合致する人たちがパッと集まって
デートしまくってくれるみたいなのは嬉しいですよね。
今ってそういう人って集めようとすると
その社内とか知り合い経営とかで頑張ってるんですか
それともそのSNSでスカートするとかまでやってる?
それで言うと今特に打ち手を受けていないっていうのが
正直なところなんですけれども
そうですね思いつくのは
なんかSNSの募集とかになるのかな
そうですよね
これ系のモデル開発の経験がある人に相談した時に
なんかクラウドソーシングのサイトとか使うのがいいんですかね
みたいなのを聞いたんですけど
なんか最近はみんなそういう仕事をLLMにさせてきて
評価の意味がなくなるから
なんかもうちょっと信頼できる筋から集めた方がいいですよ
なるほどね
LLMがそんなところで悪さしてる
その辺とかもこのプラットフォームだとあるですね
LLMが書いたのか人間が書いたのかを判定してくれたら
その辺の防止になるっていうと
使う意味はあるかもしれないですね
確かにここの信頼性があるっていうのはいいところですね
確かにクラウドソーシングせっかく頼んでも
LLMが生成した回答を返してくるっていうのは面白いですね
何やってるかよく分からなくなる
そうですね
きっとLLMより高い単価を払って
LLMの回答を返してくる
なるほどな
それは確かに面白い
この辺さっきの面白さの話戻しちゃうけど
どうやってもなかなかスコアとか
もうちょい定量的なやつに落としづらいみたいなやつとかは
チャットばったりとかこういうペアワイズ的な評価とか
そういうデータセット評価基準みたいなのを
ためる仕組みとかを作った方が早いんだろうなっていう気はしますね
なんかデータセットを合成データで作ろうとしても
そこの面白さは面白くないを表現できる
そういう合成データ作れるんだったら
LLM The Judgeもできそうなので
最近その辺ちょっとやり始めて悩んでるので
まだ相談させてください
今回はこんな感じですかね
こんな感じですかね
はい
締めの言葉を伺いたかった
本日はありがとうございました
はい本日はありがとうございました
じゃあまた