公開ベンチマークの信頼性とカーサーベンチの登場
おはようございます、inadyです。 デブログfmでは、プログリットでエンジニアをしているinadyが、
AI活用術や最新ツール、開発生産性向上のノウハウをシェアします。
この番組はYouTube、Apple Podcasts、Spotifyなどで配信しております。
ぜひ、お好きなプラットフォームからサブスクライブをお願いします。
では、今日のトピックを紹介します。
Composer 2が示した答え AIコーディングエージェント企業の生存戦略という話をしていきたいというふうに思っています。
今日は、カーサーが最近リリースしたComposer 2の話であるとか、
それから最新のセセアモデルのどのモデルが一番最強なんだっけみたいなところを深掘りして話していきたいというふうに思っております。
まず、コーディングエージェントの性能を測るベンチマークというものがありますけれども、有名なもので言うとSWEベンチというものがあります。
なんですけれども、最近オープンAIがこのSWEベンチの結果報告を出すというのを停止したというニュースがありました。
これはですね、オープンAIが言っていることで言うと、
フロンティアモデル、オープンAIが作っているGPT 5.4みたいなモデル自身の学習データにSWEベンチの問題と答えを含んでいる可能性があるという、
疑念が湧いたからというところが一つあります。
これはイメージするとテストがありますと、
ただテストの問題と答えを全部知っている状態でテストを受けますとなると、当然正答率はすごく高いわけですよ。
人間がやったとしてもほぼ100点を取りますという状況だと思うんですが、
これがメジャーのSWEベンチで起きているというところです。
これは公開ベンチマークの失恋というか仕方がない部分だと思っておりますが、
それ以外にもいくつか問題があるというふうに指摘されていて、
まずは実際の開発タスクとベンチマークってかなりやっていることが違うよねというところと、
実問題の問題を解決することと、教科書上の問題を解決することって違うよねというところと、
それからですね、さっきも話したモデルを作るときの学習セットの中にSWEベンチの問題と答えが混じってしまうというところ、
それから実環境の整合と違うというところというと、
こういうベンチマークって正解不正解みたいな日の評価しかできないみたいなところがあるので、
このスコアを実際の使い勝手の良さというところと比較するというのは、
乖離があるよねというところで、OpenAIもこのSWEベンチの公開をやめたという背景があります。
これらを踏まえて、最近ですね、カーサー、コーディングエージェントのパイオニアですよね。
カーサーが最近作ったのが、このカーサーベンチという社内のベンチマークです。
これは中身自体は公開されていないので、自分らで評価することはできないんですけれども、
これはどのように作られているかというと、カーサーのエンジニアチームが実際のコーディングセッションから作っていて、
なので、日頃からこのカーサーを使っているユーザーが解きたいと思っている問題をどれくらい解くことができるかというスコアリングに非常に特化しているというところですね。
軽く中身は、コード自体は公開されていないんですけれども、どういうテストをしているかという概要は公開されていて、
まず1つは1個のタスクごとのコードの変更量ですよね。どれくらいのコードを変更しなければ答えに導けないかというところは、
だいたい中央値が180行ぐらいだというふうに示されています。
一方でSWEベンチとかだと、だいたい7行から10行ぐらい修正すればいいという問題が多いんですけれども、こういう違いがありますというところですね。
それから問題文もかなり短いというところが特徴があって、一般的な公開ベンチの問題文ってだいたい1000文字から3000文字ぐらいなのが多いらしいんですけれども、
このカーサーベンチはだいたい400文字弱の問題文になっていますというこの2個が既存の公開ベンチマークとの違いですよね。
要するに日々の使い勝手とすごく近いわけですよね。ユーザーが1000文字も3000文字もインプットでもちろん入れないわけですよ日々の業務で。
だいたい日本語で言うと2、3文ぐらいで入れると思うんですけれども、それと割と近い問題文の長さ。
それは若干多いかもしれない。それぐらいの長さというところと、
あとそこから得られる回答コードの変更量というのもSWEベンチみたいに7行とか10行とかちょっとしか変更されないわけですよね。
でも求めているのってそれぐらいの簡単な問題ではなくて結構難しい複数のファイルにまたがるようなものをそれぞれ何十行って書いてあるファイルが何個も出てくるようなものをユーザーは期待しているんですが、
それもちゃんとこのベンチマークに含まれているというところがこのカーサーベンチの良さだなというふうに思っています。
最後にですねこのカーサーベンチのスコアリングの出し方も非常に面白くて、今までであればどのモデルが一番高いです。
要は性能が高いですっていうのはもちろん出すんですけれども、ユーザーが結構気にしているのはスコアが高いのは分かったと。
一方でそれを問題を解くまでにどれぐらいトークン消費したのか、どれぐらいコストを測ったのかっていうのも非常に気にするわけですよね。
例えばクロードコードをシート課金じゃなくて重量課金で使っている人においてはこのトークン消費量とコストっていうのは非常に気になっています。
それからカーサーも一緒ですよね。チームプランで使っている人はシート課金プラス超えた分は重量課金になってくるので、どれぐらいコストかかるんですかっていうところが非常に気になっています。
あとはですね、いかにコストパフォーマンスよく結果が出るっていうところはあんまりこのファウンデーションモデルを作っているオープンAIとかアンソロピックは気にしていない部分だと思っているんですけど、
カーサーのようにこのオープンAIとかアンソロピックのモデルを使う企業にとっては性能が高いのはいいのはわかったけど、それを出すまでにどれぐらいトークンを使う必要があるんでしたっけっていうところも非常に気になるところだと思います。
これが結局会社の収益に直結する部分なので、いかに同じ結果が出たとしたらそれを導き出すまでのトークン消費量が少ない方がいいと。
トークン消費量が少ないかけるそれのモデル自体の単価が安いっていうのを掛け算がこのコストに直結するわけですけれども、
単純にスコア勝負じゃないですよねっていうところは実際のユーザーの使い勝手というのも非常にマッチしているというところがあるので、
このカーサーベンチにおいても単にそのベンチマークのスコア単体じゃなくて、それに対してトークン消費量はどんなだとかコストはどれぐらいなんだっていうのもちゃんと出してくれるっていうのが非常にありがたいベンチマークだなというふうに思っております。
カーサーベンチにおけるモデル性能とコスト比較
ここまでカーサーベンチについて簡単に説明してきたんですけれども、
じゃあこのカーサーベンチにおいてどのモデルが一番性能が高いのかっていうところを実際に公開されているデータを見ながら見ていきたいと思います。
まずスコアですね。どのモデルが一番問題を解くことができたかっていう素直な比較ですけれども、
これはGPT 5.4が一番ハイスコアでした。その次がなんとComposer 2。カーサーが作ったモデルが来て、それとほぼ同じくらいのスコアでGPT 5.3のCodexモデルが来て、
なんとそこからまだもう一段下にアンソロピックのオーパス4.6が来るという結果でした。これはですね個人的には非常に驚きの数字で、
日頃はですね、クロードコードのソネットを使っていて、ここぞという時にオーパスモデルよし使うぞという風に使ってたんですけれども、それよりもComposerの方が性能が高いと。
かつGPT 5.4の方がもっとスコアが高いというところで、オーパス4.6が最強じゃんって思ってたのは若干違ったというか、もちろんその日常的なその人が感じる使い勝手の良さとベンチマークスコアって返りがあるのは事実であると思うんですけど、
この定量的なデータが示したのは非常に面白い結果だなというふうに思っております。次コストですね。コストも非常に悲しい結果だなと思っていて、一番高いのはですね、当然オーパス4.6で1個のタスクを完了させるのに2.5ドルかかってますという実績です。
続いてGPT 5.4の1.6ドルですね。最後にComposer 2がものすごく安くてですね、0.2ドルでタスクを完了したという事実があります。
オーパス4.6の立場の無さみたいなところがかなり浮き彫りになったなというふうに思っていて、スコアで言うとGPT 5.4にもComposer 2にも負けているし、コストにおいてもGPT 5.4にも負けているしComposer 2には圧倒的に負けているというところがあるので、
オーパスが最強じゃんっていう固定概念というのは実際問題がかなり違うんだなというのがこのガスアベンチから見えてきたことですね。
逆に言うとですね、かなり遅れをとっているという事は事実なので、もう間もなくこのオーパスの新しいモデルが出てこれまたひっくり返してくるんだろうなというところも見えてくるところではありますよね。
改めて特殊するべきなのはこのComposer 2っていうガスアが作ったモデルで、GPT 5.4一番性能の高いモデルより若干低いスコアではあるんですけれども、それでもオーパスよりも高いスコアで、かつコストは8分の1くらいのコストでGPT 5.4の8分の1くらいのコストで動いていると。
オーパスと比べると12倍ぐらいのコストの安さで動いていますというところで、もちろんGPT 5.4の方がパフォーマンスが一番上ではあるんですけど、コストも含めて考えるとこのComposer 2がすごく良くて、日常的な業務においてはこのComposer 2にしておけば間違いないよねっていうところがこのガスアベンチで見えてきた。
一応言及しておかなければいけないのは、ガスアベンチというのはガスアが作ったベンチマークで、Composer 2というのはガスアが作ったモデルなので、もちろん信頼はしているものの、自社モデルを自社のベンチマークでスコアリングしたら高くなるよねみたいな前打ち場ものであるっていうところは一応考えておかなければいけないと思います。
ただ一方で実際に使ってみると体感とそんな相違ないっていうか、確かにGPT 5.4くらいの性能だし、オーパスよりも良い結果出すような体感はすごくあるので、そんなに心配する必要はないと思うんですけど、
一応自社モデルの自社ベンチマークというところは念頭に入れておく必要がありますというところを一応補足しておきます。
でですね、このComposer 2って何ですか?みたいなところをさらに深掘り強化していきたいというふうに思っていて、本当に今日今朝ほどですね、Composer 2っていうのはどういうモデルです?っていうレポートがカーサから出たです。
これをちょっとこの文献などを見ながらちょっと解説していきたいというふうに思っております。もちろん私は日頃からAIエージェントを使っていますけれども、モデルの学習とかもちろんやったことがないので、非常に素人意見なので書いてやることをそのまま読んでるだけにはなってしまうんですけれども、分かる範囲内で解説していこうかなと思います。
Composer 2の正体と性能向上メカニズム
まずこのComposer 2の話題をかっさらったのはですね、Composer 2ってすごいよっていう以上に、このComposer 2っていうのが中国のAI企業ですね、ムーンショットが作っているKimiK2.5がベースモデルなんじゃないかっていうのが、とあるエンジニアのリバースエンジニアリングによってバレてしまったというか判明したっていうところが、
非常に話題を呼びました。なのでそのComposer 2って言ってるけど、このKimi K2.5にただ名前を付けただけじゃんみたいなふうに感じられてしまったというところですね。
この後すぐにKimi、ムーンショットもComposerもそうですとKimi K2.5をベースモデルに使ってますっていうふうにアナウンスをしたというような経緯がX上で起こりました。
もしK2.5だってバレてなかったらどうだったんでしょうね。言わなかったんでしょうかね。そこはちょっと気になるところではありますが、おかげでこういうモデルなんですっていうレポートも出たというところで、これを正確なので詳しく解説していきたいというふうに思っています。
結論から言うとただ名前を付け替えただけじゃないので、いわゆる中国モデルそのまま使ってるだけじゃんっていう批判っていうのは全く当てはまらないなっていうところをちょっと申し上げたいなというふうに思っていて、
まずこのKimiのK2.5単体のカーサーベンチスコアって36%なんですね。一方でComposer2は61.3ポイントと25%ですね。割合で言うと70%ぐらい性能が上がってます。
なので単純に名前を変えただけじゃなくていろいろやった結果すごい高い性能が出てますっていうところですね。まずこのムーンショットのKimi2.5についてですけれども、総パラメータは1兆パラメータあってMOEです。ミキシャーオブエキスパートモデルで、推論時には大体32Bぐらいのモデルで動くというところがあるので非常にコストが安いというのがまずあります。
カーサーはどうやってこのモデルのこのカーサーベンチスコアを劇的に開けたかというと、まずベースモデルでKimi K2.5を使いました。その上でこのカーサーのエンジニアリングチームがコーティングに特化した事前学習をやりました。
それをさらに強化学習することによってチューニングをしたものがComposer 2です。このモデルはどこで動いているかというと、中国で動いていたら若干不安ですよね。
チューニングしたこのモデルはFirework AIというカリフォルニアにある会社がホスティングして動いています。なので中国の企業だからちょっと怖いとか名前を変えただけだみたいな批判は違うよねっていうのを改めて解説しました。
もう一個個人的には興味深かったのはなんでこのKimi K2.5を選んだのかというところなんですが、単純にビジネスとしていろんな会社とディスカッションした結果Kimiが一番良かったということもあろうかと思うんですけれども、
このレポートによると今流行っている中華系のオープンウェイトモデルですね。GLM5とかディープシークのV3.2とかKimi 2.5を比較して、実際にトレーニングをやった結果一番Kimi 2.5が良かったというところなのでこれを選びました。
もちろん実際に動かすときのコスト、裏側のインフラ側のコストみたいなところも含めてKimi 2.5が一番良かったというところを書いておりました。
あともう一つ非常に興味深かったのは、このKimi K2.5もそうですけれども、すごいパフォーマンスが上がったわけですね。もともとのスコアが26点だったものが最終的にはトレーニングをして61%に上がったので、
このベースモデルのカーサーベンチのスコアというのはあまり関係ないというか、そこから選ぶのは非常に難しくて、このカーサーのエンジニアが実際にこのモデルをトレーニングしてチューニングした結果がどれが良いんだっけというところまでやらないと、どのオープンウェイトモデルをベースに使ってやるのが良いのかわからないというところが非常に面白い成果なのかなというふうに思っています。
なので、いかにようにもこのオープンウェイトモデルは化けるんだなというところを示唆した結果だなというふうに思います。
では、次のパートに行きたいと思います。
コンポーザー2が良いよねと、みんなコンポーザー2これから使っていくよねというところではあるんですが、
なんでカーサーがこの場に及んで自社モデルを自作したのかというところのビジネス構造の問題についても若干触れておきたいなというふうに思っています。
このAIコーディングエージェントツールを作っている会社カーサーのようなところのビジネス構造で、もちろんエンジニアの人権費とかマーケティング費用とかもあると思うんですが、
かなりの大部分の減価としてかかってくるのはこのLLMの呼び出しのコストですよね。
ユーザーが使えば使うほどお金がどんどん外部に流れていくというようなモデルになっています。
一方でカーサー側の収益源というのはサブスクが基本ですよね。
25ドルとか何百ドルみたいなサブスク、もしくはチームブランドであればシート課金プラスこういった分重量課金みたいなところで、ある程度分散することはできているんですけれども、割と固定費になっているというところ。
一方でコストのAPIの利用料金というのはかなり変動するというところがあります。
今までカーサーはこのLLMのモデルに関してはアンソロピックとかオープンAIのAPIに依存してきたわけですよね。
要はユーザーがカーサーを使えば使うほどどんどん変動費が増えていくというようなモデルになっていました。
例えばすごくヘビーなユーザーが1日50回カーサーを使いますというときにオーパス4.6を使われてしまうと大体計算する月に4000ドルぐらいかかります。
一方でそれをそのままコンポーザー2に置き換えてくれれば300ドルで済むんですよね。
利益の構造がガラッと変わるとものすごいコスト改善になるというところがこのカーサーがモデルを作りたかった理由の一つです。
もちろん安けりゃいいというものではなくてユーザーにもベネフィットがないとみんな使っていかなくなります。
AIコーディングエージェント企業の生存戦略
つまりカーサーベンチで示したように実際に使い勝手が良くないといくらカーサーが作ったモデルであってもそれより圧倒的にオープンエアが作っているGPTとかアンソロピックのオーパスとかソネットとかのモデルの性能が圧倒的に高ければユーザーはそっちを使いたがるのでせっかく作った意味がないんですけれども
ちゃんと性能も高いと。なのでユーザーにとってもウィンがありかつそのモデルの推論する環境のコストも非常に安いと。
モデルの利用料が非常に安いというところでカーサーにとってもすごくウィンであると。
このウィンウィンのモデルを作れるというところがこのカーサーが自社モデルを作ったというビジネス的な背景があるというふうに考えています。
それでカーサーがこのモデルを自社で作るオープンエイドモデルを活用しながら自社でモデルをチューニングして作るという新しい歴史を作ったというところは個人的にはすごい歴史の転換点だなというふうに思っています。
もうAIコーディングエージェント企業の生存戦略は2択しかなくなってしまったなというところですね。
選択肢の1っていうのはオープンAIとかアストロピックとか地味にグーグルのように自社でファウンデーションモデルを大量のお金をかけて作るというパターン。
もしくは既存のオープンエイドモデルに事前学習をちょっと加えるとか、事後学習の機械学習を加えてチューニングをする。
これがカーサーのアプローチですけれども。
これしか正直なくなってきてしまっているなというところですね。
今まで戦略としてあった第3の選択肢っていうのはどのモデルでも使えますよ。
自社でも自社でモデルは作りませんよ。
これは例えばオープンコードみたいな、私がデブログFNで一番最初に紹介したオープンソースのコーディングエージェントをCLIとするんですけれども、
こういう選択肢1,2,3とあったわけですけれども、この3番目の選択肢ってかなり厳しくなってきたなと。
デブログFNの第1回ではオープンコードが今年のトレンドになりそうだみたいな話をしたんですけれども、
前言撤回をさせていただいて、もう選択肢は2個しか残っていないなというふうな状況になってきているというところを改めて言っておきたいなというふうに思っていて、
私たちがどういうAIエージェントを使うべきかというと、ちょっと繰り返しになるんですけれども、
ファウンデーションモデルを作っているクロードとかオープンAIのモデルを使いつつ、それらが作っているクロードコードとかコーデックスを使いましょうというところがまず選択肢、生き残る、使う側の生き残る道の選択肢。
もう一つはカーサーのように自社のツールに特化した自社モデルをチューニングして作っている会社のツールを使い倒すという方法ですね。
この2つに乗っておけばここ数ヶ月は大丈夫なんじゃないかなというので、ぜひこの2つのパターン、もしくはこの両方の船に乗っておくのが今大変いいんじゃないかなというふうに思っております。
いろいろ話してきましたけれども、今日のまとめを最後したいと思います。
まず公開ベンチですね。SWEベンチみたいなものはすでにモデルの評価としては信頼できない。
それは事前学習された学習セットの中にSWEベンチの質問と答えが入ってしまっているので高いスコアが出ちゃうというのはカンニングしているみたいなもんだよねみたいなところですね。
なのでこのカーサーベンチのような非公開で実際のユーザーが使う用途っぽい場面においてどれくらいスコアが高いのかという評価が必要になってきたというところ。
このカーサーベンチにおいて今の段階で一番パフォーマンスがいいのはGPT 5.4だというところ。
カーサーについてはComposer 2というKimi 2.5ベースとしたモデルを作っていてオーパスよりも性能が高いしコストも非常に安いというところですね。
最後に話したのはそのAIエージェントを作っている会社の生存選択として自社でファウンデーションモデルを使うかオープンのモデルプラス自社で訓練したものでやるか。
この2択でそれ以外の2つの選択肢を持てない企業というのはかなり厳しいという話をしました。
ということで今回はComposer 2が示したAIコーディングエージェント企業の生存戦略という話をしました。
ということで最後に番組のご紹介させてください。
本エピソードのまとめと今後の展望
この番組はYouTube、Apple Podcast、Spotifyなどで配信しております。
ぜひお好きなプラットフォームからサブスクライブお願いします。
ご感想、リクエストなどもしございましたらハッシュタグでブログFMでつぶやいていただくか、
概要欄のフォームもしくはYouTubeのコメント欄などよりいただけると幸いです。
それでは次回の配信でお会いしましょう。ご視聴ありがとうございました。