12【ベンチマークは鵜呑み厳禁!?】AIコーディングツールIDE vs CLI

カーサーの導入と初期体験

こんにちは、AI駆動開発部の日常へようこそ。このポッドキャストは、日々AI駆動開発を行う企業課の山本とエンジニアの阿部が、AI駆動開発のリアルを緩く語り合う番組です。

はい、じゃあ本日もよろしくお願いします。

はい、よろしくお願いいたします。

いやー、やらかして2回目の収録になってるんですけど、レコーディングを撮るのを忘れてたっていうことを、はい、やらかしてしまいまして。

まあまあ。

まあまあ、2回目ということで、ちょっと話が整理、途中までだったけどね、はい、されてるのかなと思うので、もう一回ちょっと仕切り。

まあけど、冒頭だけか、まあ言うて収録し直すって言っても冒頭だけだけど。

4、5分くらいかな、大丈夫じゃない?

はい、大丈夫かな、はい。

まあ、ということで始めていきたいんですけれども、ちょっと前回ね、Devynでドキュメントを常時こちらが気にせずとも更新していける仕組みづくりみたいな話をして、

ちょっとこういう使い方もっといいんじゃないかみたいな話はしたと思ってます。

で、あとはちょっとカーサー使ってみてよみたいな話をしたと思ってます。

DevynのMCPを使って、DevynっていうかDeepLeakのMCPを使ってみたいなその方法に関しては、ちょっと土曜日に収録してまだ水曜日なんで、

まあまだちょっとできてないっていう状況なんですけど、

まあアベちゃんがね、月曜日からカーサーを使い始めたっていうところがあったので、

ちょっとその辺のアベちゃんなりのカーサー使ってみて、Windows Surfと比較してどうだったかみたいなところとか、

なんかその辺りの話聞けるといいかなと思っています。

はい、よろしくお願いいたします。

よろしくお願いします。

じゃあ僕が、まあ月曜日から、まあ今日水曜日で3日間ぐらいカーサーを使っていました。

で、まあWindows Surfは一旦卒業して、結論、カーサーを3日間使っていて、

まあやっぱり結構カーサーの目玉の機能である、一気に何台のエージェントにもマルチで実行できるような機能っていうのが、

まあ思いのほか使いやすくて、一旦Windows Surfに戻ることなくカーサー使い続けられるんじゃないかなっていうような感覚で、

非常に今のところは満足しているような状況です。

比較と機能の評価

やっぱりその、まあ一度に3台とか6台とか一気に頼めるっていうところで言うと、

僕は結構調査タスクとか多いので、結構こういうバグが起きてるんだけどどう?っていうふうに聞くと、

まあなんかいろんなモデル、例えばGeminiもそうだしCodex Cloud、それぞれのモデルに対して一気に質問、同じ質問ができて、

その回答っていうのはやっぱりモデルによってちょっとずつ差があったり、違う角度から深掘りしてくれてるようなものもあったりして、

それをこうバッと横比較して、こういうところに問題があるのかなっていうところを結構一発で詰めていけることができるっていうのは非常に体験としては良かったですね。

最近の使い方だと、だいたい6台ぐらいに一気にバンって出して、そのうちにだいたい2人ぐらいがいい感じの答えをくれるんですよ。

だからこの2人に対してさらにもうちょっとこの辺りも確認してほしいよっていうところをラリー繰り返して話すことができたので、

結構その問題の確信にたどり着くまでがかなり早くなったかなというふうに感じています。

それはなんかあれだな、モデルは何にしてるとかあるの?

モデルはね、今時点ではGemini 3.0 ProとGPT-5の5.1のCodex MAX HighとCloudのOpus 4.5っていうのを2台ずつ起動して、計6体でやってるかな。

最初はComposer 1とかグロックとかも使ってたんだけど、速度はもちろんグロックとかコンポーザの方が速いのはもちろんそうなんだけど、

そんなに調査系においてはあまり、彼らは強くはないのでどうしても、着実に進められるこの3つのモデルを使って2体ずつで起動するのが今のところ安定してるのかなと。

なんかCLIツールより早く感じてる?入ってくるあれは。

それはね、間違いなく早くて。

そうやんね。

多分これが、Cursorがインデックスとかを事前に取ってくれてたりするから、そのラグ的な検索をしていて、調査が早いんじゃないのかなっていう風に。

なるほどね。

Windsurfの時は、Fast Contextっていう、SuiGrepっていう超高速なモデルがその場で検索するっていう、高速に検索するっていう方針だったけど、Cursorはラグっぽくインデックス組んでいるっていうのが結構大きいんじゃないかなっていう風に。

なるほどなるほど。

それで言うと、Windsurfと比べるとどんな感じなの?

そう、だからWindsurfと比べると、今まではWindsurfに一回まず質問を投げて、何度も並列でやるのが、ちょっとできはするんだけど、UI上めんどくさかったから、どうしても一回投げて、その回答を待って、それを読んで、ここはこうですかっていう、一問一答的に繰り返していって問題に迫っていくことが多かったんですよ。

なので、やっぱりこれは結構時間かかるなっていうので、6体ぐらいにガッと聞いて、筋の良さそうな2人を選んで、さらに質問を繰り返していくっていうのは、結構もう同時並行にできるっていうところで言うと、本当に良い体験だったかなっていう風に思ってます。

なるほど。2人が大体良い回答をくれるって言ってるじゃん。どれが一番良い回答をくれるの?

これね、間違いなく1体はコーデックスです。で、若干由来でんのが、Opus 4.5とGemini 3.0 Pro。どっちか、なんか片っぽ…なんでしょ、Geminiが良い時もあれば、クロードが、Opusの方が良い時もあって、なんかどっちとはまだ決めかねてるかな。

なるほど。

あと、複数に一気に聞けるっていう話で言うと、今まではさ、ほら、Terminalで、TMAXで分割してガッと聞いたりすることもできなくはなかったんだけど、

なんか、あれって1回1回エージェント起動するから、毎回MCP立ち上がって、セレナが立ち上がったりなんだりとかって結構待つ時間も多くて、

はいはいはい。

ガッと渡すのも結構面倒というか手間だったので、なんかそこはすごくかわさはいいんじゃないかなっていうのが。

なるほどね。

一番大きい機能はそこかな。

うんうんうん。

ただね、ただWindows Surfをやっぱり恋しいなっていう瞬間も。

はいはいはい。

そういう時ってあって。

はい。

やっぱ僕は、その調査した結果に対してある程度保証しなきゃいけなかったりとか、説明の責任を持たなきゃいけないっていう役割も多いから。

うんうんうん。

やっぱこのコードに対して深く知っておかなきゃいけないっていうところも、まだどうしても役割としてある中で。

うん。

そういうかわさはいい感じに回答してくれても、そのコードの中身までよくわかってないみたいな状況がどうしても生まれてしまうんですよ。

うんうんうん。

その回答の結果がよくわかってないけど、まあこう言ってるならそうなのかっていうところもあったりするんだけど。

そういったところはWindows Surfだと、あのDeep Wikiだったりコードマップっていって、そのコードのある特定の場所がどういう処理をしているのかっていう話だったり。

うんうんうん。

そのコードが実行される条件とか、どういう経路を辿って実行されてるんですかっていうのを高速なモデルで一瞬で回答してくれる機能がWindows Surfにあって。

まあ自分が普段使ってない、普段携わってないプロジェクトとかで、研究でこういう調査してほしいってことをやった時とかは、このWindows Surfを使って深掘っていくっていうのはすごく体験として良かったので。

これがね、カーサーとかにもあれば嬉しいなっていう風に。

カスタムプロンプトと運用

なるほどなるほど。

思うなーって思ってるね。

それを失うという意味合いを持ってしても、カーサーの方からカーサー使い続けるって感じ?カーサーの方がいいからっていう感じなのか。

そうだね。

結局問題の一番コアな部分にたどり着くのが早いっていうのが多分俺の中では重要で。

その並列で調査してもらえるっていうのが結構でかいんだ。

なんかでかいなっていう風に今のところは思ってるかな。

ワンチャンここの実行が分かんないと思ったら、高速なComposer1とかGlockとかにこういう説明をパッとするぐらいだったら、この2つのモデルは早く回答してくれるので、脇でなんとなく分かってきたところで、じゃあこれって何?ってパッと聞ければ。

一旦十分っちゃ十分。ちょっと手間だけどね。

なのでまあ一旦はカーサーで使い続けてみていいのかなっていう風に思ってます。

あと他にもカーサーのいいところで言うと、あれだよね、カスタムプロンプト。

クロードのカスタムプロンプトをそのまま引っ張ってこれるっていうのがやっぱり個人的にはすごい魅力で。

僕らってほら、クロードコードのCLIの方だったり、コーデックスのCLIだったり、Windowsアーフ、カーサー、いろんなものを使っていて、プロンプトとかカスタムプロンプトとかMCPの設定っていうのがあっちこっち分散しちゃいがちっていうのが、今書いている課題かなっていう風に思っていて。

その中でもカーサーを使っていれば、少なくともクロードコードのカスタムプロンプトを一元化して管理できる。

しかもUI上でもしっかり管理できるっていうところは一個強みなのかなっていう風に感じてね。

なるほどね。

そんな感じかな。

ちなみにカーサーのGitWorks3は一旦まだ何も設定せずにそのまま純粋に使ってるって感じ?

そうだね。GitWorks3用のセットアップスクリプトみたいなのを設定できるみたいなんだけど、そういうのはやってなくて。

ただ並列でエージェントに質問して、その流れでGitWorks3的に2体とかに回収してもらって、ちょっと横比較してどっちの方がいいかなっていう風なのを見た上で取り込むみたいなことはやってたりするんだけど、ちゃんと運用できてる気はまだまだしないかな。

AIツールの動作検証

結局それぞれのディレクトリでPNPMインストールしないと、そもそも動かなかったりするもんね。

たぶんGitWorks3で新しくパラレルなフォルダが作られて、そこ上で動作検証したりすることがGitWorks3の良さなのかなと思いつつ。

俺はまだ動作検証とかテスト回すまでは至ってなくて、2、3体が並行で実装したのを俺は目で確認して、どれがいいかなっていうのをメインに取り込むみたいな。そういう使い方してるかな。

そこが俺とかだとコードを見てどれがいいっていうのができひんから、だから全部ローカルで立ち上げてみるとかみたいな感じになるから、Windsurfの方がエンジニア向けっぽいけど、意外とCursorも結局エンジニア向けっぽいなって思っちゃうよね。

結局確認とかコード全部6並列できて、どれがいいかみたいなのを目で見るわけじゃん。だからそういう意味ではカムイの人がやってるその評価すらもAIにしてもらうみたいな。

結局8並列とかだったら8個分評価するのも結構大変じゃん。俺は前提としてわからんみたいなところあるし、それでもそうだし、その評価を一個一個見ていってしていくのも結構大変だなって思ってて。

それは6並列だろうか3並列だろうかなんだろうか。だからそういう意味ではカムイの人がやってるそれすらもAIに評価させて、本当にいいものを抽出させるみたいな。

いや本当に、まさにその話でもしたかったね。僕もね、とはいえCursorに3並列とか6並列頼んで実装見ても結構辛いわけですよ。

自分があまり書かない言語とかにもやったりするから、この時ってどうなんだろうって悩むから。そういう意味ではヤマちゃんと同じような悩みを抱えてて。

あーなるほどね。常に理解度のあるプロジェクトっていうわけでもないしってことね。

そうそうそう。だからそうなってきたら、まさにカムイの方が言ってたような根底式みたいなのが必要だよなっていうのは相当前から言ってたから、どんだけ先見の目があるんだこれ。

確かにすごいよね。

本当に。だからまさにそうで、そこをどうやってCursor上でコンペっていうのを実現できるかっていうのが次なる課題にはなってくるのかなっていうのは。

そうやんね。確かに。Cursor上でそうなるよね結局。けどその実装者にレビューしてもらうわけにはいかんから、思い込みがやっぱあるからAIも。

だからその仕組みをうまくやってるという意味ではカムイはすごいよね。

なんかあれなのかな。僕らがGitHubで、みんなもやってると思うんだけど、GitHub Actions上でクロードコードのレビューとか、またCodexのレビューとか動かしてると思うんだけど、

例えばああいうの、あそこに与えてるプランプトとかをそのままそっくり引っ張ってきて、かつ採点できるようにしてあげれば、

またその実装が終わった後に別に、このいくつかのディレクトリで生まれている変更について評価点数をつけてくださいみたいな形をすれば、

一旦ライトに評価っていうのは始められるのかなとは思ってるんだけど、

それはね、うまくパイプラインっていうか、あんまりストレスなく組めるようにっていうのが一番肝だと思うから、どうすればいいんだろうなって。

評価とチューニングの重要性

なんか他にも気づいた点とかありますか。

なんか気づいた点かな、なんかカーサーすごく並列実行できてよかったですっていうのはありつつも、

なんか少し気になってるのが、なんかとはいえCLI系のCodexとかクロードコードとかの方が、

なんかアウトプットの精度実は高いんじゃねえのかなみたいな風に感じる瞬間はちょいちょいありまして、

特にコーデックスの回答っていうのが、CLIで実行してる方がよほど筋のいい回答が返ってくることがあったり、

あとはこう、カーサー上のコーデックスMAX、5.1のコーデックスMAXっていうのが、

なんかこう、漁ってない方向に議論が展開されることもあったりして、

これは単純にクロンプトの、クロンプトというかMCPとかコンテキストの問題なのか、

またまた、やっぱりモデルプロバイダーが独自というか、モデルプロバイダーが純正のものとしてチューニングしたツールの方が、

パフォーマンスが高いとかっていうのが、そういうのがあるかなっていうのを今ひしひしと感じているような気がしています。

なるほどね。まあありそう。じゃあありそうだけどね。

そう。で、ちょっと気になったんで調べてみたんですよ、いろいろ。

はいはいはいはい。

なんか調べるとやっぱりカーサーとか、これはクロードコードもそうなんだけど、

モデル、こういう1個のモデルに対して、やっぱりそれぞれチューニングっていうのはやっているみたいなんですよ。

これなんか、コーディングエージェントをチューニングして、こういうふうな動きにしてくださいっていう実装意識みたいなものを、なんかハーネスっていう風に言うらしいんだけど、

そのハーネス自体が結構、カーサーも他のツール系もみんな独自にいろいろ調整しているっていうのをいろいろ文献見ていて、来たんですよ。

特にカーサーとかは名言してて、モデルとか、モデルごとに指示とか、使えるツールとか自体もチューニングしているっていうふうに名言してるのを見つけまして、

そういう記事を読んでいく中で1個面白かったのが、最近ちょうど先月ぐらいかな、GPT 5.1のCodex MAXっていうのが登場して、それから半月とかもうちょっとぐらいかな、かかってからカーサーとかに登場してきたんですけど、

結構苦労したっていう風なブログがカーサーのブログに書いてありまして。

なるほど。

結構そのモデルの特性、その学習しているモデルの特性上を、例えばCodexとかとシェルで、ターミナル上で動くっていう前提で作ってるので、シェルを実行することにすぐ実行してしまったり、Pythonをすぐ実行してしまったりとか、

カーサーが提供しているツールを全然使ってくれなかったり、ユーザーのコミュニケーションとかも全然そのカーサーが意図しているものと全然違った形になるから、1個1個ツールも提供してあげるツール自体も組み替えてあげたり、プロンプトも内部で1個1個変えていくっていうような作業をして、そういうハーネスっていう作業を経てようやくみんな公開できるような状態になったんだよみたいな、いうことも書いてあったんですよ。

だから、おそらくはやっぱりそのCodexとかクロードコードみたいなモデルを提供している側じゃなくて、どちらかというとプラットフォーム的に提供している方は、それを何とか自分のプロダクトに合わせるようなチューニングをしているがゆえに、予想外にパフォーマンス落ちる瞬間っていうのがあるんだろうなっていうのは、なかなか感じるかね。

CLIとIDEの比較

実際カーサーとかは内部でベンチマーク、飛行機で自社製で作ったベンチマークっていうのがカーサーベンチっていうのがあるらしくて、それでどのモデルを使っても均一な品質が一定なアウトプットが出るように調整をしているみたいなんだけど、逆にそれ、均一化させた結果差がある方向にもバイアスかかるんじゃないかなみたいな。

なんか、実際にコーデックスがCLIツールベースでやったほうがいいと思ってるってことやな。なんかそれは俺もけど、要件定義とかやってて感じることがあって、俺今、あれからまたっていう感じで、コーデックスCLIとクロードコードしか使ってなくなっちゃう。

カーサーで要件定義してもらって、クロードコードで回すみたいな、言ってたと思うけど、コーデックスで要件定義してもらって、クロードコードで回すみたいな。

そうなる。結局さ、僕らって最強使いたいじゃん。

まだね、まだ中途半端だと困るからね。

そうそうそう。なんか特にね、設計とか調査って、なんかそもそも解けないとか。

そう、でちぼこいった瞬間終わるからね、結局。なんか余計に時間かかるよね。多少遅くてもやっぱ、正しい方向に一発で行ってもらうほうがコスパがいいよね。

そう。だから僕もカーサーいいから、いいとか並列やってるんだけど、なんやかんやちょっと裏では心配だし、コーデックスCLIを立ち上げて、同じことを聞いたりはしてる、未だに。

それで結果的にコーデックスCLIのほうがいいアウトプットを出すってことだよね。

やっぱね、いいアウトプットを出してくるときのほうが多いかなっていうのはあるね。

なんか最近、ちなみに、あと、何だろう、課題リストみたいなのをバーってまとめてて、それをクロードコードにサブエージェント使って、並列で23並列とかで23個の課題についてそれぞれ調査してもらって、

そこで出たアウトプットをコーデックスCLIのほうで評価してもらうみたいなやり方してる。

それは、けど、やっぱカーサーにできないよね。

そうだね、なんかその辺はね、クロードコードのツールとしての強みがね、あるよね。

そう、だからやっぱ、結局なんかCLIツールなんかな、みたいな感じに最近思ってるって感じよね。

だから、そうなってくると、じゃあ、でもこれってなんか半分ぐらい僕らの体感でしかないのかなっていうのはすごい心配。

なんか実際世の中の評価としてどうなんだろうっていうのはやっぱ気にならん?気になるじゃん。

まあ気になるね。

ベンチマークとか、なんか今だとほらSUIベンチっていうのがあったりとか色々あるけど、

なんかどういうベンチマークがいいんだろうなっていうのを色々探してたんだけど、

なんか結局ターミナルで動かす、CLI系のベンチマークとかだったら、

そのエージェントとしてのベンチマークだったら、なんかターミナルベンチ2っていうのがあるらしくて、

これだとでもIDE、要はカーサーとかWindowsアーフとかも含めた比較っていうのがどうしてもちょっとできないみたいなんですよ。

ただ、一旦そのターミナルベンチ2を見てみると、今のところはコーデックスCLIのGPT5.1コーデックスマックスっていうのが圧倒的に強いみたいで、

じゃあ、とはいえIDEとの比較なんかないかなっていうのを探していると、なんかAIマルチプルっていうサイトがありまして、

そのサイト上でクロードコードとCLI、カーサー、Windowsアーフ、リプリットエージェントっていうのかなこれを比較してみましたっていうのがあった。

評価の方法とモデルの差異

で、もういいじゃんと思って、まず見てみたんですけど、これちょっと事前に注釈というか、ちゃんと評価、どういうふうに評価してるのかなって確認してみたら、

なんかクロファコードとCLIだけSONNET 3.7で、カーサーとWindowsアーフはSONNET 3.5で比較しましたって書いてあって、

モデル違ったら意味ないじゃんみたいな。モデルってないじゃんみたいなふうに思いつつ、とりあえず読んでみるかって読んでみたんですよ。

このベンチマークはどういう比較したかっていうと、なんかToDoアプリとか、あとはAPI、単純なAPIサーバーを構築するっていうタスクを与えてみて、

で、ワンショットで与えて、機能をどれぐらい作れたかっていうのを、例えばエンドポイント1個できたら1点とか、

ToDoとかUIがこれができたら1点みたいな形で点数式に評価したみたいなんですけど、

一番良かったのが、クロードコードだったみたいです。

で、だいたい90.3%くらい与えたタスクを実行してくれたみたいなんですよ。

なるほど。

で、その次が、SONNET 3.7を使ってるのがクロードコードとCラインだったので、当然次に来るのはCラインなのかなっていうふうに思ってたんですけど、

もうちょっと意外だったのが、2番手に上がってきたのがWindowsアーフでした。

で、Windowsアーフは73%の達成率。

で、次にリプリット。

で、カーサーが14%っていう感じで、SONNET 3.5でモデルちょっと低めっていうところはありつつも、

同じモデルを使ったWindowsアーフとかなり離されてるような結果になってたんですよね。

なるほど。じゃあWindowsアーフは結構その仕組み作り、ハーネスの仕組み作りが上手いのかもしれないって感じなの?

ツールの性能の比較

逆にだから3.5なのに3.7に匹敵と言っていいのかどうかわからないぐらいの、けど割といい成績を残してるってことやね。3.7とそのモデルの違いはあれだっていうところで。

そうそう。だから多分コンテキストの渡し方とか、それこそFastコンテキストとか、

そういう仕組み自体が上手く効いていて、クロードコードにある程度匹敵する形になっていってるんじゃないかなっていうふうには思うんだよね。

なるほど。

てな感じでなので、若干答えは出ないけど、やっぱりそのハーネスの作り自体が、やっぱりモデルを提供している側の方が上手くチューニングできる。

それこそ一番開発の時点でチューニングをできるわけですから、どうしても性能として上がるのは当然ちゃ当然なのかなっていうふうには。

それを凌駕する並列とか、例えばクロードコードとコーデックス、コーデックスの方がいいアウトプット出してくれるっていう前提がありつつも、

クロードコードを実行者として使いたくなるのは、クロードコードの並列でハブエージェントが立ち上がれるっていうところがやっぱ強いじゃん。

そういうような特異性というか、のが結構重要なのかもしれないね。どうしてもCursorとかWindsurfのレイヤーのプレイヤーに関しては。

だからツールとしていかに、Cursorとかは特にエンジニアじゃなくても使えるよっていうところが大きい振り込みだと思うので、そういうところをどう積み上げていくかとかなのかなーっていうのは思いますけどね。

それで言ったけども、コーデックスと俺の今の使い方がベストなのかな、今のところ。結局CLIツール。

なんかね、やかんやCLIの方がいいんじゃないかみたいなのは、僕もね最近。

ただ並列できるとか。

そうそうそう。最近クロードコードを長らく使ってなかったんだけど再開してて。

すごいよね。

全然違うね。

本当にすごいよね。なんかサブエージェントをバックグラウンドで保持するみたいな機能とかちょっと前までなかったもんね。

なかったからね。あとはサブエージェントの並列実行も8並列ぐらいが限界だったやつが20とか平均でできるようになってるからね。

もともと8が上限って公式が言ってたよね、あれ。

あーそうなったんだ、あれ。

そうそうそうそう。で、8かな6かなちょっと忘れたけど、とりあえず上限が決まってたんよ。

はいはいはい。

で、それがだから取っ払われて23並列とかできるようになって、しかもそれがバックグラウンドでお願いしつつメインのエージェントは違う動きをし始めるみたいなね。すごいよね、あれ。

すごい、なんかあの仕組みをだから他で全然提供できない、できていないってことはよほど難易度高いことをクラウドがやってるんでしょうね。

正直コーデックスとかそういうのやってよって感じなんですけどね。

まあやっぱその辺が、例えばアンチグラビティとかだったらさ、アンチグラビティが画像生成してくれるとかもあるじゃん。そもそもみたいな、なんかそういうやっぱだんだんそういうなんか差別化要因って変わってきてるよね。

確かに、別の価値というかね、そもそも他にない機能として出していくっていうことが出てるんだろうな。

まあちょっとアンチグラビティの画像生成、僕はちょっとあんま使えなかったから、大丈夫かなと思ってたんだけど。

なるほど。

ドキュメント書いてもらって、そのドキュメントのために画像を出しますって言って出てきた画像がなんか全然違うやんみたいな。

ヤマシタンは逆にそれで言うと、いいアウトプットというか、一定満足できるようなアウトプットは得られてた?

いや、得られへんかった。

得られませんでした。なので、期待を込めてという意味でしたね。

なんで、それぞれのやっぱり進むアレがあるから、今のところやっぱり実行者はクロードコードなんだなーって。

けど、やっぱり論理的思考能力が若干劣るなーみたいな気がしてて。

あとUI構築はやっぱジェミニというかアンチグラビティがいいなーみたいなところは変わらずだけど。

ジェミニ3.0 Proの頭がいいのかもね。UIだけって思ってたけど、複雑な問題とか解かすのは意外といいのかもしれない。

結局UI構築もUIが上手いって、別にUIが上手いっていうデザイナー的なアレじゃなくて、結局コーディングが上手いっていう、

破綻なくコーディングできてるっていう状況だから、意外と困ったらジェミニ3.0 Proにお願いするみたいなロジック面でも、

みたいなのもアリなのかもしれないね。

そうね。血股で言うほどパカじゃないかなって思って、Xとかの評価だとジェミニ全然みたいなのよく言ったりするんですけど。

けど血股もさ、オープンAIがジェミニ3.0 Proに焦ってコードレッドを発令してるみたいな話もあるわけで、血股の場所によっても変わるよね。

変わるね。でも少なくともコードレッドを発動するほどなんかなって俺は思っちゃったけどね。

俺はUIとかその辺の絶対こいつらが何回やらせてもコーデックスに、何回リセットして何回やらせてもできなかったやつを解いてきたっていうので、結構信頼を置いてる。

確かに。UIの実装に関しては、山ちゃんの評価は普段やってるので確かにいいと思うんだけど。

ここと破綻のなく問題に対して調査を進めるっていうことに関しては全然コーデックスの足元にも広がらないというか。

多分その作業とかタスクをこなすみたいな意味合いではコーデックスとかの方が良くて、単純に頭がいいんやと思う。ジェミニ3.0 Proは。

仕事ができない超頭いいやつみたいな。

そうなんだ。

って感じかもしんない。なんかちょっと前の俺がチャットGPTにいられてた感覚に近いかもしんない。超頭いいんだけど仕事はちょっとお願いできないなみたいな。

話せないやつみたいなね。

そうそうそうそうそう。って感覚かもしんない。だから本当に問題が複雑なだけでショットのタスクみたいなのはジェミニいいかなって感じのイメージ。

けど調査タスクとかってさ、調査した結果を文脈保持しながらあれやこれや調査してもらうわけじゃん。

やるとそこそこ死後的な状況が必要なわけですよね多分。文脈理解とか。

ジェミニはそれで言うと、なんかどっちかって言うとその与えられたタスクをしっかりこなすであったり、あとはその純粋なコーディング精度が高いみたいな。

いや、しっかり。

っていうイメージでの頭ですか?

というよりはタスクをしっかりこなすは多分俺のイメージではクロードのオーパス4.5が一番すごくて。

うーん。

ベンチマークの信頼性

っていうよりは複雑な問題を解く頭の良さがあるってだけ?

ああ、そうなんだ。

タスクをこなす能力はそんな高くないと思う。だから本当にもう言葉の通り仕事のできない頭の良いやつって感じかな。

なるほどね。

って感覚があるかもしれない。

そうなんだ。

そんなやつ見たことないけどね。

まあね。

多少なんか調査タスク得意だったりとかあるけど、UI構築は上手いけどって感じ。

けどしっかりやってくれるかと言われるとうーんって感じな気がする。ちょっとこう長尺のタスクになると。

だから本当に詰まった時の神の一手みたいな感じで使うのがいい気がして。

アンチグラビティで基本的にそれをお願いしてるから、地味にCLIとかを使ってるわけではないんだよね。

そうやね。地味にCLIとかでもいいのかもしれないけどね。

アンチグラビティはどうせ地味にCLIの技術を活かしてるやろうから。

そうだよね。

ちょっとそうなってくると地味にCLI使ってみるのもちょっと気になるかなっていうのは。

確かに確かに。そうやね。ぼちぼちね。

まあって感じかな。

とりあえず結論として、カーサーはいいんだけど、CLIツールがやっぱアウトプット一番いいから悩ましいなっていう結論と言っていいのかどうかわかんないけど。

っていうのと、あと世の中にあるベンチマークの記事は当てにならないっていう話なんで。

モデルそもそも違う。

ちゃんと評価しようぜみたいな感じだった。たまたまね。

ベンチマークの記事とかはちゃんと理解した上で解釈しないと騙される恐れがある。

ベンチマークの注意点

本当にそう。冒頭でグラフバーン出て、ここまでした?みたいな出て、おーっと思ってみたらね、違うんですから。

ちゃんと書いてよ、それみたいな感じだったら。

いやーひどいね。ひどいけど、そういうのも世の中にいっぱい溢れてそうだね。

そうなんですよ。だから注意してみないと、ツイッターとかでこういうのがすごいみたいなのよく見るけど、よくよく読んでたら変わってねえじゃんみたいな時もたまにあるので。

確かに。なんかあれもね、カーサーのアプリみたいな話もPWAだったしね、聞く。

そう、カーサーアプリが出た、すごい入れてみたみたいな。PWAじゃねえかよみたいな。ガクってなっちゃったよね。

嘘じゃんっていう感じなんだよ。

確かに入るけどさ、みたいな。

僕らが期待してたのはさ、ほら、マックのカーサー上で指示した内容とかがアプリ上でも確認できるとかそういうものなのかなと思ってたんだけど、

そうじゃなくてウェブでカーサーを、ウェブ版のカーサーがあるのでそれを単純にアプリで、サファリで開いてる状態ができるだけであって、

全然何もこうセッションが引き継がれることもなく、なんかセットアップも個別にしなきゃいけないからちょっと使わないかなみたいな感じになってましたね。

記事に関してもちょっとモデルが違う比較をしてたり、違うモデル比較してたけども、

まああれはあれで、ちゃんとそれを知った上で結果を見ると、それはそれで得られる情報はあるので。

まあWindowsアーフが結構優秀なんだなみたいなね。

そうそうそうそう。ちゃんとしっかり見て自分で評価するって大事だな、改めて思う。

ツール選びの重要性

まあけど正直自分の体感が一番いい気がするなって感じはするけどね。なぜならベンチマークのテストする種類にもよるわけじゃん。

それはそうだね。

だから自分がいつもやってる仕事に合ってるツールを選ぶって結構重要。

まあ確かに。

俺らこれをさ、始めたのがさ、やっぱこう生の声が少ないイメージがあったからさ、

生の声、全体最適という結論ではないけど、そのN1の意見を言うことに価値があるんかなっていうところを、

まあ一応一個ベースとしてあるじゃん、今このラジオで発信してるというか、話してるっていうのは。

まあそういう意味ではなんか結構意外と体感とかの方が重要なのかなって思っちゃったりするね、俺的には。

まあ確かに。

まあ少しでもね、この話がね、なんかどっかでピンとくるような内容があったりしたら嬉しいよね。

うんうん、そうだね。

僕自身にとって。

まああとなんかやっぱちょっとコメントとか欲しいですね。

こういうのを知りたいですとか、僕らも調べられたらと思うので。

単純に自分はこっちが良かったっていう話も聞きたいもんね。

聞きたいね、確かに。自分はこっちが良いと思ってるっていう。

僕たちのなんか意見と全然違う話とかくれたら結構面白いよね。

あ、こういうパターンあるんだみたいな。

そうそうそうそう。

じゃあその人にも出てもらってみたいな。

面白そう。

まあじゃあそんな感じで今回はぼちぼちお開きにしましょうかね。

はい。

まあじゃあ次はDeepWikiのMCP試してみたぜってやれたら一番いいけど、よろしくお願いします。

頑張ります。

はい。

今日はやりたいので。

そうですね。

じゃあそんな感じでありがとうございました。

はい。ありがとうございました。

本日もAI駆動開発部の日常をお聞きいただきありがとうございました。

いかがでしたでしょうか。

ちょっと今回は阿部ちゃんが数日間カーサー使ってみて、

今までWindows Surfどっぷり使ってたっていうところからどういう違いがあったのかみたいなところとか、

あとその中でちょっと阿部ちゃんの方で深掘りした内容を聞いてみたっていう感じですね。

もし参考になったことがあれば嬉しいなというふうに思います。

もしこのPodcast気に入ってくれた方は、いいねやフォロー、高評価ぜひお願いいたします。

それではまた次回もお楽しみください。

バイバイ。

スターの数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

AI駆動開発部の日常

サマリー

目次

スターの数

コメント

こちらもおすすめ