AI開発ツールの導入
こんにちは、AI駆動開発部の日常へようこそ。このポッドキャストは、日々AI駆動開発を行う企業課の山本とエンジニアの阿部が、AI駆動開発のリアルを緩く語り合う番組です。
はい、じゃあ本日もよろしくお願いします。
よろしくお願いします。
はい、ちょっとまだ喉が本調子じゃないんで、聞きづらいかもしれないですけど、はい、お願いします。
今日は先週ね、アンチグラビティの話をしました。結構ね、聞いてくれてる方多いみたいで、やっぱりどれ使おうかなとかって思ってる人多いのかなというふうに思っているので、
今回は結構いろんなサービスが出てきている中で、実際どういう使い方になっているのか、結局一番使ってるのが一番いいというか、お互いに試しながらと思うけど、
今こういうふうな使い方になっちゃってるなみたいな、なっちゃってるなみたいなんでもいいし、こういうこれが最低階だみたいな話でもいいんですけど、実際なんかどんなものを使ってるのかみたいなのの話ができればなというふうに思っています。
クロードコードであったり、コーデックス、あとウィンドサーフ、カーサー、アンチグラビティ、あとちょっと前ですけどV0とか、今まで結構いろいろなものを使ってきたかなと思っている。
ちょっとした遊びできろとか、レプリットとかも使ってみたりとかはしてるけれどもっていう感じで、お互いちょっとどんな使い方が今のところいいのかなみたいなのが、
僕の非エンジニアの僕と、実際エンジニアの阿部ちゃんで絶対違うはずなんで、その辺がどう違うかとか深掘っていけたら面白いかなというふうに思ってるっていう感じです。
よろしくお願いします。まず僕の方から話しましょうかね。結局ですね、アンチグラビティいいって話したんですけど、いざ使うとなると、今使ってるのが、
オパス4.5が出たっていうのもあるんですけど、クロードコードに出戻りました。
そうなんだ、クロードコードになったんだ。
クロードコード出戻りですね。なんですけど、カーサーと両方使いになってて、まず要件定義コマンドみたいなのを定義してますよね、僕たち。
それはコードベース全体を見て、こちらが要望を出して、それに対して10個ぐらい質問を考えた上で、設計とかに影響を及ぼす要素の3つの質問をAIから返してくれると。
AIから返してくれた質問内容にこちらが答えることで、ある程度精度の高い要件定義書を作れるみたいな感じのコマンドを作っています。
できた要件定義書をもう一回要件定義コマンドに入れて、不安なときはより精度を上げたりとかみたいなことをしてるというような感じなんですけれども、
その要件定義コマンドを使うのはカーサーでやってる。
要件定義コマンドを使うのをカーサーでやって、コーデックスハイ、5.1ハイと、あとジェミニー3.0プロとクロードオーパス4.5。
正直最大8個エージェント並列でやれるんですけど、考えることにおいてはこの3つかなと思っていて、この3モデルに3並列でやってもらって、
一番筋の良さそうなものを1個選ぶみたいな感じでして、そこでできてきた要件定義書っていうのをクロードコードの方で流して、タスクリスト作ってもらってみたいなことをしてると。
正直アンチグラビティと悩む、クロードコードかアンチグラビティで言うとなんですけれども、個人的にアンチグラビティいいんですけど、
タスク化とかがすごいおそらく内部的なもので、タスク化とかが優れてるんで、クロードコードでどういう風にやらしてるかというと、要件定義書をもとにタスク化させて、それをできるだけサブエージェントに任せながらやっていくみたいな感じなんですよね。
アンチグラビティの僕の思っている今のところのメリットは、その実装作業、タスク生成の精度っていうか、タスク整理をしながら進めていける精度っていうところと、モデルは正直一旦置いといて、そこが結構強みだと思ってて、逆にクロードコードはやっぱりサブエージェント使えるのが結構強み。
で、Gemini 3.0 Proだと100万トークン使えるから、そこも結構コンテキスト量的には強み。これはちょっとモデル由来の話ではあるんですけど、みたいな感じで、アンチグラビティは莫大コンテキスト量プラス、タスク生成というか、進め方の丁寧さみたいなところがメリットで、クロードコードはやっぱり並列実装ができるっていうサブエージェントで。
で、かつサブエージェントで実装していくことによって、コンテキストを消費をできるだけ抑えつつできるみたいなところがあるのかなっていうふうに思っていますっていう感じですね。
モデル選定の悩み
正直カーサーで要件定義させているのはまだちょっと僕も判断ついてない。正直オパス結構いいなって思うけど、コードベースを分析するスキルで言うとコーデックスやっぱり強いなみたいな感じで、Gemini 3.0 ProはUI作らせたら強いけど、ちょっとなんかまだ信頼しきれてない。
じゃあ逆にモデルだったりの性質がそれぞれ違うからこそ、カーサーで3人一気に検討してもらって、その中から良かったものをピックアップするみたいなやり方になってるのかな。
そうそうそうそう。一応なんか分析観点とかもやってくれるから、教えてくれるから、スラッシュコマンドで定義してる中でね。要件定義コマンドの中で。だからこれ嘘じゃんみたいなやつはボツにするし、例えば。
そうなんだ。
そう、みたいな感じ。
ちなみにさ、その3つをさ、検討させてて対応率こいつ高いなみたいなのあったりする?
あ、けどまだね、このやり方走らせてまだ数回なんで。
あ、そうなんだ。
コーデックスにいっちゃいがちやけど。
はいはいはいはいはい。
まだちょっと分からんかなっていうのと、まあ悩ましいとこはある。なんか明確にこれみたいな、迷ったらコーデックスにしてるって感じ。
あーね。
あとまあ一応なんか三平率でできるからさ、おそらく確からしいものはかぶってくるわけよ。3分の2とかで出てくるわけよ。
そうですよね。
1個だけ明らかに違うことを言ってたりとかする。
はいはい。
そう、だからまあその、信憑性をこうある程度担保するという意味でも、なんか1人に聞いてそいつが嘘ついたら分からんけど、3人に聞いて2人が本当のみたいな。
なんかエヴァのあれみたいだね。なんか、なんだっけ。
なに?
あれなんか、いなかった、そういうシステムなかったっけ?
え、あれはシビラシステムじゃない。
あー、ごめんなさい。あんま詳しくないのに気にしちゃったけど。
あのサイコパスでしょ。サイコパスのシビラシステムな気がするけど。
そうなんだ。
多分。
おそらくおそらく。
3つにね、判断させて、なんか多数決をとって判断するみたいなのがあった気がするんだよね。
エヴァやったっけ?
なんかあった気がする。なんだっけな。
えー、どうやろう。まあ、たぶんサイコパスの話な気がする。
あ、マギーだマギー。
3人じゃないけどね。
マギー。
あ、マギーか。
そうだ、マギーだ。マギーシステムの話。
あ、マギーシステムね。はいはいはいはいはい。
そうそうそう。なんか3つに聞いて。
まあ、はいはいはいはい。
なんかいい感じにさ、その、3人が言ってたことの、まあちょっと嘘ついてる部分は排除して、なんか合体させてみたいなことはするのかな。
あー、それは、えーと、まあちょっと今、えーと結構がっつりめの機能開発の話をしたんやけど、
UI開発とかやったら、もうカーサー一択だと思ってて、LPとかやったら、えーと、
もうそれを8並列させて、あのー、その中で良さそうなやつっていうのをピックアップして、
なんか明らさも良くないやつとかもあるから、
まあ明らさも良くないやつは弾いて、で、いいやつと惜しいやつは統合していくみたいなことはする。
あーそうなんだ。
うん。
UIで惜しいの統合するときってさ、
なんかあんまりイメージ湧いてないんだけど、その辺もなんか、このパーツとこのパーツ組み合わせてみたいなのを指示与えられるものなの?カーサーで。
いや、無理。
あーできない。そこはできないの?
うん。だから、えーと、まあなんかちょっと苦労する。
うん。あ、でもあれか?なんか、Gitワークツリー的に動いてるんだっけ?
あ、そう、Gitワークツリーで動いてて、だから全部独立した環境になるから、
まあそこのこう橋渡しがちょっと難しいみたいなところがあるんやけど、
まあけど、あの、Gitワークツリーは実体のファイルもできてるよね、確か。
うんうんうんうん。
そう、だからそこを参照するようにお願いしたりとかすると取ってこれる。
あーそういう感じ。
と思うし、そう、あと一応カーサーの機能でなんかその、何て言うの?
マージするみたいなのがあるのよ。そのメインのワークツリーからGitワークツリーで生成された変更を
メインの自分のローカルの手元に移すみたいなのができるんやけど、
例えばなんかスラーLPみたいなのを作ったとしたら、スラーLP-ワークツリーのコード名みたいな感じにして、
まあまずは仮データみたいな感じで全部作ってもらって、それを一個一個手元にマージしていって、
みたいなこともできると思う。
あ、そうなんだ。
うん。
なるほどな。
みたいな感じ、あ、そうだ、一応カーサー、コンテキスト量、前回見れないみたいな話してたけど、
カーサーだけは見れましたね、コンテキスト量。
あ、そうなんだ。結構さ、え、じゃあそうなってくるとやっぱ気になるのはさ、コンテキストの消費量っていうのが、
なんか単純にクロードコード使ってたりコーデックス使っていたりと比べて、
なんか効率的に良くなってるのか、なんかその辺、なんかそれともなんか上手いことをコンパクトとかが内部的に実装されてて、
延命されてるなみたいな感覚ってわかったりした?
いやなんか、そこが感覚的にはねんけど、見れるけど、なんか気にしなくてもなんか上手くコンパクトやってくれてんじゃないかな、説がある。
あ、そうなんだ。
なんかコンパクトやってくれてるのか、なんかコンテキストアップしても精度が落ちない感覚はあるけど、
けど今の俺の使い方ってUI一発出しを試しに8並列でやるか、もしくは要件定義をバンってやらすだけやから、
なんかそんなにコンテキストの問題にはぶち当たらないことしか川沢ではやってない。
あ、そうなんだ。
うん、って感じかな。
あと今川沢の話してたけど、なんか川沢にはだから計画をさせるのが基本的な使い方で、
多分その計画をもとにじゃあアンチグラビティを使うか、クロードコードを使うかみたいなイメージなんだと思うけど、
なんかアンチグラビティって結構計画もやってくれるイメージあったんだよね。
それは…
あー、けどちょっとね心持たないなーって感覚かな、そのデカ実装させる上では。
あ、そうなんだ。
うん、なんかその結局リファクタリングしてくださいみたいな話だったらいいし、
このUI作ってくださいぐらいだったらいいけど、大きい機能実装みたいなとこになるとさ、
まあうちの作りだとね、パッケージ配管、リポジトリ層からとか、なんかいろいろ全部作らないといけないじゃん。
ツールの信頼性と計画作成
あれを全部やってくれそうかって言われると、なんかそんなにちょっとそこまで信用してないなーみたいな感じかもしれない。
取りこぼしとかありそうだから、まあやっぱり川沢で3人に聞いて、
まあしかもさらにそれで予件定義作っても、一回Codexにレビューさせたりとかしてるけどね、
CodexとかMacloadとかにレビューさせるとやっぱりボロ出てくるから、
だからその間に予件定義書を作成して、間でレビューを挟むステップを挟めるっていうことの方が重要かもしれない。
それで言うとジェミリは内包されてさ、吉那に勝手にもう計画立ててタスク作って実行まで吉那にやるみたいな感じだから、
ワンプロンプトでやり切らせるみたいな前提だからステップ区切られへんのよね。
もちろん区切れると思うけどやるようによっては、まあけどなんかそういう作りではないという感じだから、
予件定義書作ってもらって、タスクリスト作ってもらって、Macloadコードでやってもらうみたいな。
やっぱ並列実行がデカいからね、結構。
僕もこれ今悩んでるというか、そんな悩んでるわけじゃないんだけど、みんなどうしてるのかなって気になってるのがあって、
なんかいろいろツール登場してることによって、ヤマちゃんみたいにカーサー使ったり何使ったりってあると思うんだけど、
そこのそれぞれのツールでの情報の受け渡しってどうやってんだろうって結構、今話してて聞いてて思ったし、
自分もなんかどうなんだろうなと思ったときに、僕はMacdownに出力させて、これを読みに行ってくださいっていうのを都度やったりするんだけど。
それそれそれ、予件定義書を作るのはそうだね。
あとそこでやっぱセレナとか、あとうちで言うとリアタクシスフレームワークに乗っ取って、
ドキュメント整備してもらってるみたいなのがあるじゃん。
なんかああいうドキュメント整備っていうのが結構重要になるのかなって思う。
吉田にやってくれたらいいから、サイファーとかセレナとかが複数のツールとかエージェント使うっていう前提だったら、
より重要になってくるのかなっていう気はしてる。
アンチグラビティの活用
なるほどね。
セレナは非大化したときにどうなるかわからんからさ。
あんまわかんないね。
俺はコンパクトにしていってるけどさ、メモリ自体ね。
あまりメモリ持たせたくないなって最近思ってきちゃってるかもなあと俺は。
だから俺セレナの削減コマンド作ってる。
そうなのよね。
そうそうそうそう。
なんかちょっと話変わるけど、最近セレナいらないかなとかって思ってきちゃってるんだよね正直。
どうなんだろう。
セマンティック検索はきっといいんでしょうけど。
それはWindowsアーフとかについてるからいらなくなってるってことでしょ。
そうそうそれもある。
あとコーデックスをCLIで使ってても、もちろんセレナ使ってくれるけど、
別に起動してないときもそんなになんか変わらんかなっていう感覚があって。
だからどっちかっていうとMCP起動してる時間とかを待ったりとか、
あとはMCP単体のコンテキスト消費、起動するときに食われるっていうコンテキストとかを考えたら、
セレナもしかしていらなくなっていくのかな。
あまりにも結構コーデックスがしっかり探索してくれはするかな。
まぁちょっと一旦あれじゃない?セレナの方に行くというよりは、
アベちゃんが何を使ってるかっていう方の話を、
まぁ一旦俺の話は終わりにしたと。
俺の話はとりあえずそういう風にやってますっていうところで終わりにしたとして、
じゃあアベちゃんはちょっとどんな使い方をしてて、
その上でなんでセレナいらないと思ってるかのセットな気がするんで、
ちょっとその辺を。
そうだね。僕の使い方は、
まぁ結論、メインはWindsurfを使い続けてるっていう感じなんだけど、
あの先週かな、せっせし山ちゃんがアンチグラビティ使って、
いろいろまぁいいところもあるんだなと思ったので、
まぁ今週1週間は結構アンチグラビティ使ってました。
結構まぁ大きめの開発をやる上では、
その計画、実行計画を細かく立てられるっていうところと、
その実行計画のフィードバックをしやすいっていうところが、
すごくこう、僕の中ではフィットしていて、
その出してくる出力をレビューすること自体はそこまで枠ではないし、
なんか抜け漏れとかもなんとなく自分の中で指摘ができるから、
なんか僕はこのアンチグラビティすごくいいなっていう風に感じてて、
で、アンチグラビティの機能の中で、
まぁ機能なのか、別に他のツールでもできるかもしれないんだけど、
なんか結構使っててよかったのが、
複数のリポジトリを横断して見ることができたんですよ。
なんか使い方的に。
なんかあの、エディターじゃなくてエージェントの画面、
本当にチャットだけがある画面あると思うんだけど、
あそこのワークスペースを開くときに、なんか僕今やってるプロジェクトだと、
アプリとウェブとバックエンドの3リポジトリそれぞれ分かれてるみたいなプロジェクトがあって、
だからその3つをうまく、で、その3つ全部自分が実装してるから、
なんか全部をフォーカス的に見てやってもらいたいんだけど、
ワークスペースとかの機能を使うってことか。
そうそうそう。で、アンチュグラビティのワークスペースっていう機能で、
もうなんかその3つが入ったフォルダそのまま選ぶと、
もうそれとして認識してくれたので、認識してくれて、
そうなんや。あれってそういうことなんだ。
なんかワンセットになる。
そう、なんかねワンセットになった。
あれけど先週俺が話してたさ、
あのあれに近いのかな、そのドットジェミニ?やったっけ。
のハイカ?ルートディレクトリにある。
の中になんかブレインってやつがもう全部ごちゃ混ぜで入ってるみたいな。
そのせいなのかもしんないね。
あー、それなのかな。ちょっと僕もなんでなんだろうみたいなのあるんだけど。
もしかしたらまあWindsurfとかでも、
まあ親のフォルダで広げばできるよねみたいな話なのかもしれないけど。
なんかこのアンチグラビティでは、
そのもう完全に3フォルダを1つとして認識してくれて、
かつ結構ね詳細まで全部見てくれるし、
各リポジトリでその実行計画で何をすればいいかっていうのを洗い出して出してくれたんですよ。
だから今回バックエンドを回収するにあたって、
フロントエンドではどういう影響が出るか。
フラッターはこういうことをしましょう。
リアクトのウェブの管理画面はこうしましょうみたいなのを全部事細かに出してくれて、
まあもちろん抜け漏れはあるので、そこ上でレビューをしやすい。
テキストをピーって引っ張ると、そこだけにコメントをいくつかできて、
しかもその一度にレビューっていうのを、
まあGitHubのプルリクエストをレビューするみたいに、
一気に複数のレビューコメントを投げられるので、
出してきた計画を一個一個レビューしていって、
ドカッと渡せばまたいい感じにフィードバックがやってきて、計画が立てられる。
大きめの開発をする上では、結構アンチグラビティが使いやすいんじゃないかなっていうのは、
エンジニア目線として感じてました。
ただ結局メインで使うにはいたってなくて、
それはやっぱりそんなに大きくない機能だったり、
あとはちょっと問題が複雑だったり調査したいっていう時は、
あんまり向いてないかなっていうところがあって、
例えば問題を、バグが起きてますと報告があった時とかは、
調査っていうより、とにかく調査の結果、
どんな改善をするべきかっていう前提で計画を出してくれるから、
あれなんでこういうことするんだっけみたいなところが、
結構問答が繰り返されることが多かったりだったり、
あとは細かいタスクでわざわざここまでやらなくていいかなっていうので、
ウィンドサーフとかだとモデルがいろいろ使える、
早いモデルとか、グロックコードファーストとか、
SUI 1.5とかっていうモデルの選択肢の幅広さがゆえに、
ウィンドサーフを使ったりとかっていうところがあって、
でっかい計画はアンチグラビティ、
通常の調査タスクだったり、
フィードバックのしやすさ
この開発のメインで使ってるのがウィンドサーフみたいな形になってるかな。
けどアンチグラビティは使うってことなの?
大きめの回収をするときとかは、まずこいつで計画を立てるっていう流れにはなってきてる。
それはアンチグラビティ使おうとしてるからアンチグラビティを使ってるのか、
もうそれが最適解と思ってるっていう意味合いなのかどっちなのか。
試しに使ってるから今。
だから今ちょうど言おうとしたのが、
Codexとクロードコード、CLIでの使い方も今も続けてて、
俺的にはヤマちゃんがカーサーに3並列で投げる、
僕はカーサー使ってないから、
どっちかっていうとアンチグラビティにやりつつ、
サブでCLIでCodexとクロードコードに同じプロンプト投げて調査してもらって、
その出力も見たりしているんだけど、
それやってる中では結局フィードバックの返しやすさ、
レビューの返しやすさっていうのが今のところアンチグラビティの方が高いし、
あとは出してくるタスクだったり、
コメントとかね、しやすいからね。
あとは、出してくる内容の精度に関しては、
めちゃくちゃそれぞれ全然違くて、
こっちがダメだみたいな明確な違いはあんまり多くない。
もちろんアンチグラビティ結構抜け漏れあるなみたいな感覚はあったりするんだけど、
それはどっちかっていうと、
Codexとかクロードコードが吐き出したのを見て、
確かにこれ抜けてるなって思ったのをそのまま、
かいつまんでアンチグラビティに投げるっていうことをやってる感じで。
それをコメントでベースで指摘できるっていうあれやね。
一応ちょっと前回聞いてない人いると思うんで補足すると、
例えばコードのディフとかもそうですし、
アンチグラビティが出してきた計画書とかタスクとか全部を
ドラッグすることでコメントみたいなのをポチって、
その場所を明示的にレビューするみたいなことができるんですよ。
なのでその機能が結構重要って感じなのかな、アメちゃん的に。
そうそう結構重宝しているかな。
なんか1回の出力に対して指摘って結構、
3つ4つしたいとかっていう時はいっぱいあるから、
それをここここってどんどん上から縦に読みながら、
流れでコメントすぐできちゃうのが、個人的には体験良くて、
ツールとしての使いやすさとして、
今は結構アンチグラビティを使っているのかなっていう感覚がある。
アンチグラビティの使用感
もちろんアンチグラビティを試したいっていうところもあるんだけどね。
なんかアンチグラビティの、
俺アンチグラビティ使わなかった理由の一つかもう一つが、
Gemini 3.0 ProとSonnet 4.5しか使えないっていう。
そうなのね、そこはある。
そこはあるよね。
だからWindsurfってまだコーデックス5.1使い放題なの?
使い放題。
やばいね。
よくわかんない。
それマジでやばいよね。
もちろんそのモデル、5.1の範囲のリーソニングっていって、
よく考えるモデルはフリーで、
Priorityっていう優先的に早く返してくれるっていうのは、
クレジット消費があったりするとかってちょっと違いはあったりするんだけど、
基本的に使ってて困らないモデルはもうフリーになってるから。
コーデックスやね、コーデックスってことやね。
そうそう、コーデックス。
について。
もうそうだし、あとは他の、
グロークコードファーストとかも全部フリーで使える。
有料プランに入ってればクレジット消費なく使えるので。
けど有料プランは15ドルでしょ。
そう。
安い。
やばいよね。
で、使い放題だから。
なんかね、だからさっきも話したように、
そのモデルの選択肢の幅広さだったりで、
この調査したりとか小さい回収だったりとかは、
もうWindowsアフにお任せして、
モデルの選択肢は狭いけど、
とりあえずその実行計画を細かく立てていく中の、
使いやすさっていうところで、
Gemini3かのモデルが使えれば一旦十分かなっていうので、
アンチグラビティを使っているっていう感じかな。
不満もね、結構あったりするんだけどね。
何かっていうと、何でしょう。
それは単純にコンテキストの与え方が良くないのかもしれないけど、
最初に日本語でチャットで指示出すときに、
日本語で回答してくださいって明確に書かないと、
どうしても英語で返ってくる。
英語になるよね、アンチグラビティ。
一応ほら、カスタムプロンプトみたいなのって作れるじゃん。
.Geminiの配下に作られるような。
あそこにしっかり書いててもなお見てくれない。
てかあそこ見てないんじゃないかなって。
他の指示も書いてるのに無視してて、
なんでこれコンテキスト、何でしょう。
カスタムプロンプトに書いてるのに、
その指示って確認しませんでしたかってこの間聞いたのね。
どうしても言うこと聞いてくれない。
したら確かにこういう風に書いてありましたっていう原文をしっかり出して、
でも私はそれに指示に従ってませんでしたって言い出して、
あれ?って思って。
だからやっぱりアンチグラビティはUI構築ぐらいの強さだな。
けどクソリッチなUI作ってくれるけどっていう。
.Gemini3の特性なのか、
それはエディターがプロンプトを与えるときの問題なのかわからないけど。
リファクタリングとUI構築じゃない?
変に自律的に全部計画申し上げてもらってって言われると、
そういうのが重要になってくるけど。
これをこう書き換えてとかっていう。
至極単純なやつとか。
UIあったら複雑なんでもお願いできるから。
そう考えるとちょっと未来的ではあるけど取り回しが悪いっていう。
最終的にはこういうアンチグラビティみたいなインターフェースが、
いわゆるエンジニアの使うエディター、
これが普通だよねっていうのはなっていきそうな気がするんだけど。
どっちかっていうとデビン的な感じじゃん。
使い方的に。
なのでそっちに寄っていくのかなと思いつつ、
やっぱりなんかモデルの選択肢とか、
あとはコンテキストがうまく入らないとかで、
ちょっと不満は若干ありつつって感じかな。
だからまあ両党してるかな今は。
アンチグラビティとWindsurf。
コーデックスとその評価
でもWindsurfの方がウェイトはかなり高いって感じ。
なるほど。
カーサは使ってないか。
カーサは使ってないね。
使ってみてもいいけど、
この4つ。
コーデックス、CLI、クロードコード、CLI、アンチグラビティ、Windsurf。
この4つ使ってればあんまり困らないし、
カーサの出るマークが今のところないなーっていう。
逆にコーデックス出るマークあるの?
あるね。調査系はやっぱ強いな。
結構深く入ってくる。
それをWindsurfでコーデックス使うのとも違う?
あのね、Windsurfのコーデックスも結構調べてくれるんだけど、
単純にこれはMCPの設定がちゃんとできてないとかっていうのもある気がするんだけど。
まあMCPの方かな、どっちかっていうと。
まあそれで言うと正しい判断はまだできないかもしれない。
コーデックスはプロジェクトのデータベースにセレクト投げれるようなマイスケールのMCPを自作していたり、
クラウドフレアとか各種サーバーのログを取りに行けるMCPも作ってて、
かなりそれが詳細に調査してくれるし、
それの結果も常にパフォーマンス高い状態で出してくれるから、
一旦それ使ってるかなっていう感じなんだよね。
なるほど。え、じゃあいらなくなりそうやな、それだけ聞くと。
うーん、なんかね、確かに。
でもどうなんだろうな。やってみて、来週また話してみる?
まあコーデックスは、なんか俺の中でコーデックスが使わなくなってきてるなって感じがあるし、
なんかコーデックス高いからさ。
あーはいはいはいはい。
そうそうそう。まあなんかWindows Surf、俺もWindows Surfでいいかなって思ってき始めてる。
まあWindows Surf使えればコーデックスをやめれるから、一旦それを。
画像生成とディープリサーチだけ、やっぱコーデックス、コーデックスっていうかチャットGPTと言うのよ、あのプランで言うと。
まあAtlusは正直まだ何だろう、実用性があるかと言われるとそうではない感じやから、
まあ一旦いらんとして、画像生成は結構使うから、その辺だけかな。
まあコーデックスっていうか、まあチャットGPT開発できるんだったらいいなって思いましたって感じ。
まあまあまあまあまあ、それはあれだとして。
まあけど、だからもしかしたらMCPの整備によってはWindows Surfでこつたりいるってなるとは、
まあアベちゃん的にはWindows Surf最強っていう話になる可能性はあるってことで。
まあなってくるね、徐々に。
まあ多分整備をしていけばだとは思うし、あとまあ、まあそうだね。
結局アンチグラビティのレビューのしやすさっていうのはWindows Surfにはないのか。
そうね、なんか、いやWindows Surfも別に正直やれるっちゃやれるんだけど、
実行計画はマークダウンに出力してもらって、それに対して都度ここの行のこの書き方がみたいな感じで指摘するしかないんですよ。
チャットベースでね。
だから言葉でね。
言葉でそうそう。
だけどアンチグラビティはもう線引っ張って、なんでしょ、テキストを選択すればすぐコメントできる。
ここダメみたいなね。
そうそうそうそう。
なので割とアンチグラビティは計画立てる分にはいいけどって感じかな。
まあそうね。
まああと、クロードコードみたいにね、プロジェクトごとにMCPを設定できたらよりいいんだけど、Windows Surfもなんか似てる感じグローバルにしか設定できなくて。
まあこれコーデックスも一緒なんですけど。
やっぱ軌道がどんどん重くなっていくんですよ。
プロジェクト僕5つか6つぐらいかな、携わってるんで。
まあやっぱ使うMCPもなんかプロジェクトごとに最適化されてるやつとかであって、なんかそれが一気にドカッと立ち上がると。
なんか今、クロードコードじゃない、コーデックスとかはMCP10個立ち上がるみたいな感じで。
結構重たいから、なんかやっぱプロジェクトごとにMCP使えるようになってくれたら嬉しいなっていうので。
そういう意味で言うと、クロードコードは立ち上がりが早いから個別にやってて。
なんかまあサクッと聞きたい時とかは割とクロードコード立ち上げる瞬間もあるけど。
クロードコードはいいよね。ツールとしてはもともとずっといいって言ってたけど。
なんかクロードのオパース4.5、個人的にはまあいい印象はありつつも、別にソネット4.5でもいいかなと思いつつみたいなぐらいなんだけど。
なんかけど、それをさ、4日前ぐらいに話してたじゃん。
うん、話したね。
けどなんかちょっとソネット4.5ちょっとナーフされたんじゃないかな説を僕は感じてて、今日ぐらいから。
あ、そうなんだ。
って感じてる。
リミットの制限、何でしょ、そのリミットレート的な制限がソネットの方が結構厳しめになって、
オパースの方が逆になぜか緩くなったみたいな話は聞いたんだけど。
なんかどっちかっていうとナーフは性能的な話だよね。
あ、そうそう性能的な話ね。
あ、そうなんだ。あんまりね、僕はクロードを使うことがなくなってきてるからちょっとずつ。
確かにオパースは4.1と比べると結構早いし、
プロジェクト管理とツールの選定
それで言ってそれなりに精度高いけど個人的にはソネットとあんまし変わらんかなってみんなすごくオパース4.5めっちゃいいみたいな話してたけど、
なんかそんなかなと思ったけど、なんかあれなんかね、ソネットの方はむしろ性能下げてみんなオパース使うようにちょっと誘導みたいなのが入ってる。
いやわかんないけどそんなことしてないと思うけど、なんか感じるけどねっていう。
そうなんだ。
ですね。あ、けど文章能力高くて、けどなんか頭の良さ的にはコーデックスレベルな気はするけどね。
あぶちゃんはなんかコードベースを探索するスキルとか足りないんじゃねみたいな話も言ってたけど。
そうね。なんか普通に嘘ついてきたからびっくりしたよね。
なんかあとは、やっぱウェブサーチが弱いのかな。
まあライブラリとかをいろいろ確認したり、まあその仕様であったりとか、まあ複数のライブラリを選定するっていう取り組みの中で、
なんかオパース4.5が出してきたのは、なんかちょっと古い情報だったり、なんかそもそもこれ間違ってねみたいな話が出てきていたりしたから、
僕のオパース4.5の最初の方に使った印象は、そんななんか良くないのでは?みたいな感覚があったりしたみたいな。
まあそれで言ってコーデックスは、まあそこはもう本当にしっかりしてくれてる感じがあるから。
信頼度というか、なんか不安がないなっていうのでは、コーデックスどうしても使っちゃうっていう感じ?今。
うんうんうん。
AIツールの利用状況
まあコーデックスの安心感がね、慣れきってるよね、俺らは。
そう慣れきってる。だからアンチグラビティもなんか正直、なんか少し恐れ恐れ使ってるというか。
ちょっとそこのなんか、そこのメンタルブロックを外してスラッとにちょっと。
みたいね。
っていうのもあるよね。
でもそれほどまあコーデックスは割りかしまあ安定して、しっかりしたデビューというかアウトプットを出してくれてるんだろうなっていうその小差でもある気がするけど。
まあいろいろ幅広く使う上ではね。
そうですね。
あ、そうそう。で、あと聞きたかったのが、クロードコードよく使うよう、まあ使うようになってきたってさっき山ちゃんに言ったと思うんだけど。
あの僕らがその作ってたその要件定義コマンド。
うんうん。
で、まああの今ってあのクロードコードはさ、内部的に要件定義の仕組み、プランモードなんかの用意してくれてるじゃないですか。
で、あれ使うとあの向こうからその組み込みでも質問みたいなのが3択とかで飛んできて、なんかすごいこうUI的にもなんか選択しやすくなんか提示してくれてると思うんだけど。
なんかあの機能使ったりとか、まあ使った上でなんか僕らが作ってたその要件定義コマンドとの比較みたいなのってなんか山ちゃんの中でやったりした?
いやだから要件定義はあの基本的にカーサーでやってるから。
あーね。
あ、じゃあそれはディファイン、あ、それはあの要件定義のコマンド自体も、プロンプト自体もカーサーに今入れてあるってこと?そこまではしてない?
いや入ってたからそのまま使ってるけど。
入ってんの?
多分コーネックスの定義してるやつなのか、クロードのやつで定義してるやつかどれかを継承して使えるようになってるよ。
なるほどね、カーサー側でだから。
いやそれか俺が記憶にないだけで自分で移植してたわけかもしんないけど。
まあいい。
少なくてもそうやね、使ってるから。
いやもし、もしカーサーが、いわゆるしなにね、クロードコードとかコーネックスのそのグローバルなカスタムプロンプトを自動で読みに行ってくれるんだったら、それは結構ありがたいなーって個人的に思ったけどね。
うーん、まあどうかわからんけどまあ少なくても俺は使えてるね。
なるほどね。
今度確認してみてください。
あんま考えずに使ってるから。
今いろいろツール使ってるからさ、せっかくこういろいろ書いたそのカスタムプロンプトをあっちこっちに転写するというか書き換えていくのがすごくねめんどくさくてね、ちょっとサボっちゃったりするんだよねやっぱ。
そういう考えがあるかな。
そうやね。
なんかうまいことね、シンクしてくれるのないですかね。皆さん知ってたら教えてくださいって感じなんですけど。
ありそうだけどな。
まあ探せばありそう。
いやけどカーサーなんかその辺の努力してそうだけどななんか。
いや、なんかねカーサーなりやってそうだなって今聞いて思ったからちょっと思ったけど。
まあそんな感じですかね。
まあじゃあアベちゃんはWindsurfとAntiGravityとCodexなのかな。
クロードコードはたまに使うけどみたいなぐらいか。
ツールの特性と期待
もう日本語だね完全に。日本語を出してほしい。
日本語用ね。けどそれWindsurfでもできるってことやもんね。
Windsurfはクロードコード系のモデルは全部クレジット商品になるんですよ。高いんですよ。
そういうことか。
しかもクレジット商品は×2とか×3とかされるんで。
うん。
ちょっとね。
なるほど。
だからCLIベースで使うかなって。
なるほどね。
クロードコードの登場頻度は割と下がりつつかなって感じかな。
ドキュメント整備系だけってことね。
ドキュメントの整備に関してもWindsurfのプロンプトがいいのか、
Codexは日本語下手下手言ってたけど、
ドキュメント整備ぐらいはできるぐらいの出力出してくれるんですよ。Windsurfで。
しかも最近5.1になって日本語上手くなったしね。
それも相まってか、あんまり困ることも少なくなってきたかなっていうので、
どんどんクロードコードの利用率が減って、明確に減っていってるのはそれかな。
なるほど。了解です。
これは稽古観察でいろいろ試してるよっていう状況ですかね。
やっぱりどれかバチッと1個使ってるっていうよりは、
特性とか使いやすさとかいろんなので使い分けていくのが今のAI駆動開発ではベストというか、
ユーザーの努力とAIの進化
いいやり方なのかなとは思うけどね。1個って決めれないかなって思っちゃう。
そうですよね。結局だからモデルがまだ頭良くなったとはいえって感じなのかな。
半年前、1年前に比べたらもうあまりにも進化スピードだけどね。
ここまでAIに任せることになるとは、1年前は思ってなかったかな、俺は。
そうなんだ。
デビンとかももちろんだし、1年前って言ったらちょうどCラインとか、
あとはデビンがちょうど出てきた頃じゃないですか。
クロードとかもまだ全然、そんな精度高いなって感じは僕の中ではなかったから。
実行計画を立てて、ちょっとレビューして、あとよろしくで全部ドカッとやってもらったのを、
ちょっとレビューして終わりみたいなフローはまだあの時は想像できなかった。
そうですか。
もしかしたらヤマちゃんもその時点で。
いやいや、俺はずっと伝えてたつもりだったけどね。
こうなるから。こうなるから頑張ってほしい。
伝わってなかったってことだなって。
伝わって、なんかそれ多分ね、体感として、ほら、これはよくあるけど、
俺は実体として感じれないと飲み込めないタイプだから。
自分が実際にこうやっていく中で。
もちろん将来的にはそういう発展はあるのは当然もう快逆なものだけど、
1年前の時においては、それがいつになるのかがまだわからないなっていう。
それが1年後かも、半年後かもしれないし、1年後かもしれないし、2年後かもしれないしって思ってたんだけど、
それがやっぱすごいスピード感でどんどんモデルの方針が。
思ったより早いみたいなのもあるけど、なんか努力によってできそうな雰囲気はあったよね。
こちら側のユーザー側の努力によってできそうな。
でも逆に言うとそう、今だとそんな努力しなくてもかなり使える状態。
例えばWindows Surfとかもさ、最初とか使い始めの頃は全くカスタムプロンプトも設定してないし、
MCPも設定してない中で結構使いやすいな。
使いやすい、それはツールとしての使いやすさだし、あとはモデルがチューニングされてるのかな。
結構いいフィードバックをくれたりとかで、努力をしなくてもかなりの精度を出してくれるっていうのが、
やっぱ大きな変化かなとは思ってるけどね。
けどそれで言うと俺今の現状だと精度に満足してないから、努力が必要だと思ってるって感じかな。
だからアベちゃんはエンジニアだからそう思うって感じじゃない?正直。
多分期待値が低いよ、AIに対して。
俺は全部エンジニア1人増えるどころか、お金かけたら100人増えるみたいなイメージで考えてて、
そこには足りてないじゃん。アベちゃんもう1人にはなってないじゃん別に。
なんないね。
そう、けど別に努力によってそこまで持ってけそうなレベルになってない?今、頭の良さ的に言うと。
そう、だからそういう意味では努力が必要なフェーズだなって思ってるけど。
まあ確かにその目線で立つとまだっていう感じではあるよね。
そうそう、だってそれをやらないと何だろう、別にみんな使えることを使って喜んでてもさ、何の優位性にもならんというか。
そうやな、今これが努力が必要ないっていうのはちょっと嫌だなって思っちゃうかもしれない。
そこを努力して自分並みのものをやるみたいなのが重要かな。
努力をしなくてもそれなりの精度が出てきたっていうところが大きな進化あるなっていう話ね。
あー、なるほどね。
努力しなくても使えるようになっていいねじゃなくて、正直その点においてはまだ満足できないっていうか。
自分一人の役にはならないじゃない、今現状だと。
まあ結局ね、あべちゃんも住宅が爆増できるかと言われたらそうでもない状況ですね、結局。
1.5、2倍とか、まあいいときは本当にすごい何倍もって働きはしてくれるときはあるけど、やっぱりそこにブレがあったりとか、なんか。
なんかマイナスに振るときもあるしね。
そうそうそうそう。だからまあそういう意味では全然まだまだなのは間違いないね。
まあとはいえ進化であったり、なんか精度の向上っていうのがここまで来るかっていうので、
なんかこの1年間結構激動でしたけども、なかなかどんどん新しいツールが、アンチグラビティとかもねこうやって出てきて。
LLMの進化するタイミング、というか進化幅がちょっとずつ減ってきてるから、ツール群の進化に頼るタイミングが来てるっていうことなのかな。
確かに。なんか最近はツールの成熟によってなんかパフォーマンスアップしていってるみたいな感覚はやっぱあるよね。
結局コンテキストの受け渡しとかが重要だし、あとうまくスコープをどう切ってあげるかっていうのが結構重要だし。
なんかそう、コンテキストをいかに渡せるかが結構今重要で、それこそさっき言ったように1年前の感覚だった。
プロンプトエンジニアリングを頑張らなきゃいけないみたいな感覚だったんですよ、僕的には。
細かい指示をとにかく用意してとか渡してとかだったんだけど、どっちかっていうと今はコンテキストエンジニアリングを頑張らなきゃいけないみたいな感覚。
コンテキストエンジニアリングの中にプロンプトエンジニアリングが内包されてるような気がするんだけど、それこそMCPだったりログの取りやすさだったり、
ドキュメントへのアクセスのしやすさだったりとかっていうのをAIにどんどん整備していくだけで精度が上がっていくような映像に変わってってるなーっていう感じ。
そういう意味では、なんか俺は結構渡しやすさみたいなところもそうだけど、渡しやすくて渡しすぎてもAIの精度落ちるからさ。
例えばPDF以降は多数にしてもらうけど、PDFバーンって全ページ分を一気に読ませるんじゃなくて、PDFバーンって投げたら一回サブエージェント、全部の一枚一枚のPDFに対してサブエージェントが分離されて、
それを解釈した上でオーエージェントに戻ってくるみたいなとか、そっちのコンテキストエンジニアリングが結構重要かなーって、それがおそらくやけど、検索が下手上手いとかもその辺な気がしてて、
全部を取ってくるとすごいコンテキスト量になるはずで、検索とかってフェッチするだけだと。そうそうそう。でそうすると精度出ないからおそらくその間になんかかまさないといけないよね。
それを整理する人というかエージェントがみたいな、なんかそういうところが、だからWindsurfとかすごいなって思うけど、その役割分担とか。
ツールの重要性とコンテキスト
パンチグラビティのタスク生成とかもそうかもしれないけど、だからなんかそっちの作りの方が結構、そういう意味のコンテキストエンジニアリングが重要かなーって思ってて。
でまぁなんかさっきの何かね、阿部ちゃんがセレナいらないみたいな話とか、まぁなんかセレナがどんなに効いてるのか分かりづらいっていうのもセレナいらないって言ってるうちの一つかなって思うけど、
まぁセレナをなんかうまく使わせると、その関数のスコープだけで見てくれるとかさ、そういうのができるはずやから、まぁどうなのかなっていう。
ただWindsurfの方で別にそれもう実装されてるんだったらいらないじゃんみたいな話かなって思ったから、まぁ阿部ちゃんが何使ってるかの方が重要かなって思ったけど。
まぁWindsurfはね非常にないほうが。
あるじゃん。
うん。
そうそうそうそう。まぁだったらまぁいらないっていう判断になるし。
まぁけど、共通のなんか時系列を保持するみたいな、だからセレナは単純にあのファイルで落とすだけじゃん。
あれをちゃんとベクトルデータベースとかに格納していってみたいな仕組み、セレナってすごい簡易的な仕組みじゃん、メモリの方の。
メモリの方が多分重要じゃない?
そうだね、メモリの方がやっぱ重要だから。
経緯とか。
うん。
まぁだからセレナ。
格の経緯とか重要じゃん、なんか。
そうなんだよね。だから今だとね、セレナだと本当にセレナが自己判断した重要だと思う情報だけがメモリに溜まっていく状態。
で、しかもそれは溜まりすぎるからたまに消したりとかするから。
うんうんうん。
もう一個やってるプロジェクトとかだと、もう実行計画を常に出し続けて、それをID割り振ってて、それをもうずっとコミットして保持し続けるみたいな。
うんうんうんうん。
まぁそれでもいいけど、やっぱ全部のマークブラウンじゃあ、見に行くとコンテキスト結構高いよねみたいなので。
うんうんうん。
漁ってくると、ラグっぽいような仕組みが入ってる。
まぁMCP。
まぁCypherだっけか。
まぁCypherじゃない?
うん。
うん。
使うとかなのかなぁ。
まぁそうやな。
うん。
まぁセレナのLSPに関してはもうね、CypherやらWindsurfを使う前提だったら別にいらないっていう話ですね。
開発の進捗と気づきの共有
そうね。
まぁそれぞれのツールが頑張ってるしね。
まぁ確かに。
試しにちょっとセレナを止めてみて、どんぐらい変わるかなっていう1週間を過ごしてみてもいいかもしれませんね。
うん。
まぁ確かに。
セレナを使わすためのコンテキストも結局食ってるからね。
うんうんうん。
まぁじゃあちょっと来週もじゃあ結局どこに落ち着いてるかを話しますか。
そうね。
まぁ他にビッグニュースがあればそんな話するかもやけど。
じゃあまぁ本日はこんな感じですかね。
うん。
ではではありがとうございました。
ありがとうございました。
本日もAI駆動開発部の日常をお聞きいただきありがとうございました。いかがでしたでしょうか。
お互い開発を進める中であまりそんなに二人がお互い何を使ってるかみたいな共有をしないようにあえてしてるので、
この場で二人とも全然違うのを使ってるじゃんみたいなところで驚くことも僕自身もあるんですけれども、
ちょっと参考になる情報かなと思いますので。
また来週以降もこんな感じで普段AI駆動開発する中で得た気づきとかをシェアできたらと思っております。
他に何か気になるトピックであったりとか気になるツールとかあればお便りとかいただければ取り上げるようにいたしますので、
是非お便りいただけると助かります。
コメントとかでも全然大丈夫です。
このポッドキャスト気に入ってくれた方は、いいね、フォロー、高評価ぜひお願いいたします。
ではそれではまた次回もお楽しみください。
バイバイ。