6【長時間自律駆動開発の秘訣とは？】CodexやClaudeCodeを効率的に

AI自律駆動の課題

こんにちは、AI駆動開発部の日常へようこそ。このポッドキャストは、日々AI駆動開発を行う企業家の山本と、エンジニアの阿部が、AI駆動開発のリアルを緩く語り合う番組です。

はい、じゃあ本日もよろしくお願いします。よろしくお願いします。じゃあ今日はなんか、阿部さんのほっぺ、悩みがあるんですか?

悩み、まあ悩みと言えば悩みだね。お悩み相談ということで。

壮大な悩みがあるということで。はい。

いきなりハードルを上げていきますけど。

まああの、ちょっと僕最近、まあ開発している中で、その、何でしょう。結構気になっていることがある。まあ一つのテーマみたいな形になっているのがあって。

はい。

なんかその、AIにロングランさせる。作業を長時間自律的に動いてもらうにはどうすればいいのかなっていうのをすごい悩んでいます。

うんうんうん。

で、なんかね、僕がやってて普段思うのは、やっぱりなんかコーデックスもクロードコードも、まあ10分とか長くても20分ぐらいの作業で、まあ一旦停止するんですよ。

なるほど。

で、まあ長いっちゃ長いんだけど、なんかまあ僕の場合は基本的に調査のタスクだったり、まあ細かい回収とかをするので、まあそんなに長くなりにくいのかなとは思いつつ、なんかもっと自律的にこう自分で問題を特定して、その解決策に対してこうフィードバック回したり、

あとはそれに合わせて実装とか、まあデリレーションといって直したことによってバグがさらに起きないかっていうチェックとかを自律的にやってくれるようになれば、まあその10分とか20分の壁ってもっと越えて、長く動いてくれるようになるんじゃないかなっていうふうに思ってます。

はいはいはいはい。

まあなんか長くなることが全てってわけでもないような気がするんだけど。

はいはい。まあもうちょっとやってくれ、欲しいことがあるってことだよね。

そうそうそうそう。

まあ時間で話しちゃったけど、まあどっちかというと、もうちょっとやってくれるはずというか、まあ欲しいんだけど早く終わっちゃうみたいな感覚があると。

あ、そうなの?

まあ10分20分って言ってるけど、まあそれが10分20分でもその阿部ちゃんがやって欲しいところまで、まあやってくれてるんだったら満足してるはずで、まあ何かしら満足できてない原因があるみたいな感じなのかな。

CodexとClaudeCodeの活用法

確かにそうだね。あのー、それで言うと確かに時間というよりかは、なんかここで止まらなくてもよかったんじゃないっていうタイミングでやっぱり止まっちゃったりする。

ちなみに俺は全くなくて。

なんかね、見ててそんな印象を勝手に受けてる。

うん、まあ3時間とか。

そんなに動く?

動く。

マジで?

まあ俺寝る前に回したりすると、あのーそうだね、たまにまあ見ながら、様子見ながらみたいな感じで、2,3時間とか普通に動くよ。

そうなんだ。いやなんか、でなんかその長く動かせるようになるっていうことはいろいろメリットあるなって思ってるんですよ。

なんか、クロードとかは30時間でコーデックスは7時間自立駆動しますみたいな。

コンテキストウィンドウ食いつぶさないの?みたいな。

そうそう、だから結局俺の場合は時間でというよりはコンテキストウィンドウの問題で、コンテキストウィンドウが圧迫し始めたら、俺の方でキリの良いところで止めるみたいな感じだから。

止めるんだ。

だからどっちかというと、なんだろう、これクロードコード使ってるかコーデックス使ってるかにもよって、

クロードコード使ってる場合はできるだけサブエージェントに渡すっていう、あくまでも親エージェントはオーケストラでいうところの指揮者をになってもらうっていうのをちゃんと指示出しする

みたいなことを絶対するようにしてて、それでコンテキストウィンドウの問題はできるだけ排除していきたいなっていうのが俺にはあって、

コーデックスはあるけど一方で、その辺がサブエージェントの機能とかないからさ。

そうだよね。

だから結局俺の場合は時間の問題というよりはコンテキストウィンドウの問題なのかなーみたいな感じかもしれない。

確かに。

うん。

だから長時間動かせるようになるっていうことはそのコンテキストをうまく使いこなせるっていうことにも直結するから、

なんかもうちょっとこの辺、どういう工夫してるのか、まあ今もちょっと軽く教えてもらったけど、聞けたら嬉しいなーっていうふうに思ってました。

だからか、なんかアベちゃん、コーディングしてる、俺よりコーディングしてるじゃん。

たぶんね、そうだね。

その割に、なんかこのLLMにコーディングさせるっていうことに対しての努力が足りないなって思ってた。

努力が足りない。

努力っていうか試行錯誤が足りないなって思ってたけど、

俺はね、基本的にコンテキストウィンドウとかが圧迫されるから、なんか明確に弊害があるけど、

アベちゃんの今のその10分、20分で終わっちゃうんだよねとか、

途中でまあ、いやここで聞くなよみたいなところで聞いて1回ストップされるとかみたいなのがあると、

コンテキストウィンドウの問題とかってあんま起きないのかもね、そのワンショットでっていう意味で。

あの、クロードは結構その調査のフェーズが、まあコーディックスもそうなんだけど、調査のフェーズが長かったりすると、

コンテキストウィンドウの問題が出るんだけど、じゃあ問題解決して新しいセッションで、なんか実装し直してもらえますとか、

タスク管理の工夫

いうタイミングにおいては、基本的にクロードコードとかだと、まあ60%残ってる。

コンテ、コーディックスとかも80%とか残ってる。

そんな感じなんだ。

結構残るんよ。

なんか俺あれを、1個の計画、まあ俺の場合は今01の開発してるからっていうのはあるけど、

基本的に1個のタスクをすべて完遂することは、タスクっていうのはすごい大きい開発のタスクを完遂することはコンテキストウィンドウの問題でできないんよ。

だからワンステップやってもらったらほぼ20%ぐらいになってて、

だからそれを1回エスケープ2回押してさ、過去のヒストリーに戻って、でステップ1をやった手で、

他の作業者にステップ1をやってもらいました。だからステップ2から始めてくださいみたいな感じで、

事前のインプットはワンショットでまず計画書の一番初めで操作させて、ある程度コンテキストを与えてるって状態まで持っていって、そこでレディーの状態にしとく。

でステップをこう踏んで進めていって、ステップがある程度完了、例えば3ステップまでコンテキストウィンドウの問題とかにぶち当たらず終わりました。

でここで次やったらリセット入るなって思ったらそこで止めるんよ。でエスケープ2回押してステップ3まで他の作業者にやってもらってるから、

それをまずチェックしてもらって問題ないかどうかチェックしてもらいます。問題ないことを確認できたらもう1回エスケープ2回押して戻る。

そのレディーの状態に戻る。でレディーの状態から3のところまでは完全に実装済みなので4から進めてくださいみたいな感じでお願いすると、

基本的にはその一番初めの計画を認知するっていうところはレディーの前に。

スタンバイのフェーズを1個設けてて。一番最初にだから今回のその計画とかどういうことやるのかってもうもちろん最初にやるんだけど

緻密に結構インプットしておいて、でステップが1から5とかあるときに1ステップ終わったらあれかセッションを履歴で戻って

また何でしょう何でしょう開始のところからやり直す。で他の人がやったてにして混乱させないようにして

でそうする。でちなみに設計フェーズは完全に切り分かれてて、設計書を作るっていうのは全く別のセッションでやってて

でそれで1回フルフラットな状態で。設計をするために無駄にコンテキストがいっぱい溜まるはずなんで

設計書が完全に出来上がったら2、3回ぐらい他のモデルたちにレビューしてもらうじゃん。である程度これだよねっていう風になったタイミングで

全く新しいセッションを立ち上げて、まず理解してくれとっていうフェーズを挟んでそこでオンレディの状態で今のステップ

さっき言ったステップが始まるみたいな。なるほど理解してねっていうところも含めてのオンレディにその最初の認識するっていうステップ挟んでるんだ。

そうそうそうそう。確かになそれはね僕もなんか似たようなことはやってるけどそこまで明示にできてなかった気がする。

でちなみにクロードコードを使う場合はあのタスクの依存関係とか結構大事なんでなぜならサブエージェントで4並列とか8並列

8並列くらいまで確かサブエージェントで動くからだからタスクの依存関係の整理までまずやっといて

で指示の中にあの適宜サブエージェントに依頼するかつタスクの依存関係的に並行で実行していいものは並行で

並列で処理するようにしてもらうみたいな感じにしてするとすごい効率が上がるなるほどね

ちょっとこれ聞いてる方向けの話にはなるんですけどクロードコードもコーデックスもあれだよねセッションの履歴を戻ることで

もともとコンテキストウィンドウが例えば60%まで減ってたやつが会話を2ステップ3ステップ履歴戻ることで80%まで回復したりとか

そういう機能がエスケープ2回押したらその会話履歴の中のどこに戻るみたいなことができる

別セッションのヒストリーみたいなんじゃなくてその1パイントセッションの中のヒストリーみたいなのを見てる

だからAIは履歴全体を見てるから元に戻れば戻った分圧縮できるというか普通に過去の時点に戻っただけだから

ただ過去に戻ったタイミングにおいての未来のセッションは全部切れるので戻るときはちょっと注意しないといけない

ちゃんとここまでやったんですよっていうのもだからセットで教えてそれをステップ1はもうやったから確認して

ステップ2に進んでくださいって言ったらコンテキストウィンドウはほとんど消去しないまま

例えば実装の中でさこの実装をやってもらいましたでその後に

この実装に対して聞きたいみたいなのあるじゃん

その時はほら俺はアスクコマンド作ってるからアスクコマンドしてアスクコマンドして自分の得たい情報を知ったらまたエスケープに変えてその聞く前に戻る

あー確かにそれもいいねそうすると無駄にコンテキストを加わなくていいから

だから俺めっちゃ多分コンテキスト気にしながらあのLLMと会話してるからなんかその感覚が阿部ちゃんからはなんか見ないなって思ってた

あんまり気にしないだから多分ね困ってなかったんだよね困ってないんやと思うけどそれはタスクの性質上かもしれないし

もしかしたら阿部ちゃんのもともとの課題である自分の使い方的に大きくある意味だから

AIの恩恵を享受しきれてない状態なのかもしれないしそれはどっちかわからんけど

タスクの性質は要因としてあるかなと思ってて調査も結局調査してもらったやつを僕は確認したいっていうので

1回止めてもらわないと逆に困るみたいなタイミングもあったりあとは開発規模が回収とか調整とかそんなに大きくならないから

気にならないっていうのはあるんだけどやっぱりでも何でしょう複数のタスクとかを例えば同時並行である程度やってもらえるようになったりとか

タスクとプロンプトの関係

あとは大きなタスクを何でしょう小さな複数のタスクをまとめて1個の大きなタスクにしてドカッとやるとか

なんかもうちょっと使い方あるんじゃないかなっていうのが悩みだったから

なるほどなけどなんかその阿部ちゃんの多分やって欲しいこと

おそらくやけどちっちゃいタスクであってももうちょっとやってほしいみたいなのがあるんだろうなと思ってて

それテストを書くとかテストを実際にしてもらうとかそこはなんか

プロンプトというか設計者なのかなって思ったプロンプトでそれをやりきるのは正直あんまりなんか微妙かなって思ってて

なぜならプロンプトを与えすぎてもそれはそれであんまりオーバーすぎてなんか回らないじゃん

だしそれをスラッシュコマンドにしても汎用化しきれることはないと思うからなんか俺のイメージで言うと

プロンプトと設計書を使い分けて設計書の中にまあ設計書と別に計画書を作ってもいいけど

なんか計画書テンプレートみたいなのをなんか阿部ちゃんの普段あのやってほしいってか基本的に多分既存のプロジェクト開発回収って

開発する前に要件定義して要件定義したものをもとに計画書を立てて計画を立ててで開発

でその後にテストを行ってで実際にドキュメント化するみたいなとかなんかそういう多分順序が基本的に決まってて

この順序っていうのを阿部ちゃんにとってフィットする計画書のなんかテンプレートみたいなのをまず作ってこのテンプレートに沿ってあの

設計書を作りますこの設計書をもとにこの計画書テンプレートをもとに計画書を立ててくれって言って

でプロンプトにはこの計画書を見てこういう振る舞いをしなさいみたいなのをすると

最後までいきそうだなって思ったまあ確かにまああれだよねまあ要件定義書みたいなものも作ってなんか1個の

大きな仕様みたいに固めたらそれをブレイクダウンというかあのどういう順序でやっていくかっていう

あのタスクの実行計画書みたいなのを作ってそれをやってもらうそうそう俺いつもそうしてディレクトリーもう

ドックス配下にディレクトリーそのプロジェクトそのタスクのプロジェクトのディレクトリー切ってで設計書要件定義書と計画書は分離している

で各ステップなんか大きすぎる場合はさらにその要件定義書の各ステップにブレイクダウンしたすべての詳細な設計書をまず作ってもらって

その上で始めるみたいな結構資料数が多くなるそうなんかサマリー的なものと計画と実行計画とそのそれぞれの実行計画の

クロードコードの利点

ステップの詳細なステップみたいなのをそうなんだ確かにステップが2段階にこう分かれて書かれてたらさすがに

実行するなんでしょうより細かく設定されているからそれ順序辿ってやってくれてみたいなそうでそうすると何がいいかというと

まあLLMからするとLLMを精度一番高くやっぱ出すっていうのはフォーカスさせることだと思ってて

そこでクロードコードのサブエージェントはすごくいい 1ステップごとにフォーカスさせれるから

1ステップのここの部分に注力してやってもらうっていうので相当精度が上がるけどモデルのやっぱ頭の良さ的にCodexかなみたいな感じでCodex

買っちゃうけどまあけど基本的には

そうだね各ステップを詳細化していくだからもうこの詳細化する時に仕様が全部細かい仕様まで決まるから

あとは実装例みたいなところまで決まるからそこで頭を使わせるみたいな残りはもうなんか作業をさせるみたいな感じで

なるほどタスクの中にもはや実装があるぐらいまで持っていってるんだ持っていく時もある

ややこしそうな時は

ちなみにその中にサブエージェントとかをこのタイミングで使ってねみたいなことはやったり

それは計画書の中にクロードコードでやる場合はタスクの依存関係があって並列できるところは並列できるとかっていうのをマッピングしておいて

でそれをもとに基本的にはあの親エージェントにはあなたはこのプロジェクトのいわば指揮者のようなものでした

なのであなた自身が作業するのではなくて基本的にサブエージェントに実行させてくださいで計画書の中には並列可能なタスクとかもあるんで

並列させられるとこはサブエージェントに並列実行させて効率的に進めてくださいみたいなでその時にあの必ずサブエージェントには詳細な指示と

あとその関連ドキュメントは必ず閲覧するようにあの指示を投げてくださいみたいな

指示の方もできるだけ細かく定義してあげる

これステップ1やっといてっていう指示をやられるかステップ1をやっといてくださいこのドキュメントとこのドキュメントとこのドキュメントは必ず確認してからやってくださいって

どういうふうに親エージェントがサブエージェントに指示出すかによって精度が変わるはずなんで

そう考えるとやっぱりクロードコードのサブエージェントってめちゃめちゃありがたい機能かなそうそうめっちゃありがたい機能

コーデックスだとできないもんねできない

なんか確かになと思いつつあとちょっと気になったのが確かにちょっと僕も実行計画書っぽいものを作るときはあるんですよ

フェーズ1からフェーズ4までみたいなのでその中にタスクが分解されててこういう順序でやってくださいみたいな話を書いた時に

コーデックスの特性

それ読み込んでやってもらってもたまにフェーズ2とかでここの今これは詰め切れてないだけなのかな

複雑なので停止しますとかなんかなったことない

そうなんだそれは2段階にタスク分解することで

多分そのフェーズが1,2,3,4ってある中のちょっと龍田が荒い部分も細かくされるから AIは迷うことなくただただひたすら突き進むことができたりするのかな

なのかなぁあんまないかもしれない

なるほどね僕はねたまに止まっちゃうんだよなんかそこがあるかもしれないあの僕が最初言ってたロングランクしてくれないっていうところ

複雑すぎて止まるみたいななのかななんか

ちょうど昨日とかは変更量が多いのでなんかその残タスクとしてドキュメントにまとめるっていう対応をしますって切り替えたんですよ

ちょっと待ってよみたいな

それ最近のそのコーデックスナーフ問題とかそっちの方なんだよもしかしたら

あーまぁそっちもあるかもなんかねコーデックスが最近ナーフされたんじゃないかって

Xでもねちらほら言われててねまぁこの間2ヶ月前ぐらいかなクロードでもあったような話で

結構バリバリやってたのに急にスペック落ちたなみたいな

けどオープンAIのシステムプロンプとおそらく内部の作り的にはオープンAIの方が無駄なことをさせないような

あの指示を多分細かく書いているはずなんで

指示なのか何なのかわかんないけどモデルの作り上の問題なのか何なのかわかんないけど

そういう性質あるじゃん結局

オープンAIのチャットGPTの方がやっぱ端的に出す

で多くのことをやらないだからまあ傾向としてはもともとあったよねその大きすぎるから一旦やりませんみたいなとか

逆にクロードはその辺オーバーブルマリーじゃないけどしっかり全部出し切るというか

なんだったら余分なことまでやっちゃうみたいななんかそういうなんだろう性質の違いみたいなもともとあったから

まあけどとはいえなんか指示されたことはやるイメージだけどね

計画の中身もざっくりしてたりするとやっぱり迷って止まるとか

まあタスクの性質によるよね俺もだからそこまでやる時もあるしそこまでやらなくていいなぁみたいな時もあるし

それはなんかその感覚は俺より絶対阿部ちゃんの方が高いはずで

イメージはなんで俺がその大きいか小さいかなんでイメージできてるのかよくわかんないぐらいの感じじゃん正直

まあそうだねこれは重そうだなこの開発は重そうだなって普通感じない

やってないとわかんないはず

多分阿部ちゃんの方が絶対精度高いはずだから

逆に僕が過度にAIに期待しすぎてるのかもしれないね

こんぐらいだったらまあできるでしょうみたいな

こんぐらいのタスクだったらまあそんな苦ないかな

まあ自分があんまり苦に感じないタスクとなんでしょう

AIが本当に苦に感じるタスクっていうのをあんままだ切り分けできてないのかもしれない

なんかそれで言うともしかしたら俺がその途中で終わっちゃうとか

阿部ちゃんのその意図しない動き振る舞いをLLMがした時に

どっちかというとあれかも俺が気にしてないだけで俺止めてるかもしれない今思ったけど

一回なんか予期しない予期しないというかなんか初手ぐらいなんか初めの動きぐらい初動の動作ぐらいで

なんかこいつ俺の思ってるなんかベストな動きしてないなみたいな時がたまにあって

その時は俺もう全部リセットするまあそれが中盤ぐらいであってもリセットするよね

全部消すコードの編集も全部消すでもう一回何もやってない状態からで

で俺がモヤっとしたポイントを指示書にもう一度書いて

なるほど指示書の精度がだから何でしょう

まあそれも時と場合によると思うけど止めてやり直す時っていうのはどんどん指示書の精度が上がっていく

そう上がっているだから俺がなんかモヤっとしたいやこんな振る舞いやめろよっていう時は

あのもう一回指示書に重要な事項として書く書いて上でやるから

だからなんか俺はそれを気にせずにやってただけで

実は同じことがあるのかもしれない

いやでもそれすごいわかる気がするけどそんなにちゃんと意識的にやってなかったかも

あの特にまあこれどうかなコーデックスで結構強い傾向かなと思ってるのが

一回コーデックスが判断したことってあんまり曲げれないっていう感覚があるんですよ

それ言うよね俺全くその感覚がないのはセッションを全部切ってるから

そうそう多分切ってるから僕の場合はなんかそのアジャストしようとするんだよね

多分ちょっと違う方向行ってるな

あーなるほどね

これって今作業ここまでやってもらってるけど

でもこれはこういう風にやるべきなんじゃないか

なんかすっごいザラザラこういやそれはみたいな

わかったわかったそれなんでかというと多分あれだね

俺はさこのエピソードの一番初めの方に話した

コンテキストめっちゃ気にするから

その一個方向転換を嫌なんよね

そのセッション内で方向転換が一個でもしてると

なんか無駄な知識というか無駄なコンテキストが圧迫されてるとかすごい気持ち悪いから

ゼロベースでそれを至上に盛り込んでやるっていう

あーなるほどね

そうするとめちゃめちゃ精度上がるから

だからか阿部ちゃんが言ってるのずっと理解してなかったけど

阿部ちゃんはそのセッションの中でやりくりしようとしてるんだ

最近やっぱなんかあんまり軌道修正って難しいんだろうなっていうのを理解してきたから

止めることもあるしやり直すこともあるんだけど

その時にもちろん改めて指示書に盛り込むっていうのは

自然とやってたけどなんかすごい意識的に何でしょう

自律駆動開発の効率化

こういう時はこうしようみたいなパターン化が自分の中にもなかったから

言われてちょっとハッと気づいたかもしれない

確かになんか俺絶対に途中での方向転換

チャットアプリ使ってる時もね

何の時でもそうやけど途中で方向転換する

初手のアウトプットが一番最大化されてるっていう認知があるから

絶対に自分の思わないアウトプットが出たら

そのチャットのセッション内でやりくりしようとするんじゃなくて

全く新しいチャットに対して

もともと与えたプロンプトをコピペした上でその下に

注意事項としてみたいな補足としてみたいなとかって書いて

そっちの方向に寄らないような

全く新しいやつみたいなのを召喚させるようにして

それは確かになんか結構面白い気づきかもしれないです

なんか問答だからAIと

問答しない

AIとは問答しない

常に自分が期待するっていうのが

自分の期待がそもそも間違ってるかもしれないけど

こうだよねとか間違ってないよねっていう

最大パフォーマンスのアウトプットを

常に吐き出させ続けて

そうそうそうそう

阿部ちゃん以外の人にもそうやけど

LLM AIに求めてるものが

根本的に違うと

こういう使い方の違いって生まれるなって

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

AI駆動開発部の日常

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ