1. AI駆動開発部の日常
  2. 25【AI駆動開発の秘密兵器】Op..
2026-03-12 49:31

25【AI駆動開発の秘密兵器】OpenCodeとOhMyOpenCode活用術

今回は、「Codexのウィークリーリミットが3日で尽きてしまう」という僕たちの切実な悩みを起点に、その解決策として注目しているOpenCode+Oh My OpenCodeについて語っております。
以前試した時は安定感に欠けていたOpenCodeですが、今回改めて使うとかなり成熟していて、さらにオーケストレーションレイヤーのOh My OpenCodeを組み合わせることで、阿部さんは1時間が限界だったコーディングセッションが5時間のロングランに化けたと言います。SisyphusやOracle、Prometheusといったエージェントの使い分けや、Ultraworkの仕組みなど、僕と阿部さんでかなり運用の方向性が違っていて、お互い気づきの多い時間となりました。
後半では、Mastra Codeが採用しているObservational Memoryという記憶の仕組みにも話が及び、コンパクションに頼らない中期・長期記憶の考え方が、今後のAIサービス開発にどう活きるのかという話題でも盛り上がりました。

OpenCode 公式サイト
https://opencode.ai/
Oh My OpenCode
https://ohmyopencode.com/
Mastra Code 公式サイト
https://code.mastra.ai/
Mastra Observational Memory ドキュメント
https://mastra.ai/docs/memory/observational-memory
---
stand.fmでは、この放送にいいね・コメント・レター送信ができます。
https://stand.fm/channels/68dc82a9036795923c400b4f

感想

まだ感想はありません。最初の1件を書きましょう!

サマリー

今回のエピソードでは、AI駆動開発におけるCodexの利用制限という切実な課題に対し、OpenCodeとOh My OpenCodeというツールを解決策として紹介しています。以前は不安定だったOpenCodeですが、現在は大幅に成熟しており、特にOh My OpenCodeとの組み合わせにより、コーディングセッションの時間を大幅に延長できることが阿部さんによって実証されました。 番組では、Sisyphus、Oracle、Prometheusといった様々なエージェントの使い分けや、Ultrawork機能によるロングランセッションの実現、Todo Continuation Enhancerによるタスク管理の自動化など、具体的な活用事例が共有されました。また、親エージェントとサブエージェントの連携や、モデルの切り替えによるコスト効率の最適化についても議論されました。後半では、Mastra CodeのObservational Memoryという、コンパクションに頼らない長期記憶の仕組みに触れ、これが今後のAIサービス開発に与える影響についても考察が深められました。

AI開発の最新動向とCodex利用制限の課題
こんにちは、AI駆動開発部の日常へようこそ。 このポッドキャストは、日々AI駆動開発を行う企業課の山本とエンジニアの阿部が、
AI駆動開発を緩く語り合う番組です。 じゃあ本日もよろしくお願いします。
よろしくお願いします。
はい、お願いします。
ちょっとね、日が空いちゃったんですけれども。
そうだね、お久しぶりです。
はい、お久しぶりの…。
お久しぶりに会ったってわけじゃないけど、しゃべるのはお久しぶりって感じなのかな。
しゃべるのはというか、このポッドキャストショーでは。
ちょっとね、僕がバタバタしてたのもありっていうので。
ちょっと早くね、今回は話したかった話題があるんで、その話ができたらなと思ってるんですけれども。
最近だとね、GPT 5.4が出ましたね。
そうだね、出たね。
先週の水曜日ぐらいかな。
あとはあれだね、Googleがエンベッドモデル、新しいのを出して。
マルチモーダルに対応したエンベッドだよね。
モデルかな。
あれもめっちゃ良さそうよね。
そうだね、ラグの活用があると。
ラグの話の課題を。
進めることができるから。
みたいなのがあったりとか、あとは最近話してなかったのはQNとかね、QNっていうオープンソース。
LLMがかなり良いところ、ソネット4.5ぐらいまでいかないぐらいまでの性能とか。
ローカルLLMでそこまでいけるようになりたいのとか。
すごいよな。
いろんな話題が絶えない相変わらずのAIっていうところで。
ちょっとね、最近僕たちの中ですごく課題に思っていたことがあって。
Codexがね、サブエージェントが出たつって歓喜したのが、たぶん2回前ぐらい?1回前ぐらいの収録なのかな。
話したって盛り上がったかなと思うんですけど。
そのせいで、Codexのウィークリーリミットが3日とかで来ちゃうみたいな問題が起きちゃってて。
しかも4月までが2倍の利用量。
ボーナス期間で。
今ですら3日で終わっちゃうみたいな。
4月からどうしたらいいんだろうっていう頭を抱えたわけですよね。
いちいちで食いつぶすみたいな。
そうそう。
それもあったからGLM5が出て嬉しいよねみたいな話とかもジラッと話したりもしたかなと思うんですけど。
とはいえね、Codexのリミットが来たらGLMに切り替えたら全部GLMにしてもちょっと使い方というか使用感が変わったりして。
なかなかGLMの間ちょっとやる気出ないみたいになっちゃったりとかするみたいな。
あんまり難しい作業が止まっちゃうみたいな問題もあるのかなと思っていて。
だからこの4月以降どうしようみたいな不安感から。
本当に不安ですよね。ただの不安なんですけど。
それをもしかしたら払拭できる。
ちょっと我々も使い始めて、今日そこそこ経ってるのかな。2週間弱ぐらい?1週間強くらい使ってる?ので、そこそこ知見も得てっていうところで。
とはいえまだ完全払拭ではないからみたいな感じのところがあるんですけれども。
ちょっとその解決策について今日話ができたらと思ってますのでよろしくお願いします。
OpenCodeとOh My OpenCodeによる解決策
はい。
じゃあちょっと早速本題の方に入れたらと思うんですけれども。
何が解決策と言ってるのかっていうところなんですけれども。
皆さん1回ぐらいは聞いたことあるのかな。
オープンコードっていうツールですね。ハーネスがかなり良さそうだぞと。
実は以前も使ったことあって、一瞬良かったんだけどやっぱ安定感が悪いよねみたいな感じの話とかもしたりしてたと思うんですけど。
そこからかなり成熟していて改めて使ったら結構使えるじゃんってなってるのがちょっと今っていう形なので。
ちょっとそのあたりの話ができたらなというふうに思ってます。
じゃあオープンコードの立て付け、どんなものかみたいなところで。
このポッドキャストね意外とエンジニアの方もおそらく聞いてくれてると思うんですけれども。
経営者の方とかも聞いてくださってるみたいなので。
そもそもオープンコードの立て付けみたいなところを話できたらなと思っております。
Codex CLIとかクロードコードとかっていうターミナル上で動かす仕組みがある。
エンジニアとかだとちょっとずつ一般的になってきてるのかなみたいな感じになってるんですけれども。
そのChatGPTのサブスクプランとか、
アンソロピッククロードのサブスクプランとかに入って、
クロードコード上でクロードを動かしてコーディングをしていくみたいな形の立て付けになるんですけれども。
LLMが基本的に推論するんですけど、
ハーネスっていっていわゆるコーディングエージェントとしての振る舞いをうまくやってくれるような、
そこのハーネスの仕組みとして、前にも話したことがあるサブエージェントっていう仕組みが用意されていたりとか、
とかっていうような状態ですね。
例えば、編集をうまくできるようにしてくれたりとかもハーネス自体が提供していたりとかすると。
MCPを設定したりとか、そういうのもハーネスがあるからできてるみたいな形なんですけれども。
コーデックスTLIとかクロードコードとかと同じレイヤーですね。
ハーネスというレイヤーとしてオープンコードがあると。
オープンコードの結構いいところは、コーデックスのサブスクリプションプランの枠を使って、
コーデックス、Chat GPTモデルが使えるよっていうところもあるし、
GLMのサブスクプラン、GLMコーディングプランを使ってそのモデルも使える。
さらに言うと、アンソロピックは公式ではちょっとやめてほしいというか、バンするよって言ってるんですけれども、
クロードのサブスクリプションプランの枠を使ってクロードのモデルを動かすこともできるっていうのと、
あとオープンルーターとか、アリバマクラウドとか、
アリバマクラウドもサブスクプランなんですけれども、APIとかそういうの経由でいろんなモデルを使えるっていうのがオープンルーターのかなりいいところ。
しかもさらにサブエージェントとか、エージェントによってそのモデルを切り替えることができるっていうのがかなりいいところですね。
だから頭、司令塔はCodexにやらせて、動くのはGLM5にやらせるみたいな、そういうこともできたりするんで、
これはコンテキスト、トークン節約という意味ではかなりいいんじゃないかっていうところで、ちょっとオープンコードを使い始めましたっていうような経緯があります。
ちょっとそんな感じなんですけれども、さらにちょっと今回オープンコードの話だけだと前も実際ちょっと話したことあるんで、
オーマイオープンコードっていうのがあってですね、それはハーネスをただ使うだけだと、
例えばクロードコードといったらサブエージェントを自分たちで定義しないと標準のサブエージェントしか動かないから本当のパフォーマンスは出ないみたいなのがあったと思うんですけれども、
オープンコードも同じでサブエージェントとか自分たちで定義して、ちょっとずつちょっとずつ自分たち専用のツールとして磨いていく必要があるんですけれども、
そこのうまくサブエージェントのエージェント定義をやってくれてるっていうのがオーマイオープンコードっていうのがあって、
一応オーケストレーションレイヤーって言われるやつですね。
いくつかのエージェントが定義されてて、いろんなカテゴリーとかタスクの種類によってエージェントが切り替わるみたいな形の仕組みをすでに設定しといてくれるみたいなのがオーマイオープンコードっていうので、
ちょっとオープンコード拡張みたいな感じであるんですけれども、そこを使うとかなりいいよね、だいぶいいよね。
本当に。
相当使えるなっていう感覚が得られているので、一旦ちょっと概要としてはここまでっていうところと、
あとオーマイオープンコードの中でも、例えばめちゃめちゃ考えるエージェントとか、ライティング用のエージェントとか、ビジュアルコードのエージェントとか、いろんなものが定義されてて、
その中でヘファイストス、神の名前とか、そういう原始者神話に出てくるような名前を定義してて、
シシューポスはオーケストレーターとしていろいろやってくれますよみたいなとか、こいつは監査役みたいなやつがあったりとか、
そういうのをエージェントをすでに用意してくれて、そこにこのエージェント2だったらGLM5かなとか、
このエージェント作業だったら軽いやつだったらCODEX5.3のスパーク行くかなみたいなとかっていうのを設定できるような形になってたりとかもするっていうようなのが、
一応ちょっとざっくりとした概要みたいな形になります。
Oh My OpenCodeの具体的な機能と活用事例
ざっくり概要の説明はしたんですけれども、
ちょっと阿部ちゃん、もしあれだったら、
オープンコードプラスお前オープンコードっていうところで、
この機能マジでおすすめとか、良かったみたいな。
まずそもそも書簡みたいなところも含めて、そっから今度は対話的に進めれたらなと思うんですけど。
いかがでしょうか。
そうですね、僕ももともとオープンコードだけで使っていて、
それがちょうど1月ぐらいかな、今年の始まりぐらいに少し話題になって使ってみて、
その時は結構サブエージェントとかも標準搭載されてて、
かついろんなモデルがやっぱり使い分けることができるっていうので便利だなと思いつつも、
サブエージェントがうまく動作してくれなくて戻ってこないみたいな問題があって、
一時いいなと思いつつも運用に至らなかったっていうのがあったんですけど、
今回オープンコードに加えてお前オープンコードを入れることによって、
サブエージェントがまずオープンコードでちゃんと動くようになってるっていうところと、
それをオーケストレーションしてくれるお前オープンコードっていうプラグインがあることによって、
かなりコーディングが今までより一段階幅広くできるようになったなっていうふうに感じてますね。
その中で単純に幅広くできるって言っても、
お前オープンコードとかの機能が結構効いてるんだなと思って、
観察していったりとか、実際どういう機能があるんだろうなと思って使っていたところ、
僕の中で結構この機能いいなって思ったのが、まず一個あって、
それがウルトラワークっていう機能があります。
これはウルトラワークって指示を与えるときにどっかに文字を入れておくだけで、
それをトリガーにその機能が発動する。
クロードコードで前にあったウルトラシンクみたいな、そういう機能と似てるんですけど、
これやると公式のドキュメントとか見てると、実装前に詳細に確認を取るとか、
計画にちゃんと沿いましょうとか、サブエージェントをちゃんと使いましょうみたいな、
パフォーマンスを最大限に発揮するための必要なプロンプトが自動で注入されるっていうような機能みたいで、
これやるだけでかなりロングランになりやすいっていうところがすごく感じてました。
サブエージェントとかをよく使ってくれるんで、さっき山ちゃんが説明してくれたような、
いろいろオーマイオープンコードで事前定義された役割ごとのエージェントっていうのを、
使いこなしてくれるような感覚はありましたね。
最初あれなんですよね、これでやると、もともと僕ってCodexとかで、
どんなに長くても1時間ぐらいの実装でいつも止まっていることが多かったんですよ。
これが最近だと平気で5時間ぐらい回ってるみたいな感じになって、
かなり大規模な機能実装を一気にやって、しかも結構やりきってくれるっていうところがあって、
非常に満足してますね。
あとね、そのウルトラワークを使ってるときに、結構よく1回エージェント止まるときもあるんですよ、もちろん。
止まって、僕がコメント打とうかなと思ってたら、自動的にまだタスク終わってねえぞみたいな感じで、
プロンプトが自動挿入されるんですよね。またそれで動き出すみたいな機能があって、
それを調べてたら、Todo Continuation Enhancerみたいな機能があるらしくて、
それはエージェントが作ったTodoのタスクが5個Todoリストを作っていたとして、
それがまだ途中だと自動でプロンプト挿し込んで、まだこのタスク終わってないって教えてくれるケツ叩きがあるらしくて、
それも結構よく動いていたっていうのがあって、それもあって5時間とかかなりのロングラウンが実現できてるんだろうなっていうところがあって、
そのエージェンティックなところ、オーケストレーションも十分いいんだけども、
そういうロングラウンさせるための仕組み作りがされていたのがすごく僕の中では良かったなと思ってますね。
なんかウルトラワーク-ループみたいな、ULW-ループみたいなのもあるけど、
あれは多分どっちかというと、だからTodoのリストじゃなくて、ユーザーが初めに入れたプロンプトを、
なんかRalphLoop.local.mdみたいなのが生成されて、常に保持して、これが本当に完了したのかみたいなことを言って、
システムリマインダーを送るんやけど、なんかちょっとだから、
手元でコントロールしたいよりのタスクは、Todoは全部終わらせて欲しいんだけど、
必要以上にやらないで欲しいときはULW使って、とりあえず俺が今やってるのは、
マストラクローって言って、オープンクローって最近話題のやつをマストラで実現するっていうのをちょっとやってみてるんですけど、
そういうただの方式みたいなやつだと、意外とそのULW-Loopみたいなのをやると、ガンガンガンガン進めてくれて、
朝来たらもうオープンコードのキャッシュがあふれて、エラーで止まってるみたいな。
暗いまでやってくれるみたいな。
ターミナルの限界みたいな感じだよね。
そうそうそうそう、100ギガとか、そんなんになってオーバーヒートして止まってるみたいな感じだから、
使い分けがちょっと見えてきて面白いなと。
確かに。
思いました。それで言うと、基本的にULW-Loopを使うタイミングって、そういうバカみたいなことしかないのかもしれない。
もうこれ模倣してとか、とりあえずバイブコーディング的なことで、とりあえず何か作って欲しいとかっていうときは、
そのULW-Loopみたいなスラッシュコマンドで、RALF-Loop的にガリガリ進めてもらうっていうのは結構良さそうだよね。
あるかもしんないね。
もうバイブコーディング超えてるけどね、バイブコーディングって言ってもまさか指示したりするじゃん、結局。
そうだよね。
そういうような違いもあるんだっていうのがちょっと面白かったですね。
エージェントの使い分けと親エージェントの役割
僕は逆にオープンコードとオンラインオープンコードの組み合わせですごい良いなって思ってるのが、
オラクルっていう守護神みたいなエージェントがいるんですよ。
はいはいはい。オラクルね。
一応リードオンリーの相談役、アーキテッケー、コードレビュー、デバッグの深掘りをゲットって書いてるんだけど、
それがね、動いた後、計画を立てた後とか、実装しきった後とかに、絶対にまさに相談役でオラクルに確認してもらってますみたいな。
うんうんうん。
そう、オラクルにこの計画が妥当かどうか確認してもらってますとか、ちゃんと実行できてるかどうかオラクルに確認してもらってますみたいなを、
これ今一応コーデックス5.3をオラクルが動くようにしてるんですけど、エクストラハイで動くようにしてるんですけど、
毎回このオラクルに確認してくれる安心感が。
あるよね、確かに。
うん、すごいあるなって思って、ほんとに。
結構しかも、ごめん、結構そしてオラクルがさ、今の計画は実装に足りませんとか、
そういうレビューを返してきたから計画し直しますみたいな。
そうそうそう、そういう振る舞いもあるよね。
だからオラクルの守護神官がエグいなって思って。
一応オラクルは神託?神からの言葉みたいなのかな。
ギリシャ神話的な話で言うと、そういう神託みたいな。
でもまさにって感じだよね。
まさにまさに、神託をくれるという。
結構面白いよね、このオーマイオープンコードの。
あと結構リブラリアンとかエクスプロアー、
リブラリアンっていうのは仕様調査のために使ってくれるみたいな感じで、
エクスプロアーはコードベースの高速で探索するみたいなものがあったりするんですけれども、
その子たちも結構頑張ってくれるっていうね。
あと面白いのがカテゴリ、タスクの種類によってビジュアルエンジニアリングとか、
ウルトラプレイン、ディープ、クイックとか、
結構簡単な作業はこれにするとかみたいなのができるとかあるので、
その辺が結構モデルを細かく定義できるっていうのは嬉しいところだなっていうふうに思って。
なんかオープンコード結構すごいよね。
こんなやるんだ、システムリバインダーもそうだけど、
逆に言うとオープンコードの可能性を感じるようにこんなに設定できるの?みたいな。
うーん。
めっちゃ可能性感じるよね。
感じる。しかもなんか僕たちも別にサブエージェントはさ、
今までコーデックスだったりクロードコード使ってるときもやってたりしたけど、
僕らで試行錯誤するのももちろんチューニングがよくできていいと思うんだけど、
こうやってある程度用意されてるからこそ、
その定義された役割にどのモデルを当てはめるかっていうことだけを考えて、
あと動かせばいいから、僕たちは本当に開発に集中できるというか。
うんうん。モデル設定だけで進む。
そうそう。なんか非常にライトに始められるのに結構仕組みがしっかりしてるし、
オープンコード自体も安定してきてるからこそ、
ちゃんと開発が回る状況っていうのがかなり大きいなって僕は感じましたね。
うんうん。確かにね。なんかこんなにできるんだって感じよね。
あとシステムリマインダー系、さっきのトゥーリストが終わってなかったとかもそうだけど、
ラルフループとかだと完全に終わってももう一回まだだみたいな感じでやったりとかしたりとか。
あとは結構面白いなって思った振る舞いとしては、
Codexとかクロードとかのサブエージェントとかって、
サブエージェントが動いてる間親エージェントが待ってるのよね。
確認しますみたいな。サブエージェントがどんな状況か確認してきますみたいな。
確か終わりましたか?聞いたりとかしてる姿をよく見てたんだけど。
オープンコードは親エージェントが完全停止するんよね。
で、サブエージェントが完全完了したらシステムリマインダーでプッシュ型で親エージェントに通知が行くって、
親エージェントがそのシステムリマインダーによって再起動するみたいな。
だからコンテキスト効率も結構いいからいいなっていうのが。
今までだとだから親エージェントが結局親エージェント、サブエージェントが終わるまで干渉してて、
まだ終わってませんみたいな判断があったりしたけど、そりゃCodexとかは。
でもオープンコードとかだと一回止まってるから、もうそれ以上通信しないみたいな。
っていうのが結構面白い仕組みだなっていうか。
コンテキストの効率もいいのか。僕的にそこでいいなと思ってたのが、
止まってくれるが故にそこで途中で介入できるっていうのがあって、
この計画の方針で本当にいいのかなとか気になったりとか、
他にも色々サブエージェントが動いてる間に何か聞きたいなと思っても、
Codexとかだと全部が終わるまで聞けないみたいなのがあって、
それがオープンコードだと、これって今ってこういう認識で正しいんですかって言ったら、
そのままはい、正しいですって言ってまた眠るみたいな。
そういうのもできるから結構嬉しいなと思ってましたね。
結構いいよね。
あとだから親エージェントが切り替えれるっていうのもでかいよね。
さっき言ったヘファイストスとかオラクルとか色々あるんですけど、
多分親エージェント用のエージェントと、
コエージェント用のエージェントと、
あと両方両立できるエージェントみたいなのを定義できる。
このオーマイオープンコード的には、
シシューポスってやつとヘファイストスってやつと、
オラクルとプロメテウスのこの4種類かな。
4種類がプロメテウスとアトラスだ。
オラクルはサブエージェント用なんだ。
あくまでも相談役だったみたいな感じで、
4つの親エージェントがいるんですけど、
簡単に言うとシシューポスはウルトラワーカーって書いてるんですけど、
どっちかというとオーケストレーター。
全部何でもユーザーの汎用的なオーケストレーターっていうのが近いのかな。
ユーザーの要望を確認して、
その要望が調査タスクだったら調査の振る舞いをするし、
開発だったら開発の振る舞いをするみたいな。
適切なサブエージェントを動かすみたいな感じになる。
一方ヘファイストスとかだと、
一応なんかディープエージェントって書いてあるんですけど、
しっかり探索的に探求するみたいな。
しっかり深く考えながら行動してくれるみたいな。
これはGPT 5.3のコーデックスか、
5.4がいいのかなみたいな。
プロメテウスはプランビルダーって言って、
リードオンリーでプランを立てる計画を立てるために、
ユーザーに質問とかしながら計画を立てる。
アトラスっていうのがプランエクスキューター。
その立てたプランを実行する。
しかも実行するのも自分でできるだけやるんじゃなくて、
サブエージェントをうまく使いながら、
コードを回収したりとかしてくれるみたいな。
親エージェント用のやつらが4種類あるんですけど、
その辺が選べるっていうのも結構個人的にはデカいなっていう風に。
確かに。
モデル選択とコスト削減の戦略
僕は割と脳死でCCをポスト使ってましたね。
それでいうと。
もうこれでいい?動かして。
そうなるよね。
けどたぶんこのうちで使ってたスラディファインとかで合わせるんだったら、
実はプロミテオスにするとか。
そうすると呼び出し方も結構違うなって思ってる。
はいはい。
結構、ペファイストスだとお願いしたら絶対にエクスプローアーとリブラリアンを
まず初めに起動するんでね。
そうなんだ。
多分振る舞いが固定化されてるなっていう感覚があって。
だから多分CCをポストは多分いろんな要素を持って判断するみたいにできてるから、
結構多分コンテキストを余分に消費しがち?
だから毎回タスクの性質によってちょっと振る舞いが変わるなっていう感覚があるけど。
プロミテオスとか、プロミテオスはね結構いい。
ちゃんとプランを作るので、多分内部的にちゃんとプラン用のやつを作ってくれて、
で次アトラスにやるみたいな、このプランを実行するみたいな。
そこがちゃんと内部的にシステマティックになってるなっていう感覚があって。
結構おすすめですよ、使い分けをちゃんとするっていうのは。
特に阿部ちゃんみたいな作業だとより使えそう。
なんかシシューポス使っててよくあるのが、
エクスプローラーとリブラリアンは基本的に確かに使ってくれて、
サブエージェントの異常っていうのはしてくれるんだけど、
ファイルの編集とか結構自分でやっちゃいがちなんですよ、シシューポスが。
それってちょっともったいない。
コンテキストウィンドウも結局サブエージェントにどんどん異常している方が長く続けられるってことを考えると、
プロメテウスみたいなリードオンリーのエージェントに任せて、
プロメテウスはひたすら僕と会話をしてくれて、
リードオンリーで計画の更新とかは他のエージェントに任せるみたいなのをやってもらったほうがいいんだなっていうのは確かにそうだね。
特に多分このプランエクスキューター、アトラスを使った時は、
すごいちゃんとサブエージェントにタスクを異常してやってくれるみたいな。
多分そういうエージェントだから、しかもプランを実行するってことに集中してるから、
サブエージェントを使うことを忘れないというか。
確かにな。アトラスとプロメテウスがあまり使えてなかったけど、
意外と大事だね、この2つ。
多分ディファイを使うときはこれ、実行するときはこれみたいな、
むしろこっちばっか使うようになるもんなんじゃないかなって思ってる。
僕の特性上、特性というかタスクの性質上どっちかっていうと、アトラスとプロメテウスのほうが使うことになるんだなって。
たぶんそっちのほうがパフォーマンス出る気がする。
出るでしょうね。
みたいな感じで、結構特性があるっていうところも面白いところなのかなっていう。
実際に動き振る舞いが変わるなっていう感覚があるんで。
ちょっとね、この辺がうまくいくと、今のところけどとはいえ、
シシューポスとか使ってるとずっと、さっき阿部ちゃんが言ったみたいにね、
はじめにリブラリアンとか探索系はやらせるんだけど、
あとなんか、実際にやること自体は、
自分でやっちゃうみたいなのがあるから。
巻き取っちゃうよね。
コーデックスのトークン消費が一番消費されるっていうのが今の現状だけど、
それをもうちょっとね、たぶんGLMとかに移情していくようにできるといいんだろうなみたいなのが、
おそらくこのアトラスとかを使うとかなり良くなるんだろうなっていう。
という気がしてますね。
実際にどうです?消費量的には結構削減されてると思う?
えっとね、やっぱコーデックスいっぱい使われちゃうから、
まだ4月に対して、めっちゃ劇的に安心だなっていうのは思えないっていうのはあるんだけど、
今もうあれなんよね、シシューポスとかその辺も全部ウェアエージェントと動かすのをGPT 5.4にしてるんだけど、
プロメテウスとアトラスにして、プロメテウスとはプランビルダーですね、対話的に条件を提起してくれるっていうので、
アトラスでプランを実行するやつなんだけど、プロメテウスをGPT 5.4にして対話的に進めます。
アトラスを使ってプラエクスキューターで実行するこのエージェントのモデルをGLM5にすることで、結構変わるんじゃないかなって個人的には思ってるかもしれない。
今できてないから、そこに活路を見出してるかなって、今のところ。
親をGLMで使えるパターンを増やさないといけないと思うよね。
やっぱ親が一番動くから、親が一番消費するじゃん、トークン消費が多いから。
アトラス自体は結構サブエージェントを異常するっていう性質があるから、上手くアトラスの親エージェントのモデルをGLM5にすると、相当GLM使うんだけど、
タスクを実行し尽くす能力が高いじゃん、実行力という意味では、GLMは。
だからそこと噛み合う親エージェントどれかなっていうのをちょっと見ながらやっていって、
噛み合う親エージェント1個見つけて、その役割の時はちゃんとそれを指定するようにするってしたら相当変わるなっていう感覚は得てるかもしれない。
確かにね、プロメテウスはすごく、やっぱりプランナーだから頭を使ってもらわなきゃいけないっていう意味で、
GPT5.4とかで、アトラスはもうやる人だからこそ、GLMでいけるんじゃないか、確かにね。
そうそうそうそう、だしやること決まってて、しかもオラクルっていう守護神がいるっていう前提に立った時に、結構いけるんじゃないかな。
ちなみにシシューポスジュニアっていうのもいるらしくて、
あ、そんな、あ、そう、いるいるいる。
そう、シシューポスジュニアも、タスク、プランを作ってくれた1個1個の異常先の実行役みたいな感じで、
さっき山ちゃんが言ってたカテゴリ、ビジュアルエンジニアリングとかウルトラブレインみたいな、
タスクのカテゴリに応じてモデルが自動選択されて、最異常とかは禁止されているようなもの、要は実行レイヤーのモデルっぽいんだけど。
あ、カテゴリってシシューポスジュニアのことなのか。
そうそう、なんかシシューポスジュニアが、これも僕まだ分かってないところはあるんだけど、
このシシューポスジュニアを呼び出すときにカテゴリを決めて、カテゴリにそれぞれモデルを割り当てるみたいな。
だからカテゴリとしてビジュアルエンジニアリングだったらこれ、ウルトラブレインだったらこれ、みたいなのを定義できるんだって。
なるほどね。あ、それで言うと、俺の今疑問が払拭されて、シシューポスジュニアが毎回モデル変わるからなんだろうなって思ってた。
あ、なるほど、そういうことね。変わってるんだ、じゃあちゃんと。
そう、変わってる変わってる。シシューポスジュニアって何で定義されてるんだろうってずっと思ってた。
あ、そうなんだ。
そう。
あ、そういうことか。
Mastra CodeのObservational MemoryとAIサービス開発への応用
僕、だからあれか、エージェントごとのモデルの設定はもちろんだけど、結構カテゴリのモデルもちょっと考えて調整した方が良さそうだね。
うん、でもシシューポス使う場合やんな、だからシシューポスジュニアってことだから。
あ、かな、シシューポスジュニアはやっぱりシシューポスじゃないって呼ばないのかな。
いや、分かんないちょっと。俺どのタイミングでシシューポスジュニア出てきたの?シシューポスが呼び出してたような気がする。
うん。一応タスクを実行するときの異常先って言ってるから、アトラスもシシューポスジュニアを呼び出す可能性はあるかなって思ってた。
あ、あるのかもしんない。
今ここは。
うん。
なるほどね。
あと、オーマイオープンコードを使ってると、オーマイオープンコードJSON、もしくはJSONCっていうので、設定ファイルでモデルを定義していくんですけど、
そこで僕的に結構いいなって思ってるのは、プロンプトアペンドっていうので、オーマイオープンコードがもちろんプロンプトを決めてくれてるんですけど、
自分なりに絶対に言っときたいみたいなプロンプトはあるじゃん。
それをプロンプトアペンドでアペンドすることができるっていうプロンプトっていうのを、それぞれのエージェントに対してできるっていうのと、
なんかそれ結構いいなっていう。
確かに。
あとバリアントが決めれる?あとエクストラハイとかミディアムとかっていうのが、別にエクストラハイ一択みたいな感じでコーデックスでやってたけど、
別にそうじゃないタスクカテゴリーとかだったら、ミディアムでいいよとか、そういうのができる。結構デカい。
確かに。ちゃんと僕らで調整できる余地は残してくれつつ、しっかりガードレールというか、ラインは引いてくれているっていうのはすごくありがたい。
使いやすいよね。なかなか可能性を感じるよね。
感じますね。これは僕たちがあくまでも、結構モデルのレートリミットがカツカツすぎるっていうところがあるので、
全員が全員聞いてる人がこのオープンコード、オーマイオープンコード最高になるかは、当てはまらない人ももちろん、クロードコードでいいじゃんっていうのももちろんありそう。
うんうん。
とはいえ。
確かに。そうよね。
とはいえかなりこれはよくできてる。
よくできてるよね結構。あとちょっと話変わるけど気になってるのは、マストラコードもちょっと気になるよね。
オープンコードと同じような立ち位置。
マストラが新しく出したハーネスみたいな。
そうそう。コンパクションしない、コンパクトしないっていうのが一応売りみたいだけど。
観察的メモリーって、オブザーバー、オブザベーショナルメモリーっていう機能をマストラがもともと出してて、
これは長期記憶、2段階に記憶を保持するような仕組みをマストラ側が用意してるけど、それをうまく使った、コンパクトするんじゃなくて、
ある意味コンパクトするのが当たり前の思想によって、より長期記憶を持たせたコーディングエージェントにするのを目指してるような。
これもマストラコードが出てきた時、何が特徴的なんだろうとかって思ったけど、その辺うまくワークするんだったら結構良さそうやな。
またなんか新しい概念だね。
そうそうそう。
短期記憶と長期記憶的に分けてるみたいな感じなのかな。コンパクションで圧縮するっていうよりかは。
なんか圧縮はしてんのよね。生のユーザーメッセージっていうのがあるとするじゃん。
生のユーザーメッセージが一定の許容値を超えると圧縮するらしくて、要約したものがあって、それがいわゆる中期記憶的な感じで保持される。
さらにその中期記憶みたいなのが、中段の記憶みたいな感じで保持されて、その中段の記憶が完全にオーバーすると、次またそれが長期記憶用の一番最終の段に移行されて。
最近の知識はもちろん最近の知識みたいな。
時々つなぎ的に連鎖的にAIが記憶をたどれるんだけど、記憶の性質とか種類とか時間軸によって重みづけが変わっていくみたいな保持の仕方をするらしい。
なんかあれだね、なんか今までは機械的に圧縮するだけだったと思うんだけど、こういうクロードコードとか、まあオープンコードもそうだけど。
なんかもうちょっと人間の記憶構造を模した形になってるのかなって。
なんかそういう感じなのかもしれないね。なんか結構ベンチマーク的にもいいみたいなの渡してるから、なんかそこそこうまくいくのかもなーって思うけど。
一方でなんか最近コンパクトがあんまり気にならなくなってきたっていうのがあって、
なんかそこがどれくらいなんだろう、それができることによってメリットが出るのかみたいなのは、ちょっとなんか使用感を見てみる。
ちょっとオープンコードある程度落ち着いたなーって感じで、マストラコード使ってみたいなと思う。
マストラコードでできるってことは、俺らもAIサービスの開発でできるってことだから、
マストラコードを使うこと自体はすごい俺らにとっては有用なはずで、
マストラでできるっていうのがわかってることが前提に立ってできるから、
だからそういう意味ではちょっとやっぱ使いたいなという気がしますよね。
気になりますね、なんかラグみたいなものではなくて、
エージェンティックなエージェンティックサーチとかそういうので記憶というか、
溜まってる知識を探索するみたいな文脈もあったりするけど、
それが意外とこのマストラコードの今話した仕組みとかで大体できるんだったら、
いろんなサービスとして組み込む未来とかもまたちょっと描きやすくなるなって感じがする。
まあそうだよな、これも多分ラグではあるんだけど、
もうちょっと法律的にっていうか、法律的に記憶する装置としてみたいな感じになる。
ベクトル化はしないけどみたいなイメージなのかなと思ってたけどね。
ベクトル化してないかしてるのかはちょっとわかんないな。
ちょっとここはわかんないからね。
そこまで見てないけど、
メモリへの明示的な書き込みもクエリによる検索も行わないって書いてあるね。
だからコンテキスト内でこれらの観測結果を参照し、
メインエージェントはコンテキスト内でこれらの観測結果を参照し、
次の行動を決定するって書いてるから、
潜在意識みたいなものにしてるんだ。
おもみづけっていうか、
おもみづけをして潜在意識のようなものだって言ってるね。
面白いね。
面白いね。でも人間の記憶構造もしていこうとしてるんじゃないかなって感じは、なんとなく感じるけどね。
そういう取り組みではあるよね、おそらく。
ロングメムイバルっていうベンチマークではかなり優秀というか、最高得点取ったみたいな。
なんかその辺が結構うまくいったから、
これってコーディングエージェントとしてかなり有用なんじゃねっていうので、おそらくやってるんやろうね。
面白いね。これができるんだったら俺らもAIサービスに組み込んでできそうだな。
できそうだね。
人間の記憶の仕組みを考えることから生まれたと。
まさに潜在意識のような記録、何が起きたか圧縮構造化された記録を持っている状態で、
実際に決定を行っていくようにした。
今のAIのシステムって結構セッションベースというか、
チャット開始してその中に閉じた記憶としてでしか、
コーディングエージェントとかも基本的にそうだと思うんだけど、
そういうのが多いけど、現実世界って別にセッションとかないじゃん。
常に地図つなげの時間の系列でしかないから、
システムに組み込む。
例えばスラックにAIエージェントを組み込みますみたいなときに、
スレッドとかそもそも関係ないとかって思うと、
こういうマストラみたいな構造で、
中期記憶とか長期記憶って形でどんどん知識体系化されていくような仕組みの方が、
サービスとして組み込みやすくなるんだなみたいな。
なんとなくそういうイメージが湧きますよね。
記憶がうまく解決に作用することもあるからね。
なるほどね。
AI開発における記憶の重要性と今後の展望
自分の作業。
開発者の人が自分の作業にカスタムコーディングエージェントハーネスを通じて、
このオブザーベーションなんちゃらみたいなのを使い続けてきて、
数ヶ月の日常的な使用がアーキテクチャの設計判断にちゃんと反映されているっていうことが実際にあったっていう。
すごいねそれは。
そういうのが欲しいというか、
過去の結構前に話してたんだけど、
っていうのをちゃんと掘り起こして考えてくれるといいなと思ったから。
どっちがいいのかはさておきだけど、
俺は記憶を消せるのもAIの良さだと思う。
いいところだよね。
バイアスが変えるっていうのとの差はあるけど、
そういう意味ではより育てるという文脈が強くなる。
AI自体を。
今ってプロンプトエンジニアリング、コンテキストエンジニアリングの時代って言われてるのはおそらく、
コンテキストエンジニアリングっていう文脈に言われ始めたのって、
そもそもChatGPTとかCloudが過去のユーザーセッションの記憶を、
関連情報として持った状態で答えてくれるようになったみたいなのがあって、
その前はプロンプトエンジニアリング的な感じでやってて、
それはCloud Codeとかは今も多分プロンプトエンジニアリング的な、
けどその前提としたものがハーネスの中に組み込まれていくから、
プロンプトはほぼ不要だからコンテキストエンジニアリングになってるみたいな感じで、
ちょっと多分コンテキストエンジニアリングになった文脈が、
ChatアプリとCloud CodeとかTUIのエージェント、
ハーネスとかとちょっと文脈が違うはずなんよね。
そこがコーディングエージェント側にもマスタラコードの仕組みができたことによって、
よりコンテキストエンジニアリングの時代に移り変わっていくみたいな、
強くなるのかもしれないね。
そんな今度はマスタラコードの話になっちゃったんですけれども、
オープンコード、オーマイオープンコードの話になりました。
こんな感じですかね、今日は。
また引き続き使ってみて、良さそうなことがあったりとか変化があれば。
あと7月ですね、2倍が1倍になったの、
僕たちはさて乗り越えれるのでしょうかっていうところは楽しみに、
もっとしてもらえると嬉しいかもしれないですね。
かなりどうしようって感じだから。
1アカウント3万円ぐらいするよね。
僕ら今2アカウント発行しててね、それぞれ1個ずつ。
1人2アカウントずつ持たないといけなくなるっていう。
やばすぎるよ。それでも足んないって。
足んないって言ってるのが今でしょ。やばいよね。
怖い怖い。
ZAIとか、あと最近アリババクラウドがサブスクリプションプラン出したけど、コーディングプラン。
あれはGLMもKimiもミニマックスも全部使えるみたいな感じの、
全部盛りプラン。あと9円か使えるみたいな感じだけど。
そういうのをもうちょっと、今ミニマックス買ってみてダメだわってなったから、GLM買わないと。
Kimiとかもちょっと試していきつつ、なんか払拭できたらいいよね。
そうですね。中華モデルにちょっと期待を込めて。
期待しないといけないよね、マジで。コスト的にね。大変だから。
本当に。
そんな感じで、本日もありがとうございました。
ありがとうございました。
ありがとうございます。
本日もAI駆動開発部の日常をお聞きいただきありがとうございました。いかがでしたでしょうか。
今回の話題はオープンコードとオーマイオープンコードについて、
使用感とかどういう機能があるよみたいな話をさせていただきました。
こんな感じでAI駆動開発の実際のリアルな声としていつも発信しているので、
もし気になるトピックとか取り上げてほしいものがあれば、コメントとかいただけると大変嬉しいです。
このポッドキャストを気に入ってくれた方は、いいねやフォロー、高評価ぜひお願いいたします。
それではまた次回もお楽しみください。バイバイ。
49:31

コメント

スクロール