おだしょー こんにちは、AI駆動開発部の日常
へようこそ。このポッドキャスト は、日々AI駆動開発を行う企業課の
山本とエンジニアの阿部が、AI 駆動開発のリアルを緩く語り合う
番組です。本日、よろしくお願いします。
山本 よろしくお願いします。
おだしょー よろしくお願いいたします。では、
ちょっと今日は、いくつかありがたい ことにコメントとかお便りとか
いただいていて、先日公開したの もお便りからみたいな感じで、答え
からみたいな感じで進めたと思 うんですけれども、ちょっとその
ような流れでいけたらなと思います ので、よろしくお願いいたします。
じゃあ、早速、今回2件から3件、時間 あれば3件ぐらい答えてっていう
ようなことができたらと思って おります。早速なんですけれども、
1件目から進めていきますね。1つ目 ですね。こういうときってニックネーム、
ラジオネームみたいなのあるんです けど、ラジオネームとかはいただ
いてないので、〇〇さん、ななしさん っていう形で来ましたっていう形
でいけたらと思うんですけれども、 お一人目が、いつもリアルな情報
をありがとうございます。オープン ルーターで1位になっているMimo
V2 Proというモデルをぜひ試して もらいたいですと。今の現時点
で、ちょっとすいません。気づく のが遅くて、今さらかみたいな
感じではあるんですけれども、中華 モデル系だとまだまだ最新より
かなみたいな感じなのかなと思 っておりますが、今多分オープン
ルーターで1位ではない状態になって しまったんですけれども、いとき
なんか結構話題には上がりました よね。Xiaomiの出してるモデルということで
ちょっと話題になったんですけれども、 一番分かりやすい特徴は100万トークン
コンテキストを扱えるというような ところが結構いい部分なのかな
っていうふうに思っていて、あと ちょっと特徴的だなみたいなのを
思ってるのが、ちょっと9円3.6プラス とかのほうが今ディスカウントも
入ってて安いっていうのはあるんです けど、とはいえインプットプライス
が段階式、たまにあるやつですよね。 段階式256Kまで1ドルで、256Kから
100万トークン1Mまでが2ドルみたいな 感じで段階踏んでるんですけれども、
アウトプットプライスが256Kから までが3ドル、256Kからが6ドルっていう
ような形なんですよね。キャッシュリード とかもあるというような感じになって
いるんですけれども、めっちゃ安い わけではないですね。
感覚的にはめっちゃ安いわけではない なっていう感覚があって、イメージ
GLM5.1と同じくらいが256Kまでで、256K 以上を使おうとすると逆に倍ぐらい
になっちゃうっていうような感じ なんで、そんな安いモデルではない
っていう感じですね。逆に9円とか だとそれのだいたい2分の1いかない
ぐらいでいくんで、半分よりちょっと 高いかなぐらい、ディスカウント
入ってるんでね。実際はほぼほぼ 一緒なんですけど。アウトプット
プライスが一緒で、インプット プライスは256Kまでは9円がデフォルト
の価格で言っても安いっていう ような形になってるんで、9円3.6
プラスのほうがコスパがいいモデル っていうような感じのぐらいですね。
これ阿部ちゃんがちょっと使って 結構気に入ってた印象を受けて
いて。使ってたよね。なんか印象 良さそうだったよね。
阿部 いや、まず僕
大平 その辺の話が聞けると、ある 程度回答になるのかなって思って
いて。
阿部 確かにそうだね。僕が登場 したのが3月の18日だっていうこと
なんですけど。
大平 ちょうど1ヶ月前か。
阿部 ちょうど1ヶ月前かな。その後 すぐにオープンコード全っていう
オープンコードを使ってるときに 利用できるモデルとしてフリーモデル
として登場してきたので、まず 使い始めたっていうところがあるんですけど。
やっぱり僕の中で一番大きかった のが、当時は僕はGLM5とかをメイン
というか中華系モデルとしては メインで使っていたんですけど、
コンテキストウィンドウがGLM5とか だと200Kとかそれぐらいでしかない
ので、結構長時間のタスクやると コンパクション走るよねっていう
ところがあったんですけど、この MIMOv2 Proは100万トークンをサポート
したっていうことで、結構ロング ランできるだろうなっていうところ
の興奮があったので、結構積極的 に使っていたっていうところが
ありました。実際に使ってみると 正直最初に感じた感想としては
GLM5よりちょっと頭いいんじゃない かなっていうことを最初感じて
ました。同じようなタスクやらせて も結構鋭い回答してくれていて、
最初の初感はすごく良かったんですよ。
5より、5.1よりっていう
当時はまだ5.1は出てなかったん で、5との比較があったんですけど
今逆に言うと5.1多分触ったこと あると思うんだけど、5.1と比べ
たらどうとかってなんとなく
正直5.1自体の評価が僕の中で全然 良くなくて、それ前回のトップキャスト
で話したと思うんですけど、全然 インフラとしては安定してない
のか、回答が揺れたいっていうか 何だろう
おだしょー 根本的に不安定っていう状況
大平 そう、根本的に出力が不安定 っていう状況があるので、僕の中で
5.1自体の正しい評価があまり測 れていない。良いときは確かに
鋭い回答をしてくれたっていう 前回の話だと思うんですけど、あん
まだことの比較ができないかなと思 ってます。ただMIMO V2 Proも中華モデル
あるあるなんですけど、ちょっと 会話が長くなると途端に出力が
破綻し始めるっていうのはあって、 例えばMIMO V2 Proでよく起きていた
のは同じことをひたすら連呼し出して 止まらなくなる
おだしょー GLM系でもあるやつね
大平 そうそうそうがとにかく多かった ので、実用には乗せられなかった
っていうのが結論としてある
おだしょー 一瞬良かったけどってことね
大平 そうそうそう。一方で、GLM 4.7のとき
みたいなコンパクションした瞬間 に過去のコンテキストを全部忘れて
しまったりとか、過去に依頼していた ルールとかを完全に忘れて暴走し
始めるみたいなことがV2 Proには なかったので、基本的にはGLM 5に
行くかどうかぐらいで、でもGLM 4.7 よりは確実に頭がいいみたいな
感覚でした。これが安定していたら かなりメインのモデルになり得る
なって感じだったんですけど、この ループの問題とかが起きてしまった
んで、どうしても使えなかったっていう のが当時の
おだしょー なるほど。ちょっと話変わるけど
QN3.6プラス使った?実際
おだしょー 僕使いました、はい。
おだしょー 結構いいよね。そういう不安定さ全然ないよね。
おだしょー QN3.6プラスには一切不安定 さは感じてなくて、たぶんGLM 5とか
GLM 5.1よりもよく動いてくれるな っていうような感覚を得てますね。
おだしょー そうだね。俺もそんな感じ がする。QN3.6プラスで前回ぐらい
に話してた、記事を書くドラフト っていうか情報収集してくれる
やつだと、マストラでやろうとする と、俺が使おうとしたときはストラクチャー
アウトプットに対応してないっていう 問題があって、実際に記事っていう
か日本語性能的にどうかみたいな ところは測れてなかったんですけど、
今実際にもうフリーから有料版 になったってとこで、もしかしたら
またストラクチャーアウトプット が対応してるかもしれないんで、
そこ試したいなっていうふうに 思っています。ちなみにQN3.6プラス
QNコードでQNオースみたいな、オース ログインみたいなんで入ると、
1日1000リクエスト分
おだしょー それめっちゃ良かったよな
大平 阿部ちゃん、俺が言ったとき さあ、月1000リクエストと勘違い
してたよね
阿部 普通そう思うでしょ
大平 ずっと1日やのに1000リクエスト すぐ枯渇するじゃんとか言って、
どんだけ使うんよとかって思って たら、そもそも月単位だと思って
たっていう。QNコードで今QN3.6プラス が1日1000リクエストっていう
結構相当量使えるような、
破格なのが出てるんで、ぜひ試して みてほしいんですけど、
俺ちょっと実際QNコード入れて やってみたよね。結構安定してた。
おだしょー 本当ですか
大平 かなり安定してた
おだしょー 結構サブで使うやつ としてはかなり優秀だと思います
大平 ただQN3.6の一応プライバシー ポリシーとか利用規約とか見てたら、
データ利用はする可能性がある みたいな感じで書かれてたから、
本番の仕事とかでは使わないほう がいいのかなみたいな。だから
遊びプロジェクトでぐるぐる回 しとくみたいな、そんなのではQN3.6
プラスをQNコードから1日1000リクエスト 分使うっていうのはかなりいいな
という感じなのを得てますと。ちょっと 補足というかお得情報を共有でした。
そんな感じかな。じゃあ実際この 方への回答としては、
実際どうだったかっていうところで、 一瞬良かったんだけど、中華モデル
あるあるの不安定さがあったっていう 感じですね。
おだしょー そんな感じかな。オープン コードに登場したばかりの話なので、
結構モデルってやっぱり訓練された 時の
大平 オープンコードとのはみ合わせ とかもあるしね。
おだしょー そこもあるんで、Xiaomi のコーディングプランあるんだっけ
とかで、何かハーネスを使ったら より性能が引き出せて、もっと良くなる
可能性は全然あるのかなと思ってるん で、引き続きウォッチなのかなとは
思ってるかな。
大平 ただコスパだけで言うとQN3.6プラス のほうが安くていいんだったら、
逆にウォッチしとく必要すらない みたいな感覚もあるよね。
おだしょー 確かに値段的にはね。
大平 値段的にも、それ見るんだったら 俺ミニマックス2.7とか、ミニマックス
2.7の後継をちょっと期待してウォッチ しとくほうが、あれだとGLM5の2分の1
かとかになるから、圧倒的に安い し早いっていうのがミニマックス
の2.7があるんで、しかもあのサブスク だとコーディング以外にも使って
いいっていう選定だから、そっち のほうが可能性感じるよね。利便性
だけでウォッチしとくという意味合い で言うと、なかなかコーディング
っていう意味では強いのが他に いっぱいいるからね、GLMもそうだし
QNもそうだし。
おだしょー そうだね。僕の中で中華モデル として期待感があるのはGLMとかQN
とかミニマックスと君とMIMOなのかな みたいな、こういう並びでざっと
見てて、それぞれ後継がどうなって くれるかがすごい楽しみかなって
思ってる。
おだしょー じゃあそんな感じで、微妙だった
けど引き続き安倍さん的にはウォッチ で、山本的には他のを見ときゃ
いいんじゃねっていう感じで、今の ところの結論でした。じゃあ次、
お二人目いきます。この方も特に お名前とかないので、そのまま
読ませていただきますが、いつも 拝聴させていただいてます。お二人
に質問なのですが、普段どのように してAIに関する情報をキャッチアップ
されていますか。注視しているサイト や利用しているSNSなど、情報収集
の仕方やインプットアウトプット の仕方、日々の習慣など幅広く教えて
いただきたいです。よろしくお願いします。 私はこちらのPodcast Xを流し見
するくらいです。じゃあ、安倍さん どうでしょう。
まずあれですよね、ちょっと僕嬉しい なって思ったのが、Xを普段見ている
のと、このPodcastを聞いているので 情報収集されているっていうのは
一つ情報収集の起点になっている って思ったらすごく嬉しいなって
思って。
確かに、誇らしいよね。
ありがたいなって。
誇らしいなって。
ありがとうございますって感じ。じゃあ 僕がどんな収集をしているかですかね。
僕もXで情報収集というか、一番 最新の情報をキャッチするのはやっぱ
Xから流れてくるのが多いかなっていう ふうに思ってて。僕がメインで
使っているXのアカウントはもう AIの話ばっかり、自分もAIのツイート
するし、見るのもAIの情報ばっかり なんで、フィードが完全に最適化
されていて、どんどん情報が流れて くるので、流し見しているだけで
最新のAIのモデルの情報だったり AIを使ったライブラリーの情報
っていうのがバンバン流れてくる ので、結構そこが情報を収集する
規定の1個になっているかなって 思ってます。あとやっぱり他にも
そこで自分、そこっていうのはどっち かっていうと受動的に情報を取り
に行く。流れてるのを見て最新の を追っていくっていうのがXがメイン
なんですけど、逆に能動的に情報を 取りに行きたいときにどうして
いるかっていうと、やっぱりChatGPT のディープリサーチは幅広く見て
くれるし、分析もかなり優秀だな っていうふうに感じるので、結構
そこに自分が普段考えていたり 作りたいことのアウトラインを
流して調べてもらうっていうのを よくやるんですけど、結構帰りに
僕は自転車で帰ったりするんですけど、 自転車乗る前にひたすら音声入力
でバーッと喋って、ディープリサーチ 10分とか20分かかるんで、自転車
声で家に帰ってる間にその結果が 出てくるんで家帰ってみるみたいな
ことをやったりとか、あとはあれ かな、普通にCodexとかクロードコード
上でもこういう観点で調べてほしい ですっていうと結構情報を収集
してきてくれるので、そういうの でAIに依頼して収集したりします。
最後に僕の中で結構、一時情報 ではないんですけど、結構見に行ってる
のはRedditがあって、Redditって結構 ボットをブロックするんで、Codex
に依頼したりとかChatGPTとかで 調べてって言っても、Redditの情報
は取ってきてくれないんですよ。 けどRedditって結構ユーザーの生の
声がいっぱい転がっていて、こういう のやってみたとか、こういうのどう
みたいな、新しいモデルこれだけど みんなどう思ってるみたいなの
が結構みんな活発に話し合ってる ので、そこ見に行ってみんなどう
思ってんだろうとか、自分が困ってる ことを調べたら結構同じことに
困ってる人がいたりして、なんか 一昔前のスタックオーバーフロー
的な感覚が若干あるんですけど、そう いった感じで情報収集に使って
いるんで、ざっくり僕の情報収集 はこんな感じですかね。
おだしょー これは、Xは普通に流れてくる
よねと、あとYouTubeのまさおさん のやつは見るようにしてるって
感じかな、まさおAIじっくり解説 CHチャンネルってやつは見てます。
レディットも、自分が検索したら レディットが多いからレディット
に引っかかる、レディットで明示的に 検索しようとしてるわけではない
けど、レディットに当たるっていう 感じで、あとディープリサーチ
が、スマホからディープリサーチ かけるのと、5.4プロで検索の
ケーパーベリティつけて検索させる のを並行でやるっていうのはかなり
ある。この辺が基本的で、あと趣味 的にはマストラのブログを見る
のと、あとオープンコードとおまえ オープンエージェントと、あと
オープンハンズとかジェミニCLIとか その辺のチェンジログ見るのは
好きって感じかな。どんなものが 入ってきているのかで、どういう
動きができるようになるかっていう のが結構分かりやすいから、逐一
見てるね、どんなことができるよう になったんだろうっていうのを、
マストラのチェンジログもそういう 意味ではどういうことができる
ようになったっていうのから、それを 起点に、じゃあこれができるよう
になったってことはどういうこと ができるようになるかなみたいな。
僕はどっちかというと、AIサービス 作りの観点での参考にっていう
のが多いけど、そういうイメージ なのかなって感じですね。
あと、オープンルーターのモデル の欄はめちゃめちゃ見に行くね。
新しいの出たら、あそこのポンって 上に出てくるから。あそこを見てる
と、最新これかみたいな。
なるほどね。でもなんか僕、今 その話聞いて、ふと思ったの。
なんかマストラのブログ見るとか っていう文脈っていうと、確かに
オープンAIとか、あの辺は定期的に 見に行ったりするし、僕は結構
エージェント周りの実装レベルで、 今の動向としてどうなってるんだろう
とかっていうの結構気になって 見に行くっていうことがあって、
その一時情報として結構見に行く のは、クラウドフレアとかが結構
エージェントクラウドで実行する ための基盤を、今活発的に作り込んで
いってるっていうところがある ので、どういうのが考え方として
あるのかなって見に行きたいときに、 結構クラウドフレアのブログを参考
にしに行ったりとか、あとその 系でいうと、ストライプとかショッピファイ
とかも結構そういうのに目が向いて いる。バーセルとかもそうですよね。
そういうところに目が向いてるので、 その辺のブログを見に行ったりとかも
してたなって。
ストライプのアニュアルレポート とか面白いよね。
確かにアニュアルレポートとかね。
とかも結構面白い。なんかその辺 が結構あるなっていう感じと、あと
俺は仕事の性質上結構いろんな 職務をすることが多いんで、これ
楽にならないかなみたいな。定期 的にこれで海外含めて一番最先端
のサービスって何だろうみたいな のを見に行って、それができてる
理由って何だっけとかを、チャット GPT-5.4 Proに分析しまくらせるみたいな
とかっていうのは逆にあれだね、 チャットGPTのアプリで俺プロ以外
使わないかなほぼ。
うん、言ってたね。
使う意味がない、プロ以外。頭悪い とは言わないけど、ただの推論
というか予測だけなんで、誰でも できることを返してくるから、
プロだと本当に考察してくれるから 5.4 Proにかけるっていうのが必須
なのかもしんないね、分析とか 含めて。俺とアメちゃんの比較
すると結構面白いよね。多分アメ ちゃんはクラウドフレアとか
より技術的にどこまでいけるよう になったんだっけみたいなところ
を見に行く傾向があって。
解決の仕方とかを見てるイメージ
そうそう。俺はマストラでこういう ところできるのか、実運用的に
AIサービスとしてどこまでできる 可能性が広がってるのかみたい
のを見に行きたがるという。そういう の違いはあるよね。
AI駆動開発っていう意味では、たまに オープンコードとオーマイオープン
エージェントを使ったときに、オープン コードのいろんなところにフックス
があるから、開発事例としてどういう のがあるのか。じゃあこういうこと
できそうだよねみたいなのを阿部 ちゃんに話したりとか、そういう
話はすることはあるけど、その辺 はディープリサーチ。オープン
コードを使ってる前提だとどういうこと が海外事例であるのかみたいな。
逆にあれだ、ディープリサーチとか 検索とか消させるときに、絶対
俺が言うのは、プロンプトに入れる のは、日本国内の情報ってそんなに
やってみたっていうのが多くて、 実運用レベルじゃないことが結構
多くて、やってみましたみたいな、 ピッチするためだけにやりました、
はい終わり、そこのショットでやって みましたみたいなのが多くて、チュートリアル
みたいなのが多くて、そこじゃない なみたいなのがあるから、それで
言うとチャットGPTにもできるだけ 英語圏、もしくは中国語圏の最先端
事例をキャッチアップするように してくださいみたいな一文は入れる
ようにしてる感じかな、イメージ で言うと。それ入れるだけで全然
違うかな、返り方が。
たしかに日本語で質問してると、 どうしても日本語の検索というか
日本国圏の情報収集したりしちゃう もんね。
そこに傾くんよね。それはちょっと 嫌だなって思って、なんでそういう
感じの調べ方をするかなって思う。 これは結構すぐにでも使えること
よね、たぶん。
たしかにそうだね。
って感じですかね。
こんな感じですかね。
ちょっとクラウドフレアのが、 俺にとっては難しすぎてね。
技術的な解決方法もそうかもしれないん だけど、僕もAIはどこまでクラウド
上で自由に動かせるようになれるんだろう みたいな。自分もAIエージェント
のサービスみたいなのを今作ってる 中で、課題感とか限界を感じるところ
があって、そこ突破してるところ とか別の手法ないのかなみたい
なので、見に行ったりする。結構 難しいんですけど、読み応えがある
し、今の動き、AWSとかも最近はAWS S3にファイルシステムを購入
されたみたいなので、エージェント がクラウドで動く基盤みたいな
のを作っていってるんだなみたい なのが、世の中の流れとしてある
っていうのを感じるから、そういう 各企業の技術ブログを見に行って
いくっていうのを意識的にやって いる感じですね。
おだしょー なるほどね。だから、動ける環境っていう
ほう結構あるよね。俺は結構そうだね。 ハーネス周りのほうが好きという
か、見るって感じだね。何でオープン クローがこんなに伸びたんだろう
みたいなとか、何かどこまでできて いるか、どういう方針にすると
ファービスとして、それこそ阿部 ちゃんの言ってるクラウドに移ろう
としてる。今、ローカルファースト のところからクラウドに移そう
としてるっていう大きい文脈もある だろうし、けど一方でローカル
LMがめちゃくちゃ強くなってる ので、そうするとデバイスのほう
で推論させるほうが早いし、セキュア 出しっていうふうになるから、
Webでやりつつローカルのリソース をどう使えるようにするのかみたい
なところとか、そっちのほうが興味 が湧きやすいのかな、どっちか
みたいなのがあるかもね。多分 ローカルに集約させていくことには
なりそうだなっていう気はして、 特に我々がやってる領域が飲食
領域っていうところで、そこまで IT部門に活用できる予算がない
っていうとか、そういう前提とか に立ったときにローカルLMファースト
っていうのは1個の多分貝になる かなって思って、そういう意味
でもなのかな。どうちゃんと提供 しきるかみたいなときになった
ときに、クラウドの高級モデルじゃ なくてもできるような仕組みって
どうなんだろうとかみたいなところ はすごく興味のある領域だから
っていうのが前提としてあるかもしれない。 そうすると多分ワークフロー
をどう組むかとか、コンテキスト エンジニアリングどうするかとか、
ローカルLMでローカルリソースを 食いつぶしながらLM動かすって
どういうふうにするのかみたいな とか、その辺のほうが興味が行き
がちなのかな。サービスの性質上 行きがちっていうところがある
かもしれない。阿部ちゃんは結構 多分インフラとかやることが多い
から、そっちにかなり多分興味の 先として向きやすいっていう。
あと俺からの要望も出てくるし っていうのがあってっていう感じ
なのかな。だから前提、多分どこ 調べるかは結構あるかもしれない
けど、意外と各企業のブログはいいよ っていう。もうマストラブログ
読むのはもう趣味ですから完全に。
おだしょー なるほどですね。
はい。そんな感じです。答え になってるかな。じゃあ三つ目
いきましょうか。これちょっと前提 としてCode Rabbitで300件ぐらいレビュー
捌くぜみたいな話をしたときなんか な大変だよねみたいな。今も変わ
らずだけどみたいなのの話にコメント をいただいたんですけれども、前提
知識とかストーリーとかをスキル でステアリングできないかなと思
うんですけれどどうですかねみたいな コメントが来ておりました。結局
前後文脈分かって、特に過去の文脈 分かってないからレビューがトンチン
からも返ってきて、それに素直に AIが引きずられてそれをステアリング
してそのレビューに対応するように 回収したら結局仕様が過去言った
じゃんみたいにずれていくよね みたいな話をしたことに対しての
コメントなのかなというふうに 思っているんですけれども、これ
最近阿部ちゃんがオープンコード 使うようになって過去の会話履歴
とか全部残ってるからいいんだよ ねみたいな話してたと思ってて、
その辺が結構近しいという話なの かなって思ってるんだけど、俺は
逆にそんなに1個のプランを立てて そのプランをやり切るっていう
ベースでしか今んとこやってない から、そんなに過去の会話ログとか
見たくなることはあんまりないん やけど、阿部ちゃんは結構外部の
仕事とかで過去の会話ログを見て バグ調査とかそういう文脈になった
瞬間、ガンガン使いたくなるんだろう なみたいな感覚があって、阿部ちゃん
は多分それで結構使ってるのかな と思ってるんだけど、実際具体的に
どういうふうにやってるのかみたいな 教えてもらったりできるかな
そうね、ちょっと質問の話とは 逸れちゃうけど、どういうふうに
過去のセッションの情報を取ってる かみたいな話で言うと、まずそもそも
僕って結構他の外部のお仕事とかで、とりあえずちょっとバグって
そうだから確認してほしいですとか、 考数だけ見積もってほしいですとか
いろんな実装まではしないけど、 とりあえず調査したいみたいな
タスクかなり多くあるんですよ。 それやるとAIのセッション立ち上げて
オープンコードでセッション立ち上げて 調査して、だいたいこんな感じだよね
って言って会話が終わったらそこで もう閉じて、別のまたセッション
を立ち上げるみたいなことを頻繁に 繰り返すわけでして、その後の
時に実際にそのタスクに取り掛 かろうみたいな話になった時に
そのセッションのヒストリーを 辿るのって、例えばクロードコード
使ってる人やコードエックス使ってる 人とかだと分かると思うんですけど
レジュメっていう機能があって、 過去の一応履歴をなんとなく見る
ことはできるんですけど、あの履歴 見る機能ってめちゃくちゃ貧弱
なんですよね。最後の会話のテキスト の一覧だけがダーッと出てきて
各セッションの最後のコメント だけが見えるぐらいで、これ何の
話してたんだっけみたいな、しょ っちゅう落ちて結局前話してた
やつなんだっけみたいなことになって しまいがちなんですよ。一応クロード
コードもコードエックスもJSONL っていうような形式でセッション
の履歴はJSONっぽいようなログっぽい ようなファイルに書き込まれたり
がするんですけど、結局それって 検索するの結構大変だよねっていう
ところがあって、ただ一方でオープン コードのほうはSQLiteにそのセッション
の履歴とかAIが動いた結果っていう のは全部記録されるようになってる
んです。SQLなので結局クエリを 作って叩けばかなり高速に検索
ができるっていうところがメリット としてあって、いろんな単純に
テキスト検索だけじゃなくてフィルター とかをうまく活用して高速に検索
することができるので、僕の場合 とかはセッションの履歴を検索
するためのツールを作ってオープン コードでこういう会話昔してた
と思うんだけどどうだったんだ っけと思って検索すると一発で
引けて再開ができるようにしたり しているっていうのがまず検索
というか過去の情報とか引っ張って くるっていうのにかなりオープン
コードが便利だなっていうふう に思ってると
おだしょー 何てお願いしてるの 何てお願いすると
しばやん もう検索用のツールを 作っちゃっててウェブとかで複数
の単語を入れたらそれに筆列が パッと出てきたりとかあとはSQLite
のファイルデータが一応ローカル にあるんでAIにちょっともう何だろう
大平 そういうのが来たりとか
しばやん セマンティック検索 っぽいことを
大平 めっちゃその整えた後の話 じゃなくてこれから多分整える
人が多いと思うからオープンコード 使ってる人だとそうするとどこ
にあるのかそのファイルがある のかとかどういうふうに見てもらって
たのかみたいなとかその辺が聞き たいかもしれない
しばやん はいなるほどねそれで 言うとまずオープンコードで履歴
を検索したりとかやるにはオープン コードのデータベースSQLiteのデータベース
自体はフォームディレクトリ配下 に.localっていうフォルダができる
んですよそこのshareっていうフォルダ のオープンコードの中にopencode.db
っていうファイルが1個生成されて いてそれが全てのオープンコード
のデータの集約場所になってる っていう感じなんですよ
おだしょー.localってあれやんな Macでアプリとか入れたら入るやつ
やん新しくの中に.localの中にい っぱい出てくる
しばやん そこのデータベースの中身 を覗いてみるとテーブルが10個ぐらい
そのデータベースの中に入ってて プロジェクトとかパートとかメッセージ
とかっていうのがセッションと プロジェクトとセッションとパート
とメッセージっていう一番よく見る テーブルが4つぐらいあって
だいたいAIにディレクトリを検索 してほしいときはまずプロジェクト
単位で絞ってもらうとよくてプロジェクト の中にワークツリーっていうカラムが
プロジェクトテーブルっていう 中にワークツリーカラムっていう
のがあってそのワークツリーっていう のは作業していたフォルダを指して
いるので今のフォルダをワークツリー で検索かけてまずどのプロジェクト
があるのかっていうのを見つけて もらいたい
おだしょー それをそのときは.local のこのSQLiteのファイルを見てって
言ってってことだよねこのSQLite さっき 言ったところに見つけて
おだしょー SQLiteを見てっていうところ
に見つけてもらってそこでプロジェクト を見つけるとプロジェクトにひも
づいてるセッションっていうのが 聞けるようになるのでそれにひ
もづくセッションをとってください っていうふうに言うんですよそう
するとだいたいこれまでの会話 の履歴のまずどういうセッション
を行ってたかっていうのが一覧で 分かるようになるところがあります
でセッションの中の会話ってどういう 自分がしゃべった話とAIが返した
結果っていうところが入ってる と思うんですけどそれがテーブル
としたらメッセージがそれっぽい かなっていうふうに思うかと思
うんですけどメッセージ自体には 詳細な会話の中身っていうの実は
入ってなくてどっちかっていう とメッセージにばらさかるパート
っていうテーブルが結構肝になって てそこに実際の会話の中身とか
例えばツールコールした履歴とか 実際にAIが読み取ったり吐き出してる
結果がパートっていうテーブル に出てるのでパートを見れば全部
大体分かるというところを教えて あげるとそれをやればもう大体
分かる
おだしょー なるほどね
しばやん 自分はそれがもう理解 できてるからそれベースにウェブ
のシステムを組み上げて履歴が 一発で引けるようにできるような
感じで
おだしょー なるほどそれをこの 人のコメントみたいにスキル図
にしてあげてももちろんいいし っていう感じだね
しばやん 確かにそうだね あと 最近思ってるのは結構計画とか
立ててる間に計画自体がすごい 長時間のセッションになるずっと
ラリーこれってどうなんだろう みたいな話し合いをずっとして
て最終的にプランファイルを作って もらった後にそのプランが妥当
なのかっていうのを別のAIに評価 してもらうときに今言った感じ
で結局SQLの中身を覗いてもらえば 過去の会話の履歴全部見れるので
その会話の履歴を元に最終的に 合意をAIと合意した内容に沿ってる
かどうかっていうのを評価して もらうこともできるなって思って
あとは同じようにしてプルリクエスト の指摘の妥当性に関しても直近
のセッションとかを確認して会話 の実際に話していた内容と沿ってる
のかどうかっていうのを結構高い 精度で見てもらえるようになるん
じゃないかなっていうのは このコメントをもらったときに
確かになと思って 今日やってみ たんですよ 試しに 例えばプラン
を練ってもらった後にここを見れば 過去の会話の履歴が見れるから
そこで話していたのと違う計画 になっていないのかフィードバック
してほしいみたいな話をしたら ちゃんとロゴを見て確認してくれた
上で若干矛盾してるようなプラン になってるところが一部あります
ってフィードバックをくれたので 結構いいんじゃないかな
おだしょー なるほど ある程度 開発として初期開発のときって
結構方針が変わったりするじゃない ですか そうすると前言ったけど
逆に前言ったことを引きずって 欲しくないみたいなときとかも
あるっちゃあるのかなって思って だから安定稼働して運用に乗ってる
プロジェクトだとそういうのが 必要になるのかもしんないね より
効果的になるのかもしんないな って今聞いてて思いました まだ
リリース前でガンガン変わるみたいな ときに 昨日までAって言ってたけど
今日Bやってるみたいな感じになったら 逆に過去の文脈引きずりで欲しくない
みたいなときが
そういうときもある
だから 安定稼働してる 保守とか に入ってるような 保守運用モード
に入ってるようなプロジェクト がより効くかもしんないね って
か そっちのプロジェクトのほう が圧倒的に多いだろうから そういう
意味ではすごく有用なのかもしんない
確かに たまにプランの中に 例えば Aって話をしてて プランを作る
過程でAって話をして Bに変わった のに Aはやらないよとか Aに引きずら
れた情報がプランに乗っかっちゃ ってるときも 逆にあったりする
ので そういうときには むしろ セッションの流れをちゃんと読んで
理解してほしいなっていうところ も 僕の中では感じていて そういう
意味では 立ち上げの当初のほう でも 結構効いたりするのかなとは
思ってたりして
おだしょー なんか立ち上げの当初 とかで言うと 今 俺が今 この
Podcastを自動で編集するみたいな ワークフロー作ってるじゃん それ
で一番初め ChatGPTのアプリのほう で設計とかしてもらったよね それ
をやる そのときに勝手にChatGPT側 がAgentMDに書いてたやつが ずっと
残ってるやつがあるんやけど それが プロジェクトステータスみたいな
ファイルがあって .mdみたいな ファイルがあって これは俺だけ
しか今 やってないからっていう 前提なんやけど 必ず一定のプロジェクト
とかタスクが終わったタイミング で そのときのタイムスタンプを
スクリプトでポンって取って それと一緒に 今 何をしたのかどういう
判断だったのかっていうプロジェクト ステータスを一生 そのマークダウン
ファイルに書き続けてるみたいな のがあって 阿部ちゃんのやつだ
と会話履歴みたいな感じになる から 結構 コンテキストがポンって
でかくなるけど 要約した一つの 文脈を一つのマークダウンにバー
って書いていってて これ 多分 もっと増えていくと もちろん
コンテキストがやばくなって ずっと は続けらんないなみたいな感覚
はあるんやけど 結構 とはいえ こういう経緯があってとかって
勝手にやってくれるから 楽だな みたいなのがあって そういう
要約と実態の事実情報としての 会話ログがセットで紐づいてて
タイムスタンプ込みでちゃんと 保存されてて 基本 要約見るんだけど
もっと深もって見たいときは会話 ログを見るみたいな それがチーム
全体で ちゃんとクラウドに上がって 全員がアクセスできるような状態
で進むとすごくいいんだろうな っていうのを ちょっと阿部ちゃん
とそのお話をしてる中で思って たね
阿部 いや そうなんだよね それを 欲しいんだよね いわゆるメモリー
的な話だとは思う
大平 そう あと 生データだけだと やっぱ重すぎるじゃん 基本的に
個人運用が限界だと思うんだよね そうなると ローカルの個人で
その辺の仕組み結構欲しいよね 欲しくなるよね その要約を書いて
くれることで 割と勝手に判断して くれたりとかもしたりとか あとは
レビュー PRチェック PRのレビュー をチェックして返すやつも それを
見て判断してるような気配があった から これはこういう観点で こういう
ジャッジをしたので 拒否です みたいなのをやってるのよね みたいな
おだしょー そうだね ちょっと 今回は生データを取って判断して
もらうっていう まず取って判断 できるのかなって
大平 そうだね
おだしょー これの検証だったので そこはあんだけど やっぱ要約して
クラウドに上げて 生データもクラウド に上げたほうがいいなと
大平 一緒に上げて紐づく状態で
おだしょー そうそう
大平 で すると検索効率も上がる し その上でラグ化されてるみたい
なとかぐらいなのかな
おだしょー 話に戻るけど やっぱ そういうことやると クラウド上に
上がってれば チーム全体の共有 もそうだし プロリクエストのレビュー
の結果の精度もぐっと上がるん じゃないかなと
大平 そんな気がする
おだしょー 改めて思います
大平 そんな気がする それ欲しいよね それが
おだしょー なんかありそうなんだけどね
大平 サイファーとか それに近いん でしょうね おそらく
おだしょー そうだね あとスーパーメモリー
だっけ なんかそういうのも最近 出てきた
大平 そうそう スーパーメモリー も 一応 オープンコードのプラグイン
もあるのかな 確かスーパーメモリー スーパーメモリーとかサイファー
とかがその辺になるのかなっていう 感じね
おだしょー そうだね いや ちょっとね
大平 なんか意外と導入価値ありそう やね
おだしょー ありそう
大平 何回かあれしようとしてた けどね
おだしょー サイファーありかもね スーパーメモリー
とかだと多分有料だってなって くる
大平 うんうんうん 有料になるほど
いるのかどうかっていうと ちょっと はてなマークだもんね
おだしょー そう ちょっとね そこ まではいいかなって気持ちになっちゃ
うんだよなって
大平 確かに
おだしょー 自前でなんかデータベース とかをクラウドにポンって置いて
うまいことできる仕組みが作れたら なっていうふうには思う 最近だと
なんだっけな Obsidianとかを活用 してメモリー作ってますよみたい
なのを もともとOpenAIとかでエンジニア やってた人が 自分が考えた最強の
メモリーの仕組みってこうだみたいな Xでめちゃめちゃバズってたみたいな
のがあったりしたら それを真似 したら活用できたりすんのかな
とか ボヤッと
大平 ちょっとあれとかかな Master & Observational Memoryみたいな
おだしょー はいはいはい
大平 その辺も一つなのかな
おだしょー そうだね それも一つあると思うよね
大平 そうだね
おだしょー やってみないとわからん なって思いつつも やるには重たい
なって気持ちも
大平 Cypherは意外と入れれそうやな 簡単にというか セレナはもうい
らないなって感じ 逆に
おだしょー そうだね もういらない かな
大平 セレナはいらないなっていう 感じだな
Cypherがいいのかな すごい最近になって ギュインってCypherの利用者数が
利用者数っていうかスター数が増 えてるね 一回なだらかになってる
けど 何かで話題になったりした のかな
大平 そうだね けどスーパーメモリー もMITで これもセルフホスト可能
なんじゃないもしかしたら
おだしょー それだと結構うれしい かもしれない あとなんか最近だと
オープンクローの対抗馬として エルメスっていうエージェント
が出てきてるけど あれもなんか 自立学習をするメモリーを自分たち
で作ってるとか だからそういう 機構を真似してみるのもありかか
って思ったりはした
大平 まあCypherかスーパーメモリー なのかな なんか前調べた感じだと
オープンコードと相性いいという 意味ではスーパーメモリーが結構
相性良さそうな感じだったな
おだしょー 多分 僕が言った話を やってるのが まさにオープンコード
スーパーメモリーっていうオープン コードのプラグインなのかな
って雑に思ってるけど どうなんだろうね
大平 なんかそんな気がする そことの 統合をうまくやってくれたみたいな
だから 阿部ちゃんの言ってた 会話の履歴があって そこにうまく
かみ合ってくれてるやつを探す のがいいでしょうね 前提として
そうすると オープンコードスーパーメモリー とかはいいのかもしれないね
おだしょー いや 本当にそうだね
大平 そうだね
おだしょー クロードとかCodeXを 使ってる人たちも 一方でほとんどの
人はそっちだろうから そっち側 でもなんかあったらいいなって
僕もたまに使うんでね やっぱ なんかエージェントハーネスが
いろいろあるがゆえに 情報が分散 しちゃうっていうのは
大平 うん けど それで言うと オープンコードスーパーメモリー
はあくまでも多分 スーパーメモリー のオープンコード用の設置面みたいな
話だと思うから 前提としてオープン コードとオーマイオープンコード
みたいな立て付けみたいな感じ になると思うから だから オープン
コードスーパーメモリーを使いつつ スーパーメモリーは別にクロード
とかも使えるはずじゃん 前提 として そういうものとしてやる
のが一番 管理はしやすそうだよな
山本 一個メインとなるそういう スーパーメモリーみたいなもの
を作って 入り口はどっからでも みたいな
大平 うん そう スーパーメモリー サイファー
だと多分セルナみたいな感じになる から 多分 プロンプトとかをやって
逐一やってもらうようにしない といけない MCP経由で多分 記憶
を保持していくみたいなベース だと思うよね どっちかというと
けど スーパーメモリー オープン コードスーパーメモリーとか ちょっと
ちゃんと見てないけど おそらく そういう過去の会話ログとかから
勝手に収集していくみたいだから エージェントの動きによらない
仕組みのほうが結構便利そうだな って セルナはそれがあるじゃん
やっぱり 毎回セルナをちゃんと 更新するようにしてもらわない
といけないみたいな 結局エージェント によるみたいな その管理はみたいな
そことはちょっと切り離したいよね 正直 なんかコンテキストも無駄
だし 時間もかかるし
大平 そうだね そうなんですよ 履歴から自動的にみたいなところ
をやってほしいなと そうなると CodexとかCloudだとデータの
蓄積の仕方がJSONでしかないと 使いにくかったりするのかなっていう
のを何となく自分の思ってたり したりする感じかな
三沢 だから両面から入れられる もののほうがいいでしょうね オープン
コードが主体としてやるっていう のが前提なのかもしれない
大平 ちょっと触ってみたいな いずれにせよ
三沢 じゃあ こんな感じかな 結構 話が長々となりましたが 3人の
方 ありがとうございます コメント いただきまして
三沢 ありがとうございます
大平 ありがとうございます じゃあ 今日は以上ですかね
三沢 はい
大平 ありがとうございます 本日も AI駆動開発部の日常をお聞き
いただき ありがとうございました 今回はPodcastのほうにコメント
お便りいただいた方に対する回答 ということで ちょっといろいろ
多岐にわたってお話しさせていただ いたんですけれども こんな感じ
で コメント ちょっと全部拾える わけではないんで 申し訳ないんですけ
れども できる限り回答していけ たらなと思っているので コメント
であったりとか お便りとかいただ けると大変うれしいです このPodcast
気に入ってくれた方は いいねや フォロー 高評価 ぜひお願いいたします
それでは また次回もお楽しみください バイバイ