AIエージェント日次速報 2026年7月3日版「完了しました」を信じる前に、完了条件を先に書く段階へ

00:00

あのー、リスナーのあなたも仕事でこういう経験ないですかね?

はい、なんでしょう?

チームの誰かに、あの権威よろしくってこう頼んで。

ええ。

で、数時間後に、終わりましたって元気よく報告されるんですけど。

ありますね。

いざその上がってきたものを見てみると、

いやいや、これ全然求めてたのと違うじゃんっていう。

あー、よくある光景ですよね、それ。

ですよね。頭抱えちゃうっていうか。

はい。人間の同僚同士でも、

そのー、どこまでやれば完了なのかっていう前提がずれてると。

うんうん。

結局やり直しになって、

手戻りっていう最悪のコストを払うことになりますからね。

そうなんですよ。

で、実は今私が最近チェックしてた複数の開発者向けログとか、

AIのアップデート情報を見てて、

はい。

ハッとしたんです。

私たちが今一番頼りにしているAIに対して、

これと全く同じ、いや、もっと恐ろしいレベルのすれ違いが起きて初めてるんじゃないかって。

なるほど。それは非常にタイムリーな視点ですね。

なので、今日の深掘りはまさにここがテーマなんです。

AIエージェントに、これお願いって頼んで、

完了しましたっていう自己申告を、

そのまま信じちゃいけない時代に突入したというお話です。

そうですね。今はAIに対して単に作業を丸投げするっていうフェーズから、

完了条件をいかに設計するかというフェーズに完全に移行しつつあります。

完了条件の設計ですか?

はい。これは単なるツールの使い方の話じゃなくて、

私たちが知的な自立システムとどう働くかっていう根源的なルールの最低義なんですよ。

なるほど。というわけで、

まずは私たちが日常的に使っているようなAI支援ツールの裏側で、

今まさに何が起きているのかを見ていきたいんですけど、

例えば、オープンAIのCortexっていう開発支援AIがありますよね?

はい。よく使われていますね。

あれの直近のアップデートで、

トレースログに完全なリクエストペイロードが書き込まれなくなりました。

そうでしたね。

これ、ぱっと見は地味な変更に思えるんですけど、

実はすごく大きな意味を持ってますよね?

その通りです。

これはAIとの関わり方を象徴するような変更だと言えますね。

というと?

これまでは、AIが裏でどんなプロンプトを受け取って、

どういう通信をしたかっていうログを見ることで、

人間側が、ああ、ちゃんと動いてるなって安心できた部分があったんです。

ああ、なるほど。裏側のプロセスが見えていたから。

でも、リクエストペイロードがログに残らなくなったってことは、

プロセスの透明性だけに依存できなくなったっていうことなんです。

つまり、AIがどう考えたかじゃなくて、何を出力したか。

そして、それが正しく動くかっていう結果だけで、

AIを評価しないといけなくなったんですよ。

なるほど。

AIの頭の中を覗き見しで安心するんじゃなくて、

出てきたもので判断しろよと。

まさにそういうことです。

例えば、AIにコードの修正を頼んだ場合、

修正しましたっていうAIのテキストだけだと、

03:00

もう全く無意味なんですよね。

まあ、そうですよね。

なので、変更箇所の差分はどこかとか、

テストは全てパスしたかとか、

影響範囲は想定内かっていう、

人間がレビューできる客観的な成果物をセットで出してもらわないと、

官僚とは見なせないんです。

なんか、例えるなら、

子供にお使い頼んで、

買ってきたよって言われたけど、

レシートも商品も見せてくれないみたいな状態というか。

ああ、まさにそんな感じですね。

ですよね。

それに関連して、

新しく一般提供が始まったクロードコードのアップデートも、

興味深いんですけど。

ええ、注目されてますね。

グラフとかを作る機能が追加されました。

はい。

でもこれも、ただ綺麗なグラフができましたって、

終わらせちゃいけないってことですよね。

そうなんですよ。

データの可視化って、

実は非常に危険な作業でもあって。

危険ですか?

ええ。

AIが最もらしいグラフを出力した時、

人間って視覚的な説得力に負けて、

そのまま信じ込んじゃいがちなんですよね。

ああ、確かに。

グラフになってると、なんか正しそうに見えちゃいます。

ですよね。

だからこそ、グラフを生成させるだけじゃなくて、

その裏にあるメカニズムを説明させることが必要になるんです。

メカニズムって言うと、

どの入力データを元にしたのかとか、

ラベルの定義は何かとか。

うんうん。

そして一番重要なのが、

このグラフを見た人間が、

誤った解釈をしてしまうリスクはどこにあるのか。

おお、そこまで。

はい。そこまでをAI自身に言語化させて、

初めてそのダスクは完了したと言えるんですよ。

なるほど。そこまでやってくれないと、

結局人間が元のデータと見比べて検証することになっちゃいますもんね。

その通りです。

でもここで一つ素朴な疑問なんですけど、

もしAIにグラフを一つ作らせるためだけに、

そんなに細かく検証項目を確認しなきゃいけないんだとしたら、

なんか自分でやったほうが早くないって思っちゃいませんか?

鋭い指摘ですね。

単一の簡単なタスクなら、

実際自分でやったほうが早いかもしれないです。

ですよね。

でも問題は、

AIが担当する作業のスケールが、

今まさに爆発的に広がっているということなんです。

スケールが広がっている。

ええ。単にグラフを一つ作るレベルの話じゃなくなってきてるんですよ。

っていうと、もっと大規模な作業を、

AIが勝手に進めちゃうってことですか?

はい。例えば、

Googleが公開している、

アンティグラビティという環境を見てみましょう。

はい。アンティグラビティ。

これ、チャットボックスの中で、

AIと対話するだけのツールじゃないんです。

違うんですか?

ええ。エディタでのコード編集から、

ターミナルでのプログラム実行、結果の確認まで、

改革のあらゆる工程を、

AIが横断的に操作できる環境なんですね。

へー、全部横断して。

さらに、マニスというAIに至っては、

スライド資料からウェブサイト、デスクトップアプリまで、

最終的な成果物を直接生成してしまうんです。

それは、作業の範囲が桁違いですね。

そうなんですよ。

06:00

でも、マニスみたいに、ウェブサイトを丸ごと作ってくれるなら、

私は正直、こういう目的で、

いい感じのカッコいいサイトを作っておいてって、

丸投げしたくなります。

ああ、わかります。

だって、そのためのAIじゃないですか。

いちいち細かく条件を指定するのは面倒っていうか。

そのお気持ちは痛いほどわかりますが、

LLM、つまり大規模言語モデルの本質的な仕組みを考えると、

それが最も危険な罠だとわかるんですよ。

罠ですか?

LLMは本質的に、

最もらしい次の単語、トークンを予測することに最適化されています。

うんうん。

つまり、彼らにとっての最優先事項は、

人間が満足しそうな官僚状態を最もらしい形で出力することなんです。

なるほど、最もらしいか。

ええ。

そこに、事実としてのたらしさとか、

実用性の担保はないんですよ。

ああ、じゃあAIは別にサボってるわけじゃなくて、

はい。

最もらしい完成形を出すっていうプログラムに従ってるだけなんですね。

その通りです。

だからこそ、アンティグラビティのように、

複数の工程をまたぐ作業を任せる場合、

ええ。

バグを直してっていう大きな指示じゃダメなんです。

じゃあどうすればいいんですか?

まず再現条件を確認する。

原因を特定する。

最小限の修正を行う。

テストを実行する、というように。

うん。

工程ごとに検証可能な小さな官僚条件を置かないと。

はい。

AIは途中のめんどくさい検証をすっ飛ばして、

最もらしい修正しました、というゴールに直行してしまいます。

ああ、まぬすねでウェブサイトを作らせる場合も同じですね。

まさにそうです。

いい感じのサイト?なんていう曖昧な指示だと、

AIはそれっぽいテンプレートと適当な画像を使って、

一瞬でできましたって言ってくる。

ええ。

でも実際にはターゲット層に全く刺さらないデザインだったり、

著作権的にアウトな素材を使ってたりするわけだ。

その通りです。

結果的に人間がここは違うとか、

この画像はダメだって手作業で修正していくことになります。

はいはい。

完成品を人間が間隔で手直しするコストは、

最初から要件を定義するコストはるかに上回るんですよ。

いや、耳が痛いですね。

なので対象読者は誰か、禁止事項は何か、

事実確認のソースはどこかっていう基準を、

AIが作業を始める前に渡す必要があるんです。

なるほど。仕組みを聞けば納得です。

ええ。

さてここまではツールとしてのAIの話だったんですけど、

ここからさらに業務の革新に迫っていきたいなと。

お願いします。

AIが単なるツールじゃなくて、

私たちのコミュニケーションツールに常駐する、

自立的な同僚になったらどうなるのか。

ついにAI社員、AIエンプロイの領域ですね。

そうなんですよ。

例えばジェンスパーク・クローニューラのようなツールですね。

はい、注目のツールです。

これスラックとかTeamsといったメッセージアプリを横断して、

会話の文脈を読み取って、

返信の下書きを作ったり、予定を調整したりしてくれるんですよね。

そうですね。かなり実務に食い込んできています。

私が個人的に一番興奮したのが、

09:01

ハーメスエージェントの最新アップデートなんですけど、

バージョン0.180ですね。

ハーメスエージェントのアーキテクチャと新機能は、

今後のAIエージェントの決定的な指針になりますからね。

そうなんですよ。

このハーメスエージェント、単純に賢いだけじゃなくて、

システムとして、ミクスチャーオブエージェンツ、MOAですね。

複数の異なるAIモデルを組み合わせて、

互いに検証させ合う仕組みを持っているんです。

あれは強力ですよね。

さらに、Learnというコマンドで新しい情報を自己学習して、

Darwinyというコマンドで、

自分がどうやってその結論に至ったかの奇跡を記録できる。

でも何と言っても一番重要なのは、

ゴールというコマンドに対するアプローチですよね。

まさにそこです。

ここで彼らが導入している完了契約、

Completion Contractsという概念が、

今回の最も重要なパラダイムシフトなんです。

完了契約。

はい。

Done means proven。

つまり完了とは証明されることである。

これにつきます。

完了とは証明されること。

なんかかっこいい響きですけど、

具体的にはどういうことですか?

これまで私たちは、

AIができましたって言えば、

それをある程度信じていましたよね。

ええ、信じてました。

しかし、自律的に動くAIエージェントに対しては、

言葉での自己申告を一切信用しないというアプローチを取るんです。

おお、一切信用しない。

ええ。

AIに対して目標を与えるとき、

同時にこの条件を満たし、

かつこれこれの客観的証拠を提示できなければ、

完了とは見なさない、

という強固な契約を結ぶんです。

これが完了契約です。

なるほど。

ヘルメスエージェントのMOAも、

この証拠を強固にするための仕組みなんですよ。

へえ。

複数のモデルが互いの出力を検証し合うことで、

単一のモデルが引き起こす幻覚を防いで、

証明可能な結果だけを出力するわけです。

あの、ちょっと待ってください。

それって。

はい。

AIに対してこのテストをパスして、

影響範囲がここまでの状態にして、

そのログを出力することみたいに。

ええ。

ガチガチの契約書を書くってことですよね。

そうなりますね。

それって結局プログラミングを別の言語でやってるだけになりませんか?

ああ。

なんか、自然な会話でお願いできるのがAIの良さだったのに、

本末転倒な気はするんですけど。

そのフラストレーションは非常にまっとうですね。

ですよね。

確かに、一時的には、

プログラミングに近い厳密さを要求されているように感じると思います。

はい。

しかし、自然言語の最大の弱点は曖昧さなんです。

曖昧さ。

ええ。人間同士なら、

「よしなにやって!」で通じる文脈も、

システムには通じません。

うんうん。

私たちが結ぶ契約は、

コードを書くことじゃなくて、

何をもって証拠とするかの合意なんです。

何をもって証拠とするか。

ゲンスパークのような、

AI社員に対しても同じですよ。

人間の新入社員に、

適当にスラックの変身しておいて、とは言わないですよね。

まあ、言わないですね。

対応済みの件数とか、

未対応の件数、

判断に迷ってエスカレーションした件っていう。

はい。

報告のフォーマットを最初に教え込むはずです。

12:00

ああ、なるほど。

手順をプログラミングするんじゃなくて、

受け入れ可能な結果の形、

まさにその通りです。

それなら、

途中のプロセスは、

AIの柔軟なアプローチに任せつつ、

出力の質は担保できると。

はい。

自然な会話っていうインターフェースを保ちながら、

システムとしての信頼性を確保する。

それが官僚契約の正体ですか?

ええ、よく理解されていますね。

そして、

AIが優秀になって、

人間にように振る舞うようになるほど、

この最初の契約をどれだけ厳密に握れるかが、

プロジェクトの整備を分けることになるんです。

いや、これは実務の景色がガラッと変わりますね。

変わりますよ、本当に。

さて、

AIがいかに強力で、

いかに厳密な手綱が必要かが見えてきたところで、

最後のトピックです。

はい。

この強力な自立型AIが、

いよいよ私たちの最も身近なデバイス、

つまりスマートフォンの中に入り込んできた時のリスクについてですね。

物理的なインターフェースの変化は、

人間の心理に劇的な影響を与えますからね。

そうなんですよ。

オープンクローというAIアシスタントの

iOSとAndroid向けのコンパニオンアプリが登場しました。

これによって、

ユーザーはスマートフォンの画面から

AIが実行しようとしているアクションを承認したり、

裏で動いているワークフローを監視したりできるようになるんです。

外出中のちょっとした隙間時間に、

手元のスマホでAIの作業プロセスを承認できる。

はい。

一見すると信じられないほど便利でシームレスな体験ですよね。

いや、便利ですよ。絶対便利なんですけど。

これめちゃくちゃ怖くないですか?

というと?

さっきまでの話を聞いた後だと特になんですけど、

移動中の電車の中でスマホの画面に

AIがクライアントへのメールを作成しました。

送信しますか?ってポップアップが出たら、

よく見ずに、はい承認!と押しちゃう未来しか見えないんですよ。

あはは、全く同感です。

そこに巨大なリスクが存在していますね。

ですよね。新しいアプリをインストールした時に、

気が遠くなるほど長い利用規約を1秒も読まずに、

はい。

同意するボタンを適当に連打するじゃないですか。

あの感覚でAIの業務を承認しちゃうと思うんです。

非常に的確な例えですね、それ。

ですよね。

AIの処理速度が人間の確認速度を遥かに超え始めている今、

ボトルネックになるのは人間の承認なんですよ。

人間の承認。

ええ。だからこそ、モバイルアプリのような手軽さを追求したUIは、

一歩間違えると大事故につながります。

うんうん。

モバイル化するからこそ、承認画面のデザインは

極めて慎重に設計されなければならないんです。

単純なOKキャンセルボタンじゃダメだと。

ええ。AIが今どのシステムのどのデータにアクセスしようとしているのか。

はい。

それは誰に送られるのか。その判断の根拠証拠は何か。

なるほど。

そして何より、間違っていた場合、すぐにロールバック、取り消しできる状態にあるか。

うーん。

こうした完了条件と判断材料が、小さな画面でも

一目で視覚的に理解できるUIでなければなりません。

15:03

はいはい。

人間の面倒くさいから承認しちゃえっていう心理的な脆弱性を

システム側でカバーする必要があるんです。

スマホで簡単に仕事が進む裏には、それを受け止める強固な

フェールセーフの設計が不可欠なんですね。

その通りです。

手軽になればなるほど、私たち人間側の承認の重みが増していくっていうのは

本当に考えさせられます。

AIの自立性が高まるということは、人間の仕事が作業から決断と

責任へとシフトしていくことの表れでもありますから。

なるほど。

さて、あっという間に時間が来てしまいました。

早いですね。

今日の深掘り、私たちがAIとどう向き合うべきか、

その解像度が劇的に上がる内容でしたね。

ええ、そう思います。

では、リスナーのあなたに向けて、今日の実務的な学びを整理してみましょう。

はい。

AIを使う際、依頼文を書く前に設定すべき4つの条件ですね。

そうですね。

1つ目は、何を満たせば完了とするか、曖昧な良い感じは厳禁です。

ええ。

2つ目は、何を証拠とするか、テスト結果や影響範囲など

AIに自己申告ではない客観的証明を求めます。

これが一番大事ですね。

3つ目は、どこまで自動で進めてよいか、

AIが暴走しないための境界線を引きます。

そして4つ目は、どのタイミングで人間が確認するか、

承認のタイミングとその際の判断材料を明確にします。

はい、この4つですね。

リスナーのあなたも、あすAIツールを使うときには、

いつものプロンプトを打ち込む前に、

この4つの完了契約を少しだけ意識してみてください。

ええ。

AIの挙動が驚くほど、頼もしいものに変わるはずです。

この視点を持つだけで、

AIは単なる便利なチャットボットから

責任を共有できるシステムへと進化しますからね。

間違いありません。

はい。

ただですね、今日のこの議論、実務的には完璧なんですけど、

どうしました?

なんだか少し息苦しさも感じてしまったんですよね。

どう言いますと?

いいえ、ちょっと考えたんですけど、

AIに対して証拠に基づく完璧でミスのない完了条件とか、

厳格な契約を突きつけることの重要性はよくわかりました。

ええ。

でも、もし私たちがその完璧な管理に完全に慣れきってしまったら、

いずれ人間同士の仕事においても、

同じような厳密さを求めるようになってしまわないかなって。

ああ、なるほど。

それは非常に深い、そして鋭い洞察ですね。

なんかちょっといい感じにお願いとか、

吉田に寄っておくよ、みたいな。

ええ。

余白のあるコミュニケーションとか、

阿吽の呼吸ですよね。

そういった人間らしさが、

非効率でリスクが高いってみなされて、

すべてが証拠と契約に基づく機械的なやり取りになってしまうんじゃないか。

はあ。

私たちがAIをコントロールするインターフェースの形が、

巡り巡って、私たちの人間同士の関係性まで変容させてしまうんじゃないか。

18:00

そんな気がしたんです。

なるほど。

皆さんはどう思いますか。

システムの合理性を追求した先にある、

人間としての社会性の揺らぎですか。

ええ。

私たちがAIを訓練しているのか、

私たちがAIに合わせた思考回路に聴取されているのか、

非常に挑発的で、考えさせられる問いですね。

そうなんですよ。

リスナーのあなたはどう感じたでしょうか。

うーん。

冒頭でお話しした、同僚との終わりました、のすれ違い。

あれって確かにイライラしますけど、

後になって、もうしょうがないなって笑い合える、

人間ならではの余白だったのかもしれません。

そうかもしれませんね。

私たちがAIと完璧な契約を結べるようになった時、

あの理不尽なすれ違いを少し懐かしく思う日が来るのでしょうか。

うーん。

AIとの働き方が、私たちの人間らしさをどう再定義していくのか、

この問いは引き続き追いかけていく必要がありそうですね。

そうですね。重要なテーマだと思います。

というわけで、今回の深掘りはここまで。

ぜひ次回の探索でもお会いしましょう。

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

とあるITエンジニア

感想

総スター数

コメント

感想を書く

AIエージェント日次速報 2026年7月3日版 「完了しました」を信じる前に、完了条件を先に書く段階へ

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

とあるITエンジニア

感想

総スター数

コメント

感想を書く

AIエージェント日次速報 2026年7月3日版「完了しました」を信じる前に、完了条件を先に書く段階へ