(4) AIと人がコラボするための指南書作成

AIツールの活用と基本設定

AIツール三種の神器ではじめる自動運転AIチャレンジ、今回の探究へようこそ!

このシリーズでは、AIツール、これをどう使えば自動運転AIチャレンジ、みたいなちょっと複雑なタスクにね、うまく取り組めるのか、その辺を探っています。

前回は、AIの役割を参謀、書記、執事って三つに分けてみました。

で、その考え方でシミュレーターのセットアップまでなんとか進めましたよね。

今回はですね、その三種の神器の中でも、特に書記、記録係ですね、AIエディターとの連携をどうやって深めていくか、ここに焦点を当てたいと思います。

それから、AIチャレンジの教材にVLM Plannerっていう新しいのが登場したなんていうニュースもあるんで、それも後でちょっと掘り下げてみましょうか。

チートシートの活用法

いや、それにしても、自動運転AIチャレンジって、ターミナルでのコマンド入力、ほんと多いですよね。

正直あの長いコマンド、毎回ちゃんとこう思い出すのって結構大変で、かといって毎回その参謀役のAIチャットに同じこと聞くのもなんか非効率だなってずっと思ってたんですよ。

まさにそこなんですよね。そこで書記の役割がすごく大事になってくるわけです。

AIとのやりとりで、あ、これだって思ったコマンドとか、大事な設定とか、あとは専門用語の解説なんかをですね、

ただのチャットログで終わらせちゃうんじゃなくて、Markdown形式できちんとチートシートみたいに残しておく。

あー、なるほど。

これがすごく重要なんです。単なるメモじゃなくて、後でAIに対して、これが我々のプロジェクトで使ってる情報だよって再利用できる、そういうコンテキストを作っていくイメージですね。

なるほど。単に忘れないためだけじゃなくて、AIへの申し遅れ事項を作るみたいな感覚ですかね。

特にMarkdownが良いんですか?別に普通のテキストでも良さそうな気もちょっとしますが。

Markdownはシンプルで読みやすいっていうのもありますけど、箇条書きとかコードブロックとか構造化がしやすいんですよ。

あー、構造化。

その構造化がポイントでして、後でAIが情報を読み取るときにすごく解析しやすくなるんですね。

ただのテキストだと、どこがコマンドでどこが説明なのかAIが判断しにくいなんてこともあり得ますから、構造化されている方が質の高いコンテキストになるんです。

確かにそうですね。

で、その具体的な応用例がまた面白いんですよ。

ほう。

このMarkdownで作ったチートシートをですね、GitHub Copilotみたいな書記役のAIに読み込ませて、VS Codeで使うタスク設定ファイル、tasks.jsonっていうのがあるんですけど、

それに変換させたと。

へー、なるほど。

これでエディターから直接コマンドが実行できるようになる。いや、これは便利そうですよ。

あー、それはいいですね。定型的な変換作業をAIに任せるというのはまさに好例ですね。

人間はどのコマンドを登録すべきかとか、どういう構造でメモを整理するかとか、そういうより本質的な判断に集中できる。

うんうん。

じゃあ、どうでしょう。こうやって効率化が進む一方で、そのチートシートを常に最新の状態に保つのって結構な手間になったりしませんかね。

あー、確かに。メンテナンスは課題かもしれませんね。

うん。ただ、最近はLLMの進化もすごいですから、なんか大枠だけ指示すれば、AIがいい感じにコードを書いてくれるバイブコーディングなんて言葉も出てきてるみたいで。

バイブコーディング?

ええ。AIとのあうんの呼吸みたいな?

VLMプランナーとマルチモーダルAIの進化

まあ、そういう側面も確かにあるんでしょうけど。

でも、やっぱり複雑なシステム開発となると、そういう感覚だけじゃ難しい。プロジェクト固有の目的とか背景、制約、そういう情報をやっぱりちゃんと共有する必要があると。

そこで、指南書という考え方が重要になってくるわけですね。

指南書。

これは単なるメモとかチートシートを超えて、AIと人間が共通認識を持つための背景情報、ルール、目的、そういうものを体系的にまとめたもの。いわばプロジェクトの憲法みたいなものでしょうか。

なるほど。憲法ですか。

これは最近よく言われるコンテキストエンジニアリング、つまりAIにいかに的確で質の高い文脈情報を提供するかという潮流にもつながってくる考え方ですね。

なるほど。

じゃあ、その指南書、効果的なコンテキストって具体的にどうやって作ればいいんでしょう。

そのヒントとして、なんか面白いのが紹介されてて、YOGA for AIっていうキャッチーなフレームワークがあるらしいんですけど、ご存知ですか。

ヨガですか。ヨガ。面白いネーミングですね。

そうなんです。Yield、不要な情報を手放す。Optimize、情報配置を最適化する。Ground、重要情報を軸に据える。そしてAlign、文脈と目的を一致させる。この頭文字をとってYOGA。

へー。

AIに与える情報を整理して焦点を合わせるための4ステップだそうです。

なるほど。ヨガ、情報を取捨選択してYield、構造化してOptimize。AIが迷わないように核心を明確にしてGround。最終的なゴールに向かわせるAlign。

これはAIへの指示、つまりプロンプトとかコンテキストの質そのものを高めるための具体的な思考法と言えそうですね。

えー。

特にそのGround、重要情報に軸を置くっていうのは、AIが時に、なんていうか、事実に基づかない情報をハルシネーションを起こす可能性を考えると、これは非常に本質的かもしれないですね。

確かにそうですね。で、こういう指南書とかメモを作るツールとして、Obsidianっていうマークダウンエディターも紹介されてましたね。

あー、Obsidian。

直感的に使えて、知識間のつながりをグラフで可視化したりとか、プラグインでAI連携も強化できるとかで、まさに書記役として、これは強力な相棒になりそうです。

うーん、なるほど。今回のお話を通して見えてくるのは、AIの能力を本当に引き出す鍵っていうのは、単に指示を出すことだけじゃなくて、人間側がいかにコンテキストを戦略的に設計して、効果的に転達できるか、どうやらその点にありそうだということですね。

はい。

YOGA for AIみたいなフレームワークは、そのための具体的な思考の道具になり得る。

AIとのバイブを合わせる、そのための下準備としてのコンテキスト設計って考えると、なんだか奥が深いですね。

まあ、そうやって効率化を進める一方で、AI技術自体もどんどん新しくなってますよね。

資料でも触れられてましたけど、AIチャレンジの公式サイトで、新しいAI教材、VLM Plannerが公開されたっていうのは、これは見逃せない動きですよね。

いや、これは大きいですね。VLM、ビジョン・ランゲージモデルの略で、つまりカメラからの映像、ビジョンと我々が使う言葉、ランゲージ、これを組み合わせて車の走行計画を立てるAIということなんです。

映像と言葉をですか?今まではセンサーの数値情報がメインだったのが、なんかもっと人間に近い感覚になるんですかね?

そうですね。資料の筆者の方も、言葉での指示が本当にできるのかって結構期待してる感じでしたけど。

画像の内容も理解して、さらに言語での指示も理解する、これが融合するわけですから、従来の数値ベースの計画からは、一歩も二歩も進んだ形と言えますね。

もっと大きな流れで見ると、これはマルチモーダルAI、つまり映像とか言語とか音とか、複数の情報を扱えるAIの進化の一つの表れですよね。

人間とAIがもっと自然な感じでやり取りできるようになる、そんな未来につながっていくのかもしれませんね。

AIがどんどん賢くなると、今度は我々人間との連携の仕方、これが重要になってきそうですね。

そこで最後に皆さんに問いかけてみたいのですが、あなたがAIやあるいは他の誰かと協力して何かを達成しようとするとき、どのようにコンテキストを共有して認識のズレをなくそうとしていますか?

より良いコラボレーションを実現するために、自分たちだけの指南書を作るとしたら、どんな要素を含めるか、少し立ち止まって考えてみるのも面白いかもしれませんね。

スターの数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

covao

サマリー

目次

スターの数

コメント

こちらもおすすめ