1. ugo Robotics Radio
  2. #11_Tech Trend:VLAモデル入..
2026-02-09 19:37

#11_Tech Trend:VLAモデル入門 - 未来のロボットAI技術

【今回のエピソード】

今回のTech Trendでは、最先端のロボットAI技術「VLAモデル」について分かりやすく解説!VLA(Vision-Language-Action)モデルとは、ロボットが「見て」「理解して」「行動する」を一つのAIで実現する画期的な技術です。まるで人間のように、カメラで周囲を見て、言葉の指示を理解し、実際に手足を動かして作業をこなします。


ugo採用情報

サマリー

このエピソードでは、Vision Language Action Model(VLAモデル)について述べられています。ロボットが従来のプログラミングから理解に基づく行動へ進化する過程が探求されています。この技術の核心には、視覚情報と言語理解を統合し、ロボットが人間のように巧妙に動作する仕組みがあります。VLAモデルはロボットの動作制御を革新する新技術で、連続値出力や行動チャンク出力、生成モデルによる軌道生成などの特徴があります。この技術により、AIの力を借りて高度なロボット制御が誰でも可能になり、実用化が進展しています。

00:09
こんにちは、UGO株式会社の松井健です。
ugo Robotics Radioは、UGOで働いている社員や各領域のプロフェッショナルをゲストに迎えながら、
ロボット開発のリアル、最新の技術動向、事業や組織の経営論など、幅広くお届けするチャンネルです。
VLAモデルの基本概念
本日は、最新の技術動向として、VLA、Vision Language Action Modelを取り上げたいと思います。
VLAモデルは、従来のプラグラミングされた行動から、理解に基づく行動へロボットを進化させる、そんなフィジカルAIの中核技術といえます。
本日のエピソードでは、VLAが出てきた背景、VLAとは何なのか、代表的なアーキテクチャー、VLAモデル進化史と、
初めての方でもVLAの全体像を理解できるような内容となっております。
最後のコーナーを聞いておけば、主要なVLAモデルの進化の歴史を抑えておくことで、今後のフィジカルAIの発展を読み解くヒントになるかもしれませんね。
ではここからは、AIナレーターのお二人よりご紹介させていただきます。
人間みたいに周りを見て、言葉の指示を理解して、って思い通りに行動するロボット。
昔はSF映画の中だけの話だと思っていました。
でも今、これを現実にするAI技術がものすごいスピードで進化してるんですよね。
今日は、その心臓部ともいえる技術、VLAモデル、ビジョン・ラングエイジ・アクションモデルについて、深くそして面白く掘り下げていきたいと思います。
はい、よろしくお願いします。
資料には専門的な話も多いですけど、僕たちが今回目指すのは、この技術がなぜゲームチェンジャーなのか、その本質をつかむことかなと。
例えば、散らかったこの部屋を片付けてっていう、これ人間には簡単ですけど、ロボットには超難解なタスクじゃないですか。
これをどうやって教えるのか、そんな大きな問いに、このVLAモデルがどう答えようとしているのか、一緒に探っていきましょう。
目指すは、プログラムを一項も書かずに、まるで子供に教えるようにロボットを賢くしていく、そんな未来です。
まさに、その壮大なビジョンの入り口に、今僕たちは立っているんです。
いやー、ワクワクしますね。
VLAモデルの障壁
ではまず、そもそもなんですけど、なぜこのVLAモデルなんていう新しい考え方が必要になったんでしょうか。これまでのロボックじゃダメだったんですか。
いい質問ですね。そこが全ての出発点です。
従来のロボット制御には、乗り越えられない大きな壁が3つありました。
3つも。
一つ目は、資料にもあるタスクごとの個別設計という問題です。
これは例えば、リンゴをつかむプログラムとコップを運ぶプログラムというのは全くの別物で、新しい作業をさせたいと思うたびに、専門家がゼロから専用のプログラムを書かないといけなかったんです。
ああ、なるほど。家電と一緒ですね。電子レンジで洗濯はできないみたいな。
おっしゃる通りです。
それでは全然賢いとは言えないですもんね。
ええ、全くスケールしない。
で、二つ目の壁が、知識と推論の限界。
最近のチャットGPTみたいな大規模言語モデル、LLMは非常に賢いですが、彼らはデジタルの世界の住人なんです。
物理法則を知らない。
物理法則を知らない。
なので、象を冷蔵庫に入れてと頼んだら、その手順を平気で考えてしまう。
ああ、はいはいはい。
逆に、人間がテキストでドアノブを優しく回してと指示しても、その優しくがどれくらいの力なのかロボットには伝わらないんです。
言葉だけじゃ、その現実世界の微妙なニュアンスは伝わりきらないんですね。
ええ。そして三つ目の壁が、視覚情報の活用です。
ロボットにはカメラという目があるのに、その情報を十分に活かしきれていなかった。
もし、目の前の映像から、あ、この床は濡れていて滑りやすそうだとか、この箱は重そうだから両手で持とうとか、人間みたいに判断できれば、もっと精密な行動ができるはずなんです。
確かに。
この三つの壁を全部まとめて打ち破るために生まれたのが、視覚、ビジョン、言語、ラングエイジ、行動、アクションを一つのAIで統合するVLAモデルなんですね。
なるほど。別々だった目と脳と手足を一本の神経でつなぐようなそんなイメージですかね。
まさにまさに。そしてこのVLAモデルという言葉自体すごく新しいんですよ。
そうなんですか。
2023年にグーグルディープマインドがRT2という画期的なモデルを発表した論文で初めて使われた言葉なんです。
まだ生まれて間もない熱々のコンセプトというわけです。
その目と脳と手足がつながったAIの内部って一体どうなってるんですかね。赤いカップを右のテーブルに動かしてっていう指示がどうやって具体的なロボットの動きになるのかちょっと想像がつかないんですが。
VLAモデルの構成要素
そこが一番面白いところですね。モデルの内部を一つのチームとして考えてみましょう。資料にある通り主に4人の専門家がいます。
4人。
まずビジョンエンコーダー。彼はチームの目です。カメラが捉えた映像を他のメンバーが理解できる共通言語に翻訳する役割を担います。
共通言語ですか。具体的にはどういうものに。
AIが理解できるトークンというデジタルな符号に変換します。
トークン。
いうならば風景画をAIが読める絵言葉に翻訳するようなイメージですね。ビジョントランスフォーマーVITという技術がよく使われます。
なるほど。まず見たものを絵言葉に翻訳する専門家がいると。
はい。次に登場するのが言語モデル。チームの言語中枢です。
彼があなたからの赤いカップを動かしてという指示テキストを読んでその意味を理解します。
ラマツーのような皆さんがよく知るLLMがこの役を担いますね。
ただここまではまだ絵言葉チームと指示テキストチームは別々に動いています。
ここからが重要そうですね。どうやってその2つが結びつくんですか。
そこで登場するのが3人目の専門家プロジェクターです。
彼が橋渡し役ですね。
橋渡し役。
ビジョンエンコーダーが作った絵言葉の束の中から赤いカップに相当する部分と
言語モデルが理解した指示文の赤いカップという単語を指し出して
ほらこれとこれは同じものだよと教えてあげるんです。
おお。
クロスアテンションという技術で画像情報と言語情報をここで初めて紐付けます。
まるで通訳兼コーディネーターみたいな役割だ。
これで初めてロボットはどの物体を動かせばいいかを理解するわけですね。
その通りです。
そして最後の仕上げが4人目のアクションデコーダー。
彼は筋肉への指令室です。
指令室。
ええ。ここまでの議論の結果を受けて
よしじゃあ右腕を30度上げてアームを5センチ伸ばしてという
実際のモーターを動かすための超具体的な制御コマンドに変換して指令を出すんです。
なるほどな。
で重要なのはこの4人が別々の部屋で働くのではなくて
一つの大きなトランスフォーマーモデルというオフィスで
常に連携しながらシームレスに仕事をしている点です。
ああチームワークがカギなんだ。
だからこそ予期せぬ事態にも柔軟に対応できる可能性があるということなんですね。
いやー面白い。
でもこのチームの作り方つまりモデルの設計にもいくつか流通されています。
資料にある4つのパターンが気になります。
ソフトウェアのアーキテクチャ設計思想みたいなものですね。
まず一番シンプルなのがエンドツーエンド型。
先ほど話に出たGoogleのRT2がこれです。
はい。
これは超巨大な一つの天才AIが先ほどの4人分の仕事を全部一人でこなすイメージ。
全部一人で。
工場は美しいんですけどとてつもなく大きなモデルが必要になります。
一人の天才にすべてを任せると。
シンプルだけどその天才を育てるのが大変そうですね。
何か問題が起きた時に原因がどこにあるのか突き止めるのも難しくなりませんか?
ブラックボックス化してしまうというか。
まさにそこが課題の一つです。
そこで出てくるのが2つ目のプラン・アクトの2段階型あるいは階層型モデル。
これが非常に面白い発想でして心理学的な考え方によると
これが非常に面白い発想でして心理学者のダニエル・カーネマンが提唱した
速い思考と遅い思考からヒントを得ています。
デュアルシステムと呼ばれる考え方です。
聞いたことあります。じっくり考えるのと直感的に動くの。
それをロボットに応用するんです。
賢いけれど少し時間のかかるシステム2という戦略家AIが
まずドアを開けて次に部屋に入りゴミを拾うという高レベルな計画を立てる。
ふむふむ。
そしてその計画を受け取った超高速で反射神経の良いシステム1という現場担当AIが
ドアノブを掴む回す引くといった瞬時の細かい動きを次々と実行していくんです。
なるほど。賢い司令塔と優秀なアスリートの分業体制ですね。
これ人間とそっくりですごくしっくりきます。
でしょ。3つ目はワールドモデル統合型。
これはロボットが頭の中で未来を予測するアーキテクチャーです。
頭の中で未来を予測するっていうと
例えば人間がグラスをテーブルの端っこに置くときに
あ、これだと落ちるかもしれないなって無意識に考える。
ああいう感じですか。
まさにそれです。そのかもしれないを物理シミュレーションで何百通りも試すんですよ。
何百通りも。
この強さで置いたらどうなる。
この角度だったらテーブルの材質はこれだからと。
そしてシミュレーションの結果
最も安全で成功確率の高い置き方を選んで実行する。
失敗を未然に防ぐ非常に慎重で賢いロボットが作れるわけです。
すごい。石橋を叩きまくって渡るタイプですね。
最後に4つ目はツール拡張エージェント型です。
これはAI自身が自分に足りない能力を
外部のツールとを使って補うという考え方ですね。
ツール。
例えば初めてのビルに入ったとき
内蔵された知識だけではわからなくても
APIを叩いてビルのフロアマップをダウンロードしたり
QRコードを読み取ってエレビエターの操作マニュアルを検索したりする。
まさに人間がスマホで調べるのと同じですね。
このアーキテクチャの着替えでロボットの得意なこととか
それこそ性格みたいなものも変わってきそうですね。
おっしゃる通りです。
どの設計思想を選ぶかでロボットの個性も大きく変わってきます。
その性格を作るためにロボットはそもそも何を見て何を感じているんでしょうか。
入力される情報もいろいろありそうですね。
そこを見ていきましょう。
入力つまりロボットが世界を観測する方法は主に3種類です。
1つ目はもちろん視覚。
でもただのカラー画像だけじゃないんです。
物体までの距離がわかる深度情報とか
物の動きを捉える光学フローオプティカルフローといった
よりリッチな視覚情報も使います。
2つ目は言語。
これは人間からの自然言語での指示ですね。
そして3つ目はちょっと特殊そうですね。
ロボット状態とあります。
これは固有需要感覚とも呼ばれるもので
ロボット自身の体の状態です。
自分の体の状態。
関節が今何度曲がっているか
モーターにどれくらいの力がかかっているか
これは内部センサーの情報ですね。
人間で言えば目をつぶっていても
自分の手がどこにあるかわかる
あの感覚です。
これがないと精密な力加減はできません。
なるほど。視覚、言語、そして自分の身体感覚
この3つを入力していよいよ行動を出力するわけですけど
この行動の表現方法にこそ
VLAモデルの革新
VLAモデルのブレークスルーの秘密が隠されていると聞きました。
はい。ここがVLAモデルの革新の
まあ革新部分です。
代表的なのが4つあります。
まず一番直感的なのが連続値出力
関節の角度を35度のように直接数値を命令する方法です。
分かりやすいですが
これを賢く制御するのはなかなか難しい。
そこでRT2がブレークスルーを起こしたと。
そうです。2つ目のリサントークン出力です。
これが革命的でした。
彼らはロボットの連続的な動きを
例えば256段階の細切れの動きに区切って
それぞれに単語を割り振ってしまったんです。
動きを単語にしてしまうということですか。
つまりですね
ロボットの動きを一種の外国語として扱ったんです。
外国語。
これにより大規模言語モデルが
次の単語を予測するの同じ仕組みで
次の動きの単語を予測できるようになった。
人間の指示をロボット語に翻訳する
超優秀な翻訳機を手に入れたようなものです。
今までロボット工学の専門家しかできなかった
高度な制御が
AIの力で誰にでも可能になる道が
ここで一気に開けたんです。
すごい発想の転換だ。
言語の力で行動を生み出すための
ハケ紙を作ったわけですね。
そして3つ目は行動チャンク出力。
これはパラパラ漫画みたいに
1コマずつ指示するんじゃなくて
この2秒間の動きといった感じで
ある程度の長さを持った動画クリップを
一度に出力するイメージです。
塊で出すんですね。
そうです。これによりカクカクしない
より滑らかで一貫性のある動作が可能になります。
学習プロセスの重要性
そっちの方が効率も良さそう。
最後が生成モデルによる軌道生成。
これは画像生成AIで使われる
拡散モデルという技術を応用したものです。
拡散モデル。
ランダムなノイズからまるで粘土をこねるように
滑らかで最適な一連の動作
つまり軌道をまるごと生成します。
へえ。
この方法のすごいところは
実際に生み出せることなんです。
一度失敗しても
じゃあ今度はこっちのルートでやってみようと
別のアプローチを次々に試せる
柔軟で粘り強いロボットが作れるんです。
いやー面白い。
でもこれだけ複雑なモデル
一体どうやって学習させるんですか。
天才を育てるのにも
特別な教育法が必要そうですが。
基本は2段階のプロセスですね。
まず大規模事前学習。
これはウェブ上にある膨大な画像とテキストデータを
AIに見せて
何か概念に関する常識を学ばせるステップです。
人間が本を読んだりネットを見たりして
知識を蓄えるのと同じで
リンゴは赤いとかコップは液体を入れるもの
といった基礎知識をここで叩き込みます。
でもインターネット上のデータって
不正確なったり偏見に満ちていたりしますよね。
ゴミを拾うように指示したロボットが
大事な手紙までこれも紙くずだって捨ててしまうような
間違った常識を学んでしまう危険性はないんでしょうか。
非常に重要な指摘です。
それが次のステップが
重要になる理由なんです。
それが微調整、ファインチューニングですね。
ファインチューニング。
事前学習で得た一般知識をベースに
今度は実際のロボットの操作データを使って
より専門的なスキルを教え込みます。
これは模倣学習と呼ばれ
専門家が操作したお手本データ
デモンストレーションをモデルに真似させるんです。
お手本を真似させる。
ええ。これはまるで
親が子供に靴紐の結び方を教えるのに似ています。
まず親がやってみせて
次に子供にやらせてみて
少しずつ修正していく。
ロボットの学習も
実は非常に人間的なプロセスに近づいているんです。
なるほど。
ここで重要になるのが
資料にあるオープンXエンボデメントという
データセットなんですね。
その通りです。
これは世界中の22種類の
異なるロボットアームから集められた
100万件以上もの膨大な操作データです。
100万件?
ええ。
いろいろな先生
つまりロボットから多様なやり方を学ぶことで
特定のロボットにしかできない
クセみたいなものに縛られず
どんなロボットでも応用できる
汎用的なスキルを獲得できるようになった。
これが大きなブレクスルーでした。
ロボットの進化と未来
そしてこの分野の進化のスピードが
本当に驚異的です。
シリアではコンセプトの変遷が
3つのフェーズにまとめられていますね。
ええ。本当にドッグイヤーどころではない
スピード感です。
第一フェーズ
これは統合の成立
ビジョン、ラングレージ、アクションを
統合できるんだということを証明した時代です。
うんうん。
そしてRT2が
ただ統合するだけでなく
統合すると賢くなることを示しました。
まさに黎明期ですね。
第二フェーズ
2024年は専門家と効率家
研究室レベルから
いよいよ実用化を見据えた動きが活発になっています。
オープンソース化が進んで
誰でも使えるようになったり
工場での組み立て作業用といった
特定のドメインに
特化したモデルが登場したり
何でも屋から現場の専門家へと
ええ。役割がシフトしている段階です。
第三フェーズでは何が起きるんでしょうか。
第三フェーズ
繁華と実世界展開がテーマになります。
ただ動くだけじゃなく
安全性やリアルタイム性が
より厳しく問われるようになる。
はい。
先ほど話した慎重な未来予測をする
ワールドモデルや
効率的なデュアルシステムのような
新しいアーキテクチャが
ロボットにも
いわば社会人スキルが
求められる時代が来るわけです。
いやー。
VLAモデルの基本コンセプトから
内部の仕組み
そして進化の歴史まで
本当に濃密な時間でした。
ロボットが見て
理解して動くという
シンプルな言葉の裏に
これほど深く
そして厚い技術の世界が
広がっているとは。
今日の話で一番感じていただきたかったのは
ロボット知能という
壮大なビジョンの下に
AIの世界の最新技術が
ものすごい勢いで
ロボット制御の分野に
流れ込んできているという事実です。
そしてその進化が
単なる技術的な興味から
社会でどう役立てるか
という明確に
実用化を見据えたステージに進んでいる。
そのダイナミズムを感じていただけたなら
嬉しいです。
本当に感じました。
いかがだったでしょうか。
この話について
リスナーの皆さんの
頭の中に全体像ができ
これを聞くだけで
十分キャッチアップできたのではないでしょうか。
融合としても
フィジカルAIに関連する技術の
研究開発を日々進めており
フィジカルAIに興味を持っていただけた
エンジニア仲間が
一人でも増えてくれたら嬉しいです。
今後もフィジカルAIや
ロボティクス領域の
最新の技術動向を
ご紹介して参りますので
19:37

コメント

スクロール