00:09
こんにちは、ugo株式会社の松井健です。
ugo Robotics Radioは、UGOで働いている社員や各領域のプロフェッショナルをゲストに迎えながら、
ロボット開発のリアル、最新の技術動向、事業や組織の経営論など、幅広くお届けするチャンネルです。
ACT-1の概要
本日は、最新の技術動向として、私が個人的にも注目しているロボティクススタートアップ、Sunday Robotics社の取り組みについてご紹介したいと思います。
Sunday Robotics社は、TeslaやGoogle DeepMindなどの出身者が設立したアメリカのAIロボティクス企業で、
MIMOという革新的な家庭用の家事代行ロボットを開発しています。
Sunday Robotics社のCEOであるトニー・ジャオは、これまで低コストなオープンソースのロボットアーム、アロハやモバイルアロハ、
及び、模倣学習アルゴリズムACTの開発で世界的な注目を集めました。
では、ここからはAIナレーターの2人よりご紹介させていただきます。
こんにちは。さて今回はですね、Sunday Robotics社が開発した家庭用ロボット、その基盤モデルになるACT1について、
提供いただいた資料を元に深く見ていきたいなと思います。
いやもう、なんて言うんでしょう、先に言っちゃいますけど、今回の資料は本当に未来を感じましたね。
もしロボットが人間みたいに食卓を片付けて、食洗機に食器を並べて、ついでにゴミまで捨ててくれたらって、誰でも一度は夢するじゃないですか。
その夢がもうかなり現実に近づいてきたかもしれない。
このACT1がどうやってそんな複雑な家事をこなすのか、特にその学習方法は常識外れで面白いので、
今日はその秘密を解き明かしていきましょう。
よろしくお願いします。このACT1、一言で言うとですね、見て、聞いて、行動するっていうのを一つの脳でやってしまうAIモデルなんです。
専門的には視覚のビジョン、言語のランゲージ、行動のアクション、その頭文字を取ってVLAモデルと呼ばれています。
VLAモデル。
はい。ロボットのカメラが見た映像とか、あと自分の体の状態、例えば腕が今どう曲がっているとか、そういう情報を全部まとめてインプットするんですね。
AIがじゃあ次は右腕をこう動かして車輪をこれくらい回転させようっていう具体的な命令を直接アウトプットする仕組みです。
なるほど。目で見て、指示を理解して行動に移すっていうのを全部一つの脳でやっている、そういうイメージですかね。
GoogleのRT2なんかも確か似たようなアプローチでしたよね。
その通りです。アプローチ自体は似ている部分もあるんですが、ACT1が最大限っているのはやっぱりそのタスクの長さ、それから複雑さなんです。
タスクの長さと複雑さ。
そして今日一番面白いのはその能力をどうやって身につけさせたか。その教え方がもうなんていうかそんなのありって言いたくなるくらいユニークな点だと思うんですよ。
それは気になりますね。ではそのタスクの長さと複雑さ、まずはそこから具体的に見ていきましょうか。
サンデーロボティクスが公開したデモ映像、あれはすごかったですよね。
メモっていう名前のロボットが食事が終わった後の散らかったテーブルを片付けるんですけど。
あれはただ片付けるだけじゃないんですよね。
皿とかワイングラスを一つずつ丁寧に掴んで、キッチンまで運んで、食洗機の中にちゃんと並べていく。
それだけじゃなくて、テーブルに残った生ゴミを集めて、ゴミ箱に捨てて、最後に食洗機のスイッチを入れる。
ここまで全部人間が一切手伝わずにやり遂げたという。
いや本当信じられない光景でした。数字で見るとさらに驚くんですけど、この一連の作業で物を掴んだり置いたりした回数が合計で68回。
68回ですか。
しかも陶器の皿から金属のカトラリー、割れやすいワイングラスまで21種類の物を扱って、その間の移動距離が約40メートル。
正直人間がやっても面倒で途中で嫌になりそうな作業ですよ。
これを一つのAIがやるっていうのがまだちょっとにわかには信じがたいんですが、一体どういう仕組みになってるんでしょうか。
そこがまさにこのACT-1の最大の革新ポイントなんです。
従来のロボットって、例えば食卓を片付けろって命令すると、頭の中でまず1、皿を掴む。2、キッチンへ移動する。3、皿を置く、みたいにタスクを細かく分解するんですね。
はいはい、階層型制御ってやつですね。
ええ、でもACT-1はこの分解をしない。
え、分解しないんですか。
しないんです。最初から最後までの一連の流れを一つの巨大なAIモデルで、もう丸ごと処理しちゃうんですよ。
丸ごとですか。じゃあどうなってそんな長い作業の計画を立ててるんですか。
はい、そこで出てくるのがアクションチャンクという考え方です。
アクションチャンク。
これは例えば、今から5秒後までの動きみたいに、未来の行動をある程度の塊、つまりチャンクでまとめて予測して、まずそれを実行する。
で、終わったらまた次の数秒間の動きを予測して実行すると。
なるほど。
この繰り返しで、結果的にものすごく長いタスクをこなせるわけです。
しかも、ビリ単位の指先の精密な動きから、平を横切るような数メートルの移動まで、予測する行動のスケールを状況に応じて柔軟に変えられるのが強みですね。
なるほどな。でも未来をまとめて予測するって、ものすごく計算が大変そうですけど、ちょっとした予測ミスが後々の大きな失敗につながりませんか。
例えばグラスを掴む軌道を少し間違えたせいで、5秒後には壁にぶつかってしまうみたいな。
鋭い指摘ですね。まさにそれがこの方式の難しいところで、だからこそ膨大な量の質の高い学習データが必要になるんです。
そして、その失敗のリスクを減らすもう一つの鍵が、移動、つまりナビゲーションと物体の操作、マニピュレーションを統合している点ですね。
統合している。
ええ。普通は移動用の脳と手作業用の脳って別々なんですけど、ACT1はこれを一つの脳で同時に処理します。
一つの脳で。だからデモであったみたいに、移動しながら腕を伸ばす、みたいな滑らかな動きができるわけですね。
でも、初めて行く家だったらどうするんですか?さすがに間取りは覚えさせないと無理ですよね。
それが、これも面白いところで、家の3Dマップさえあれば大丈夫なんです。
彼らは訓練の時に、特定の家の間取りを覚えさせるんじゃなくて、3Dマップというものを読み解く能力そのものをAAに学習させたんですね。
その結果、デモでは一度も訪れたことのないAirbnbで借りた民家にロボットを投入して、マップだけを渡したら追加学習ゼロでちゃんと触線機の場所までたどり着けたそうです。
へー。追加学習ゼロでですか。それって人間が初めて訪れた家でスマホの地図アプリ見ながら、あ、トイレはあっちかって動くのと感覚的に近いんですかね。
まさにそれに近い感覚だと思います。全身をうまく使っている感じも印象的でしたよね。
へー、ほんとに。
いわゆる全身協調制御ですね。メモロボットは車輪で移動して、胴体が最大2.1メートルまで伸びしじみします。
ACT-1は、例えば高い棚のものを取るために腕を伸ばしながら胴体もスーッと伸ばしたり、
ものに近づくために腕の動きと車輪の動きを完璧に同期させたり、そういった全身を使った複雑な動きを統合された一つのモデルが自然に生成しているんです。
いやー、すごい。さて、ここからが今回の話の核心だと思うんですが、
データ収集の革新
サンデーロボテクスはこのとんでもない性能のAIをロボットを1体も使わずに集めたデータだけで訓練したと主張しているんですよね。
これ、最初聞いたとき正直意味がわかりませんでした。
ですよね。普通は信じられない話です。そのマジックの種がスキルキャプチャーグローブという特殊な手袋なんです。
スキルキャプチャーグローブ。
ええ、これは人間の手の動きとか、物をつかむときの力加減を細かく計測できるセンサー付きの手袋なんですけど、
ミソはそこじゃない。一番重要なのは、この手袋の関節構造とか、センサーの配置がロボットメモの腕と寸分わざわざ同じように設計されていることなんです。
全く同じ。ということは、人間がこの手袋をはめて何かをすれば、その動きのデータがそのままロボットの腕の動きのデータとして使えると。なるほど。
その通りなんです。ハードベーラのレベルで人間とロボットの身体を一致させてしまった。この発想の転換がコストを劇的に下げました。
普通、ロボットに遠隔操作で動きを教えるシステムって、一式で2万ドル、2本円で300万円くらいするんですが、この手袋はたった200ドル、3万円くらいで作れたそうです。
100分の1じゃないですか。それでこの安い手袋を大量生産して世界中に発行したというわけですね。
2000個以上作って、世界中の500以上の一般家庭に配送したそうです。
メモリーレベロッパーと名付けられた作業員たちが、自宅でこの手袋をはめて、不安通りに皿を洗ったり、洗濯物を畳んだそうです。
その膨大な日常の家事データがサーバーに集められたわけです。
これはもう、ロボット開発が長年抱えてきた質の高いデータをどうやって大量に安く集めるか、という最大のボトルネックに対する本当に画期的な答えだと思います。
クラウドソーシングで世界中の家庭からリアルな家事データを集めると、賢すぎますね。
でも一つ疑問が、手袋で手の動きはコピーできても、体全体の動きはどうするんですか?
人間とロボットじゃ腕の長さも違うし、カメラがついてる場所も違うから、見える景色も全然違いますよね。
人間が区間で物を拾う時の視点と、ロボットの胸にあるカメラからの視点って全く違うはずです。
まさに、それが身体の不一致、エンボディーメントミスマッチ問題、と呼ばれるこの分野の大きな課題です。
人間の動きの映像をそのままロボットに見せても、身体の作りが違うからうまく真似できない。
これをどう解決したのか、何か泥臭い方法を想像しませんか?
えー、なんだろう、やっぱりロボットの視点になるように、人間の頭に変な角度でカメラを取り付けて撮影したりとか、そういう力技ですかね。
面白い発想ですね。でもサンデー社の解決策はもっとスマートでした。
スキルトランスフォームというソフトウェア技術を開発したんです。
スキルトランスフォーム?
ACT-1の高性能の秘密
ええ、これは物理的に合わせるんじゃなくて、人間が作業している映像を撮った後から、ソフトウェア処理で、もしこれをロボットがやっていたら、カメラからはこう見えるはずだ、という映像に自動で変換しちゃうんです。
後から変換、そんなことができるんですか?
資料によれば、90%という非常に高い精度で変換できるそうです。
90%!?
つまり、人間が手ごくろをはめていったデモンストレーションが、あたかもロボット自身がその動きを経験したかのようなデータに生まれ変わる。
この変換済みの大量のお手本データを使って、AIにこの映像の時はこう動くのが正解だよ、と教えるいわゆる模倣学習を行ったんです。
なるほど。
試行錯誤を繰り返す強化学習とは違って、ひたすら人間による質の高いお手本の量で勝負する。
これがACT-1の高性能の秘密であり、他社との決定的な違いなんですね。
なるほど。
ロボット本体の開発競争というよりは、いかに賢くデータを集めるかというデータ収集戦略の競争で大きくリードしたわけですね。
そのデータで動くロボット本体、MEMOの設計もかなり現実的で面白いなと思いました。
MEMOのハードウェアは実用性第一という思想が徹底されてますよね。
多くの人が夢見るような人間そっくりの二足歩行はあえと採用していない。
うんうん。安定していて長時間稼働できる車輪移動を選んでいます。
身長約1.7メートル、体重77キロで4時間連続で稼働できる。
さっきも話に出た背骨みたいに胴体が伸び縮みするZリックスパインも、床のものから高い棚のものまで対応するためのすごく合理的な設計ですよね。
手の形も人間の5本指じゃなくて2つの爪みたいなものが付いたデュアルグリッパーという独特な形ですよね。
でもあのデモではワイングラスを片手で2脚同時に、しかもわらぜに掴んでいて、その器用さには驚きました。
あれは人間の親指とそれ以外の4本の指の役割を2つのシンプルな機構で再現しようという設計思想ですね。
複雑な5本指を真似するより、コストも故障のリスクも低い。
それでいて家庭内のタスクに必要な器用さは確保できる。非常にクレバーな判断だと思います。
彼らは現実の家庭がいかに予測不能かということもよく理解しています。
データ収集の中に食洗機の中に猫が入り込んじゃったとか、
テーブルの上にプラムが山積みになっているみたいな、普通じゃないけどありえなくはないよねっていうロングテールな状況を意図的に含めているんです。
確かにそういうカオスな状況に対応できないと実用化は難しいですもんね。
では全体としてこれは何を意味するんでしょうか。もちろんまだ課題もあるんですよね。
はい。完璧ではありません。
まず一番わかりやすいのは動作速度。
ああ確かに。
人間と比べるとかなりゆっくりです。
これはハードウェアの限界というより、AIがまだこれで絶対大丈夫という確信を持てず慎重に動いていることや計算パワーの制約によるものだと分析されています。
なるほど。
あとは車輪なので階段は登れない。
こうした点を検証するために2026年にベータテストプログラムを開始する予定だそうです。
じゃあまだうちの2階に洗濯物を持って行ってもらうことはできないと。
テスラやフィギュアみたいな人型ロボットを開発している企業も注目されていますが、それらとの比較で言うと、ACT-1はどの辺りに位置するんでしょうか。
そうですね。他社がまだ二足歩行の安定化とか、基本的な物体の認識操作に関しては、
サンデー社はハードウェアを実用的な形に割り切った。
そのことで、食卓を片付けて食洗機に入れるという具体的で、しかも非常に高度な家事タスクを完全自立で達成してみせた。
この実際に家で役に立つタスクができたというインパクトは非常に大きいと思います。
なるほど。人型であることの追求よりも、まず家事をこなすというゴールを達成したと。
そういうことです。もちろん、フィジカルインテリジェンス社のように、強化学習も組み合わせて、洗濯物をたたんだり、エスプレッソを入れたりといった長時間のタスクのデモを発表している競合もいます。
ただ、その中でも、ACT-1のように、人間のスキルをクラウドソーシングという手法で直接データ化し、ゼロから学習した知能で、これほど超大な家事を実現できるようになっています。
ゼロから学習した知能で、これほど超大な家事をこなしたというのは初めての事例です。
家庭用ロボットの未来
今後の家庭用ロボット開発において、一つの重要なマイルストーンになることは間違いないでしょう。
いやー、よくわかりました。
今日の話をまとめると、サンデイロボティックス社のACT-1は、移動から精密な操作まで、複雑な家事を一つのAIでこなせる、と。
その成功の鍵は、ロボットそのものよりも、むしろ人間が手袋で示した動きという質の高いデータを低コストでかつ大量に集めるという、極めてユニークなデータ戦略にあったということですね。
はい、まさに。
ハードとソフトを一体で設計して、実用性を追求したバランス感覚も光っているなと感じました。
そして、これは一つ重要な問いを私たちに投げかけていると思うんです。
サンデイ社は、将来的にはユーザー自身が自分のロボットに新しいタスクを教える未来を想定している、と資料で述べています。
もし、あなたが自宅で例の手袋をはめて何か家事をやってみせるだけで、あなたの家のロボットがそのスキルをそっくりそのまま覚えてくれるとしたら、
あなたが自分の家庭用ロボットに最初に何を教えたいですか?
そして、あなたが教えたそのスキルがネットワークを通じて世界中のロボットに共有され、みんなの家のロボットが賢くなっていく。
そんな未来を少し想像してみてほしいんです。
いかがだったでしょうか。
フィジカルAIの最先端を取り組む注目のロボティクススタートアップが何に取り組んでいるのか、これを聞くだけでキャッチアップできたのではないでしょうか。
優吾としても彼らのアプローチには非常に共感する部分が多く、他のスタートアップとは異なる現実的で合理的なアプローチであると感じています。
今後もフィジカルAIやロボティクス領域の最新の技術動向をご紹介してまいりますのでお楽しみに。
それでは。