Gemini 2.5の導入
どうも、AI駆動開発ラボ大森です。今回は、Googleさんがですね、10月の8日に発表したGemini 2.5コンピューターユーズモデルについて、簡単にどういうものなのかどうすごいのかということをお話ししていきたいと思います。これはですね、AIがパソコンブラウザを自由に操作することができるようになるための前触れなんですけど、
AIがパソコンを自由に操作できるようになったら、どんなことが可能になると想像できますか?今、全くわからないよって方いらっしゃると思うんですけど、多分めちゃめちゃすげーことに大革命になると思っています。それの前触れのモデル、Gemini 2.5コンピューターユーズモデルについて、今回お話ししていこうと思います。
改めて、GeminiっていうのがGoogleさんが出しているAIなんですね。
ChatGPTはOpenAIという会社が出しているAI。 GeminiはGoogleという会社が出しているAIなんです。これの2.5っていうモデルが一番最新なんですけど、それのコンピューターユーズモデルというものが発表されました。
コンピューターユーズ、読んでその名の通りAIがコンピューターを使うなんですけど、今でもAIにコンピューターを触らせるみたいなことはできます。
ChatGPTのエージェントモードだとか、あとはCometっていうAIブラウザーがあるんですけど、それよりも今回のGemini 2.5コンピューターユーズはですね、
すげーことができます。どうしてなのかみたいな話をちょっとここからしていくんですけど、まず前触れみたいな話をしたと思うんですけど、何が前触れなのかというと、このコンピューターユーズモデルっていうのが試験的に公開されているよっていうような感じなんですよ。
しかも試験的なので、このコンピューターユーズ頑張ったら使えるよ、頑張って使ってみてねっていう感じなんですよ。頑張ったら使えるよってなんだっていうと、プログラミングをしたら使えるよっていうような感じです。
このコンピューターユーズっていうモデルがですね、APIっていうので開発者に提供されています。APIっていうのは銀行の窓口と言われてるんですけど、よくそこを通して銀行の中にアクセスできる。APIを通して開発者はコンピューターユーズモデルを触ることができるみたいな、それの受け渡し口がAPIなんですけど、それが公開されてますよと。
で、その公開されてるやつを使ってですね、上手いことブラウザを探索して、何かクリックしたいところがあったらクリックしてみたいなことをするよっていうプログラムを書いて、それにAPIでコンピューターユーズモデルにつなげるとブラウザを操作できるんだっていうような感じです。
何言ってるかわかんないと思いますけど、それぐらい難しいよというか、使える人はちょっと使ってみてねって感じなんですよ、もう本当に。全然みんな使ってねって感じでもない。しかもこのAPI使用料金もかかるので、本当にエンジニアの好きな人がちょっと実験的に触ってみるっていう感じなんですけど、これを公開したってことはちょっと後にですね、それが何ヶ月後かわかんないですけど、これがしっかり使えるよモードが出てきます。
チャットGPTのエージェントモデルとかAIブラウザのコメットっていうやつでもAIがブラウザを触れますよっていう話をしたんですけど、どっちもですね、性能のAIの賢さにまだ課題があるよねっていうところとか、あとは実行速度とか、あとは実行できることできないことっていうのが、
まだいろいろ課題があります。具体的に言うとチャットGPTのエージェントモデルはそこそこ賢いんですけど、めっちゃ遅いっていうのとめっちゃできることに制限がある。この2つがネックですね。
AIブラウザコメットではですね、開いているブラウザをAIがいろいろ操作してくれるので、速度は問題ない。できることも結構広いんですけど、賢さが足りないというような感じですね。
これがこのジェミンの2.5という良いモデルを使って、プログラミングしたら何でも自由に使えるぐらいの柔軟さで提供されているということは、この速度と賢さと、あとは権限、この3つ全部解消してんじゃないかなと思っています。
これプログラミングしたらって言ってるんですけど、たぶんこのAI駆動開発でも結構ちょっと1つ2つ越えなきゃいけない山が大きいので、ちょっと今の状態では僕はこれを使って作ってなんかをしないぞとは思っています。
なんでかっていうとこれをじゃあちょっといろいろ試行錯誤して1週間が上げて使えるようになりましたって言って1ヶ月後にこれがこれもちゃんと使える奴がこう発表されたりしたら俺の1週間なんだったんだってなっちゃうのでまあそういう感じではい
であの冒頭で言った AI がブラウザを使えるようになったらどうなんだ
とんでもないことになると僕は思ってるんですけどなんかどんな皆さん想像しますかっていう話をしたんですけどなんかどういうことを想像しますか
いくつかですねこういうコンピュータユーズのモデルあとはチャット gpt のエージェントモデルとか のサンプルでもとかでよく出ているのは
週末にアメリカ行きたいから航空券調べて予約しといてみたいなタスクなんですけどこれって AI にブラウザを操作させてやるほどのことかっていう感じ
だと思いますで例えばですよ僕がこの AI にブラウザを賢い AI に丸投げできるんだとしたら
クラウドソーシングサイトにですねアカウントを作ってもらってえっと あなたがエージェントさんが確実に迅速にできるタスクっていうのを受注できるようにそういう
仕事を探してあの申し込むかこういうことができますよって看板を掲げてください って言います
そうするとまあいくつかの複数のサイトアカウントを作ってくれてで商品ね 看板並べておくか申し込んでくれてで自中が取れたらそれをその内容を理解して
えっと チャット gpt をブラウザから使用してもいいのであなたの方で ai を適切に活用してですね
あの成果物を作ってください 作ったやつを確認してください問題がなければえっとそれを添付して送ってください
みたいなことがですね 全部 ai に丸投げできるわけですよで
この ai が別に一人だけじゃない一人だけしか動かせないわけないんだから 5個10個並べるともう
ね5人のフリーランスがあの金を稼ぎに行ってくれてそれが10ゼロで10もらえる っていうわけわかんない状態になるなぁみたいなことが僕はパッと思いつくんです
けど もうぐしゃぐしゃになる感じしますよねはい上のそういう市場がはい
まあみたいなものの前触れが出ていますよっていうことで 何を伝えたいかというとこれすごいよこれ使ってねっていうよりも
あの 覚悟しといてっていうような感じですね
こういうのが 今
仮運用ぐらいのとこまで来ているので 遠からずそういうことが起こるよ
起こりますよということですでさらにもう一つ言うとですね 今回もその開発者だったら使えるよねっていう形式だと思うんですけど
これあの正式にリリースしたとしてもですよ みんなが使いやすい形になったとしても開発者だったらもっとできるっていう状態になる
と思ってるんですよ 普通に使うんだったら権限周りが弱いけど開発者だったらそこの
えっと リスクを取った上でこういうふうに実装したらめっちゃ権限任せられるよ
みたいなことにできると思っています 例えばチャット gpt のエージェントモデルは結構経験が厳しくてですね
AI駆動開発の可能性
要は危ないことをしないように例えば x とかもログインできないんですよね ちょっと gpt にもログインできないんじゃないかなそういうできないことが多いんです
けどエンジニアであれば自分で もう何でも作れちゃうので権限
フル権限を持ったように作れれば問題ないわけではいそういうことができると思う ので皆さん
ai 駆動開発今からでも遅くないですぜひやってみようよっていうようなことをお伝え したいなぁと思いました
はいこの放送は ai 駆動開発ラボと言ってですね ai 駆動開発 ai を使って何か
web サイトとか web アプリケーションとか スマホアプリとかゲームとかを作るぞっていう a 駆動開発をですね
非エンジニアの方プログラミング行ったことないよっていう方でもわかるように えっといろいろノウハウとか最新のニュースとかこういうふうにやるといいぜとかそう
いうことをお話ししていく放送ですねなんでこんなことをやっているかというとですね 僕自身がプログラミングにもうもうすっごいボコボコにされてきて挫折してたん
ですね プログラミング難しいんですよ普通に知らなきゃいけないことも多いし
であの人にお任せしてたんですよ人にお任せして僕はその サービスの設計とかデザインとかをやるんでプログラムだけお願いします
いうふうにやってたんですけど だいたい1年半前ぐらいですがもう2年か2023年末ぐらいからですね
エアー駆動開発という言葉がまだない時代からですねいろいろ ちゃんと gpt とかを駆使してアダクを出してってですね
まあようやく今年の春ぐらいに入ってあのもう何でも作れるようになったウェブでも ウェブサービスサイトウェブサービスモバイルアプリゲームなんでも濃いと何でも作れるぜっていう
状態になったのでですねあのまあこの2年前の僕が あのこれを聞いたらエアー駆動開発してみようって思う世界線に行けるように
あのプログラミング全くできなかったよっていう僕にもわかるようにわかるような 言い方でわかるような用語の
説明をしてはい発信していこうと思っています あのぜひですねあの中作りたいものがあるよという方
なんか作ってみたら楽しそうだなぁと思う方 服用とかしたいなぁと思っている方はですねぜひぜひこの放送発信聞いていただけると
ワークショップの開催
あの絶対にいいことだと僕は菓子確信しているのではい 良いことあると思っているんでよかったら今後もチェックしてください
はいえっとまた直近なんですけど10月の16日木曜日ですね夜7時半から google meet でですねオンラインのワークショップを行います
どういうワークショップかというと a 駆動開発を a
初めての人をやってみようよっていう0を1にしてみようよーというのことでですね google ai スタジオ っていう google さんが出している無料の
ヤバ紙 a 駆動開発サービスがあるんですけどまあそれを使ってですね 参加者さん皆さんがそれぞれのウェブサイトを作ってみようよというような企画を行います
はいでもオンラインでワークショップでえっといろいろ アカウントを作るところからですねあのサポートをできればと思っています
これのウェブサイトが作れるんだなぁ作れるようになるんだなだけではなくてですね 何だとこれを1回頭やったらですねめっちゃ簡単じゃんってね
多分思うんですよそうするとあなんだこういうのも作れるなぁとか こういう web アプリケーションを作れるなぁとかこういうゲームを作れるかもしれ
ねえなぁとか自分のサイトもっとおしゃれにできるなぁとか もう別にこれじゃあランサーズとかで仕事もらえんじゃんって
なると思ってますこれを受けたらはい あの
ぜひ興味ある方いらっしゃいましたらこれスタンド fm で聞かれている方は投稿から youtube から 聞かれている方は youtube のコミュニティから
まあその他の方法で聞かれている方 私は大森正吾と申します大森正吾というその本名でですね
x やってます x の固定のツイートのところにそのイベントの詳細ページを貼っております のでそこからぜひよかったら詳細見てよろしければぜひ
お申し込みしてくださいお待ちしております はいここまでご清聴いただきどうもありがとうございました
あの今回の放送がですねいいな面白かったな役に立ったなと思いましたぜひいいね とか高評価していただけると思われている以上の100倍僕嬉しいです
はいあ 何もない白い壁に向かって話してる話してるだけかと思ってたけどちゃんと聞いてくれ
てる人がいるんだって思えるのでぜひ良ければあの グーみたいなことしてくれると嬉しいですまたですねまぁ今回の話
ジェミニーのコンピュータユーズの話でもいいし 全く別のこと英語開発の話でもいいのであの何かわからないこととか聞きたいこと
ありましたらコメントいただければ何でも答えします はいということで改めてここまでご清聴いただきどうもありがとうございました
ai 駆動開発ラボ大盛りでした またね