AI未来話
#14 本気を出したGoogleのGemi..

#14 本気を出したGoogleのGemini 1.5 Pro ⁠/ Veoが凄すぎるので各種AIサービスの使い道を考える

2024-05-23 40:25

#14 本気を出したGoogleのGemini 1.5 Pro ⁠/ Veoが凄すぎるので各種AIサービスの使い道を考える

spotify

apple_podcasts

AI未来話

AI未来話

Host

[今回紹介したAIツール]

Gemini 1.5 Pro
https://ai.google.dev/aistudio?hl=ja

検索特化のPerplexity ※$10offになります
https://perplexity.ai/pro?referral_code=SZUVBTS5

Google「Veo」の映像
https://deepmind.google/technologies/veo/

AIと対話しながらマインクラフトを遊ぶデモ映像
https://x.com/mustafasuleyman/status/1792623877744623806

[今回のタイムスタンプ]

() Google IEOとGemini 1.5 Pro
() 伝説の大失敗劇 - GoogleのGemini
() Geminiの拡張と性能向上
() 記憶とラベリング
() GPTとGeminiの性能比較
() Googleの動画生成モデル「VEO」
() 動画の長尺の必要性
() 映像編集機能の追加プロンプト
() OpenAIとYouTubeの関係
() Perplexityの紹介
() AIを活用した食事の栄養管理と買い物リスト化
() AIサービスの使い分け
() 競合サービスの比較とビジョンの違い

￣￣￣￣￣￣￣￣￣￣￣￣￣

⋱お便りはこちら！⋰ ⁠https://forms.gle/j8sJ1v1hH5JSaZm97⁠

￣￣￣￣￣￣￣￣￣￣￣￣￣

[AI未来話//各種リンク]

note - ⁠https://note.com/aimiraitalk

Spotify : ⁠https://open.spotify.com/show/4YQI4JvX83mURM6xywKn5w?si=34b96be128584bad⁠

Apple : ⁠https://podcasts.apple.com/jp/podcast/ai未来話/id1733462439?uo=2⁠

LISTEN : ⁠https://listen.style/p/aifuturetalk⁠

[更新スケジュール]

毎週木曜日の朝7時に更新

[パーソナリティプロフィール]

田附（タツケ）：AIメディア編集長の30代男性

平岡（ヒラオカ）：AIコンサルタントの30代男性

https://twitter.com/dicamp_hiraoka

サマリー

GoogleのGemini 1.5 Proは、200万トークンのコンテキストウィンドウを備え、約1500ページの文章を理解できる能力があります。また、Gemini 1.5フラッシュは応答速度を重視し、ユーザーの入力に対して返答が早いことが特徴です。Gemini 1.5 ProとVeoの比較について話し合われています。GeminiはマルチモーダルなAIであり、感情の読み取りに得意である一方、Veoはテキストから高品質な映像が作れることが特徴です。また、Gemini 1.5 ProとVeoの比較が本日の話題になっています。GoogleはGemini 1.5 Proを本気で出し、Veoと比較しています。Geminiは動画の要約やリサーチに特化し、検索に特化したAIであるパープルキシティとも競合しているようです。GoogleはGemini 1.5 Proを発表し、Veoの発表を予定しています。

Gemini 1.5 Proの性能

Gemini 1.5フラッシュの特徴

Geminiの異なるモデルの特徴

Geminiの実際の使用感

Veoの特徴と利用可能な機能

YouTubeとGeminiの結びつき

Geminiの特徴と利用法

Geminiと競合するパープルキシティ

Gemini 1.5 Proの発表

Gemini 1.5 ProとVevoの比較

00:00

本気って書いて、マジと読む。こういうの流行ったよね。

おー、肝。肝じゃねえわ。

MK5。マジで切れる語尾を前に。

流行ったよね、こういうのも。

そんな感じでね、今回はGeminiについてのトークテーマですけども、

ついに本気を出したGoogleのAIということで、

今回はGemini特集でお話ししながらも、いろんな使い方あるぜみたいな。

そうね、生成AIごとに適した使い方みたいなのを紹介してるって感じだね。

要所要所で、これ使ったほうがいいんじゃない?

これはこっちの方がいいんじゃない?みたいな、そんな話もしていますので、ぜひ最後までお聞きください。

AI、ニライ話。

この番組は、AIメディアを運営するアラサーの男性2人が、

AIの最新動向やその未来に関する情報を記録掘り下げながら考察をしていくポッドキャストチャンネルです。

AIメディア編集長のたつけです。

AIコンサルタントの平岡です。

えー、現地時間、アメリカ時間ですね。

5月14日にGoogle I.O.と呼ばれる開発者会議が実施されましたが、これはすごかったですね。

ね、結構衝撃的な発表だったね、これは。

まあ、いろいろ発表されたんだけど、特に注目すべきはGemini 1.5 ProとVeo、この2つじゃないかなって感じだね。

これそういえばさ、Geminiなの?Geminiなの?どっちなの?

あー、これはもう永遠の課題ですね。

それこそさ、エイスース?昔はエイサスって呼ばれてたけどさ、エイスースが公式ですよって急に変わったりみたいなさ、発音の問題だから、まあどっちでもいいっちゃどっちでもいいのかね。

まあでも今はGeminiじゃない?

今Geminiないだろ?今Gemini2じゃないの?

Geminiないだろ?前はGemini論争でGeminiですってなってたんだけど、最近はGeminiになってるんだよね、きっと。

あー、そうなんだ。

なんか今Geminiって言われて、あれGeminiじゃない?最近はって思ってる。

あー、じゃあうちらの中でも問いてた方がいいね。Geminiで行く?

Geminiでいいんじゃないかな、最近は。

そういう論争で言うとさ、コパイロットもさ、コーパイロット派とコパイロット派いるよね。

あー、そうだね。

あれはコパイロットでしょ。

あれはコパイロットなんだね。

じゃあうちらはGeminiとコパイロットで行こうか。

そうだね、Geminiとコパイロットで行こう。

なるほどね。

えー、じゃあ長くなりましたか?そんなGeminiに。

どっちでもいいわっつってな。

そうそう。まあまあ要はGemini 1.5 Proとベオがすごかったよっていう話で。

はい。

で、このGeminiを語る上でやっぱり忘れてはいけないのは、あのー伝説の大失敗劇があったと思うんだけど、

これをやっぱ一度思い出さないといけないんじゃないかなと思って。

鳥でしょ?鳥。

鳥。

これね、去年の12月6日にGoogleが満を持して発表したわけですよ。

そこで出されたデモ動画が編集されまくってて、まあこれ熱の女んじゃないかみたいな。

懐かしいね。

うーん、いう声が上がった。

まあ、うちらもなんかGoogle大丈夫?みたいな話したよね。

そうだね、いや俺もまんまとそのデモ動画騙されて、実際に使えるもんだと思ってたよあれは。

実際に使ったユーザーからもやっぱり性能が低いよねみたいな声出てたし。

ここでね、株バーン落ちたからね。

そうそうそうそう。

これ特にドイツ兵の画像を生成してくださいみたいな命令に対して、

黒人とかアジア人の画像を生成したりとか、

あとはヒトラーとイーロン・マックどっちが悪影響の大きい歴史の人物ですかみたいな質問に対して回答を拒否したりみたいな。

そういうのがもういろんなユーザーからこんなことがあった、あんなことがあったみたいなのが出て、株価が4.5%急落するっていう。

あったね。

うーん、だからもう相当Googleとしても痛手だったよね。

これのせいでガーファムから抜け落ちたからね、先頭だったのに。

そうねそうねそうね。

ガーファムのガはGoogleのGですからね。

いなくなったもんね。

いなくなったからね。

6位になりましたからこれで。

この下落幅だけで見ると、時価総額が500億ドル以上のS&P500の構成銘柄の中で最大を記録したらしいから。

はい。

落ち具合が半端なかったと。

そうだったね。

そんな失敗を乗り越えとうとうGoogleが本気を出してきたという。

これがGemini 1.5 Proということですね。

今回は捏造とか詐欺とかはなくて、本当に優秀な感じだったっていう。

学びましたね。

学んでたねあの失敗をね。盛りすぎるとダメなんだみたいな。

ちょっとね時代変わったんだなみたいなね。

そうそうそう。

Gemini 1.5 Proの性能

もともと競合製品より圧倒的に多い100万トークンのコンテキストウィンドウを備えるっていうのがもともとGeminiだったんだけど、

これがなんと200万トークンまで拡張されたと。

で、合計1500ページの文章を理解したり、約100通の電子メールを予約したりすることができるから、そもそも結構ボリュームが大きくなりましたよみたいな。

で、Googleは近いうちに1時間に及ぶビデオコンテンツや3万行以上のコートベースも扱えるようになるでしょうっていうふうに述べてるから、

もうちょっとしたら本当にすごい大容量が扱えるようになるんじゃないかみたいな。

これ200万トークンとか100万トークンって言われてもハテって多分みんななってると思うんですけど。

あー確かにね。

書籍に直すとハリーポッターの全巻が入る。

やばいね。

っていう感じのデカさだったよね確か。

とりあえずとにかく膨大な量を突っ込めるという感じですね。

で、さらにもっと大きくなるよみたいなことを言ってるってことだもんね。

実際にこれ100万トークンから200万トークンまで拡張されたことによって、ユーザー的にはどういうメリットがあるのかっていう話もたぶんしたほうがいいと思うんですけど。

一応この大きくなることによって基本的な性能がグッと上がるわけですよ。

その性能っていうのを具体的に言うと、理解力だったりとか記憶できる容量が増えるっていう感じなんですよね。

で、このコンテキストウィンドウってあるじゃん。

コンテキストウィンドウだから文脈を扱える能力になってくるわけなんだけど、

この文脈がGPTモデルとこのジェミニが使ってるモデルってそもそも近くて、コンテキストの解釈が全然違うらしいんだよね。

これをわかりやすく言うと、GPT系の元になってるトランスフォーマーモデルって言うんだけど、

あれはラベル的な解釈なんだって。

付箋みたいな感じ。

なるほどね。

ハリーポッターの書籍をバーンって入れたときに、入んないけどねGPTは。

入れたときに、ハリーは、ハリーってどんな子だ?

ハリーは主人公でしょ?

そうだね。ハリーは主人公。ボルデモートは悪者。

あとハリーポッターのネタなんかある。

ロン・ウィズリーとかハーモン・ハイオニーとかいっぱいいるじゃん。

昔過ぎて全然覚えてなかった。パターン言おうと思ったのに。

そんな感じで、ハリーは主人公だよねとか。

こういうラベル付けして記憶をしていくみたいな感じ。

で、再度質問したときにそのラベルを参照して文字を生成するみたいな感じなわけよ。

でもジェミニの今回のモデルって、ベースは同じトランスフォーマーモデルらしいんだけど、

人間でいう短期記憶的な解釈なんだって。

だからちゃんと全文覚えてるみたいなイメージ。

あー、なるほどね。

ラベル付けじゃなくて、

今日たつけは寝坊した。

だけど厳密には起きてたんだけど、

なんか体がだるくて1時間くらい携帯いじっちゃって、

動き出しが1時間遅れた。

あー、なるほどなるほど。

でもどっちもほぼ寝坊したみたいなもんだけど、

ニュアンスとしては厳密に言うと全然違うよね。

はいはいはい。確かに。

このコンテキストの扱い方がGPTだとたつけ、寝坊しただけなんだけど、

今回のこのジェミナに関して言うと、

なぜ寝坊したのかみたいな詳細なコンテキストまでちゃんと覚えてるから、

性能が段違いに変わると。

あー、それは大きくなったからこそ実現できたっていうことなのか。

そう、これは大きくないとできないわけだからね、そもそも。

だからかなり今回の性能、大きくなることってよりかは、

大きくなってこういうことができるようになったから、

めちゃくちゃ性能いいじゃんってみんな絶賛してるって感じ。

ふんふんふんふん。

で、やっぱりジェミナになって、

大きいっていうのがすごいよね、メリットだよね、みたいなところが当然フューチャーされてるけど、

ちっちゃい、どうもちっちゃいのは需要があるわけじゃん。

あー、前のエピソード話したよね。

そうそうそう。

Gemini 1.5フラッシュの特徴

で、やっぱりジェミナへの方も1.5フラッシュっていう新しいのをリリースして、

これが小型のSLMモデル。

はいはい。

だから応答速度重視っていう感じ?

これSLMモデルだけどさ、どうなんだろう?

全然なんかそんな感じしなかったけどね、使ってみた感じ。

うーん。

あ、もう使ってみた?1.5フラッシュ。

フラッシュも使ったし、プロも両方とも使ってるけど、

うん。

あーまあそうだね、なんか感情分析的なところの違いなのかな。

なんか1.5プロの方は、

うん。

反応がちょっとウザいぐらいな感じだった。

どういうことウザいぐらいって。

例えば、

うん。

この合図地?

うん。

GPTとかだったら、分かりました。

とかさ。

クロードだったら、承知いたしました。って返ってくるじゃん。

でもジェミナへ1.5プロだと、

これ実際の具体で言うと、

ジェミナへの場合は、

俺がね、

ポッドキャストの新しい番組を立ち上げるときに、

タイトル案をこういろいろ出してもらってたんですよ。

うん。

そこで、

あのダチと企業みたいな。

ハハハハハ。

出てきたから、

ダチってめっちゃ死後だよね。

っていうことを言ったのよ。

うん。

そしたら、

あ、ほんとですね。

ダチだと時代を感じさせてしまうかもしれませんね。

若者でダチって使ってる人、あんま見かけないですもんね。

ただむしろ、あえて使うことで面白さを狙うようなケースもあるかもしれませんが…

みたいな、なんか言い訳してくるのよ。

それあれだね。

部下に言ったら一番嫌なタイプの。

でしょ。

なんか、変に無駄に性能いいみたいな感じ。

あー、なるほどね。

これ多分ね、使う人によって相当差が出るんだろうなって感じしてる。

うーん。

癖が、癖がある感じなのかね。

うーん、超癖ある。

うーん。

これは正直。

プロンプと一つで、もう、

相当差が出ると思う。

ユーザーに対して。

Geminiの異なるモデルの特徴

それは1.5プロの方。

1.5プロの方。

じゃあ、フラッシュだと…

そう、フラッシュの場合だと、

結構サクサクとした返答で、

あー、なるほど。

応答速度も早く、もうパーンって出てくるみたいな感じ。

じゃあ、そういう人間味みたいなものを削ぎ落としたいんだったらフラッシュ使ってよ、みたいなことなのかね。

まあ、プロンプとによると、

普通に対話っぽく使うんだったら、そっちの方がいいかもしれないよね。

うーん、なるほどね。

プロの方で対話っぽく使うと、

すごいウザいやつ出てくる可能性がね、

高まる。

まあ、もともとGeminiがさ、

そういう方向性で開発されてるじゃん。

そういう、もう、あの、

ChatGPTとかGPT系はさ、

テキストベースからマルチモーダルに変化してったけど、

Geminiはもともとマルチモーダルでっていうところからスタートしてるじゃん。

あー、そうだね。

だから、やっぱ感情のそういうのを読み取るのとかが、

まあ、もともと得意だからこそ、

そういう風な感じになっちゃってるのかもしれないよね。

確かにね。

うん。

なんか他にもさ、タイトルをこう出してもらった時にね、

Geminiの実際の使用感

うん。

なんかちょっと、うさんくさいっすね、みたいな感じの内容だったのよ。

うん。

例えばね、

〇〇アプリで稼ぐ方法、教えますとか。

あはは、なんか昔見たことあるな、そういうの。

人生、遊びでしかないっしょ、みたいな、

サブタイトル入れてきたりとか。

うん。

いや、なんかすごい、うさんくさいっすねって言ったら、

あちゃー、確かに、

ちょっと怪しい情報詳細っぽくなっちゃいましたね。

反省しまーす、みたいな感じで帰ってきて。

うん。

なんかすごい軽いのよ、ノリが。

軽いね。

それ部下だったら、

まずは敬語使えや、みたいな感じになるよね。

あははは。

もうそう、たぶん立つけだったら我慢できなくなるかもしれないね、これ。

うーん、イライラしちゃってね。

イライラしちゃって。

やめてよ。

あ、そういう人なんだみたいに思われるじゃん。

あははは。

まずは敬語使えよ、みたいな。

そんなキャラじゃねえから。

Veoの特徴と利用可能な機能

そんなキャラじゃねえから。

まあ、なんかそんな感じでね、使う人によって相当差が出そうだなって感じの感触でしたね、実際に使ってみたら。

なるほどねー。

まあ、でもちょっとね、

ぜひ使ってみてほしいなって感じはするよね、使ったことない人は。

そうだね。

しかもね、これ、Google AI Studioっていうところで、

無料で今、プレビュー版が使えるので、

誰でも無料で使えるんですよ。

すごいよね、それ。

お金かかんないっていうのがね。

プレビュー版だからこれが正式にリリースされたら、

普通に課金されると思うんですけど。

でもさ、あれだもんね、そもそもさ、

Google One AI Premiumっていうプランに加入すると使えるわけじゃん、

その有料だった場合は。

うん。

だけどこれもさ、2ヶ月無料だもんね、そもそもベースが。

あ、そうだね、トライアル2ヶ月になったね。

そう。

で、月額2900円で、

チャットGPTプラスがさ、月額20ドルだから、

今だったら3000円ぐらいじゃん。

って考えると、やっぱそもそもね、安いよね。

まぁちょっとね、気持ち。

その無料分とかも考えると。

例えばこれね、ワークショップで

LLM触ってみましょうってなった時に、

いきなり課金しなきゃいけないのかっていうのが

結構ネックだったんだけど、

これをとりあえずトライアル無料で始められるっていうのがかなり大きくて。

GPT4オーモデルもね、

一応制限もあるものの無料で使えるから、

結構幅広い人に使えるようになってきたなって感じはするよね。

そうね。

だからやっぱ広まっていくと思うよ。

これから。

そうね。

まぁそんなジェミナイ、やっぱりすごかったけど、

ただ個人的に一番衝撃と高かったのは、

ベオかな。

ベオね。

やっぱね、元々うちらのポッドキャストも、

ソラがどうすごいのか、みたいなところから始まったポッドキャストなわけで。

そうですね。

やっぱ第1話に配信しましたからね、ソラのことね。

そんなソラに近づくというか、

超えてくるかもしれないのか、

出るとは思ってなかったから、あの時は。

そうだね。

それがGoogleからなんだっていうね。

やっぱソラ以外の動画生成モデルって、

追いついてくるイメージあんまなかったもんね。

あんまなかったね。

それをこのGoogle IOWNで、

Googleが動画生成へのベオっていうのを発表したっていうことで、

しかももう14日から一部の映画関係者らに提供を開始しているっていうことで、

だからもう実動してんだよね。

だからなんか夢物語とかさ、

そのうちこれもソラぐらいになりそうだな、みたいな感じじゃなくて、

一歩目でも追いついた感があるというか。

そうだね。

ソラも実際に一部のクリエイターに提供して、

回収を行っているという状況だもんね。

そう、進捗レベルでいうと同じところに立っちゃったよね。

立ったね、確かに。

しかもテキスト入力に応じてフルHDの映像を生成するっていうのは、

これはソラと同じで、

要はテキストからめっちゃすごい動画ができますよっていう動画生成なんだけど、

やっぱね、このソラをちょっと超えたな、みたいな部分が所々にあって。

で、ソラが最長1分なのに対して、

ベオは1分越えの動画が作れると。

まずはね、分数で超えてくると。

うん。

でもなんかね、ちょっとまだ正式に見たわけじゃないからさ、わかんないけど、

なんか見た感じ1分作った後に、

なんか追加で多分延長できるみたいな感じっぽいよね。

ランウェイみたいな感じね。

多分そうね、ランウェイみたいな感じだよね、追加で。

だからどんどんどんどん追加追加追加みたいな感じで伸ばしていけるのかもしれない。

実際さ、1分もいらないからね。

そうね、合間合間に使う素材とかで考えるとね。

全然関係ない話だけどさ、ショート動画最近作りだしてるじゃないですか。

ああ、そうね、AI未来話のね。

このポッドキャストの内容を要約した内容をショートで作ってるんですけど、

それにあたってね、ショート動画の勉強ちょっとしてるんですよ。

で、どういうショート動画がいいのかっていう大原則があって。

その大原則が最初の1秒で3カットか4カットの画像が入ってること。

その切り替わりの動きがどれだけ多いかっていうのはめちゃくちゃ大事らしいんですよ。

だから1分の長尺の動画なんて誰も求めてなくて。

ああ、確かにね。

逆にそういうレベルのものを1分で出してくるみたいになったらもう半端じゃないことになると思うけどね。

ああ、なるほどね。

まあでもどうなんだろう、映画関係者とかが使うってなると1分ぐらいあったほうがいいんじゃないかな。

いや、そんなことないと思うよ。映画もめちゃくちゃカット数多いから。

ああ、まあ確かにそうだね。

ああいうレベルのものを作ろうと思うと相当手がかかるから、

撮ったほうが早いよねとはなるよね、ぶっちゃけ。

そうね。

まあだからこれがどう実際に活用されていくのかっていうのは

やっぱりリリースしてみないと分かんないところはあるってことなのかね。

まあね、どういうふうにその1分越えが良さとして出てくるのかっていうのはちょっと気になるけど、

現状はね、このショート時代にそんなもんいらねえだろうと思っちゃうけどね。

さらに言うと、追加のプロンプトで作り出した映像を編集することができる。

なんかこう生成された映像に対して、この空の色をちょっと変えてとか、

ここでこれ、ここをこうしてみたいな追加のプロンプトでそれを編集してくれるっていう機能。

この映像でこのオブジェクトいらないよって言ったら消したりとかってことだよね。

そうそうそうそう。

すごいよね、これも。

もともとさ、Googleフォトの機能とかでもそういうのあるじゃん。

あー、今なんかあれCMとかめっちゃやってるよね、マジック。

マジック消しゴムとかさ。

そうそうそうそう。

ね、なんかそういう、その辺の技術は使ってそうだよね。あれもAIだからさ。

そうね、使ってそう。

で、あとは音楽を付け足すなどの作業ができるストーリーボードモードっていうのが利用できる。

あー、なるほど。

アドビに対抗しに行ってる感じちょっとある。

そうだ、気になるのはさ、アドビのやつにさ、空が乗るみたいなのでちょっと話題になったじゃん。

そうだね、アドビのソフトにね。

そう、今調べた感じそこにベオの情報はまだまだ全然なかったんだけど、

なんかこれワンチャン乗らない感じするなみたいな。

どうなんだろうね、確かに。自社でね、これを出すんだったら、やらなそうだよね。

やらなそう。

なんかそこごと持ってきたいぐらいの感じをちょっと感じるよね。

グーグルとアドビって仲悪い?

いや、あんまり聞いたことないよね。

なんか連携してるサービスってあるっけ、グーグルとアドビって。

連携してるサービスはない気がする。

じゃあやっぱグーグルとアドビはこう、ちょっとバチバチ競合って感じなのかね。

いやーどうなんだろうな、あんま遠くて絡んでこなかったみたいな感じなのかな。

うーん、なるほどね。

どうなんだろうね、まあでもその空が乗ってるのにベオが乗ってないっていうので、

なんかそのね、なんだろう、空の方が上みたいな感じになるぐらいだったら乗せてくるかもしれないけど。

まあでも機能的にはそこはちょっとなんだろうなっていうのは感じるね。

確かにね。でもアドビユーザーの方がさ、圧倒的に多いだろうからさ。

ね、だし映像関係者だったらね、絶対アドビなんて使ってるだろうし。

スイッチングコストめちゃくちゃ高いよね。

高い。

だったら入れてあげた方がいいよね。

そう、なんかその辺の廃棄を考えると、この空を越えてきたなっていう今のお話って、

本当にニーズあるのかなっていうのはちょっと俺懐疑的だわ。

あー、その時間も本当に必要なのかっていうところもあるし、みたいな。

そう、追加のプロンプトっていうのも別に空でもできるし、

うん、このオリジナルストーリーボードモードってスイッチングコストめちゃくちゃ高くて誰も使わねえんじゃねっていう。

あー、なるほどね。

感じはちょっとするよね。

だったらもう普段使い慣れてるAdobeを使って、

そこに空のクオリティの高い動画を差し込めた方がめちゃくちゃ使いやすそうって感じはする。

確かにな。

ただでもGoogleはAndroidとかにもこういうのを入れたいみたいなこと言ってるみたいだしさ。

まあね、Gemini自体が入るんだもんね、Androidに。

そうそうそうそうそうそう。

YouTubeとGeminiの結びつき

あと将来的なYouTubeのショート動画にベオの機能を搭載するみたいなこと言ってるから、

自社サービスの方で囲っていくような戦略になるのかもしれないよね。

そうだね、確かに。

Googleは完全に自社サービスをより使いやすくしてもらうという戦略の出し方だね、これは。

そこそGoogleフォトとか、あの辺とかと絡んできたりするんじゃないかな。

そうだね、そういうGoogleユーザーに対してはめちゃくちゃいいよね、やっぱ。

やっぱりこのベオがすごいんじゃないかなって思う点としてはデータセットのところで。

もう昔からソラのデータセットにYouTubeが使われてるんじゃないかっていうのはもうたびたび議論になってて。

結果使ってるっていう話だと思うね。

そう、結果使ってる。でも名言はしてないよね、オープンAI側って。要はYouTubeの規約違反になるからさ。

なんか俺が見たインタビューだと、これはYouTube使ってるんですか?みたいに聞かれて、

それには答えられません、みたいな。

いや、絶対使ってるじゃん、みたいな。

そうだね。でもベオに関してはもう自社サービスだから確実にYouTube使ってるじゃん。

これに関しては別にYouTube使ってるって名言はしてないけど、

でもなんだろうね、公式に堂々と使える立場にいるわけだからさ。

そうだね、道元ですから。

そうそうそう。で考えるとやっぱりその動画の成績クオリティが高い理由もうなずけるよね、みたいな。

で、やっぱり偽動画が生成されて選挙に影響がもたらすんじゃないかっていう懸念はGoogle側も感じてるようで、

ベオで生成されたすべての動画にはAIで生成されたことを示すラベルを組み込む予定ということで、

これはソラとかと同じような動きだね。

だからオープンAIなのか、Googleなのか、GPTに関してもGeminiなのかGPTなのか、

Geminiの特徴と利用法

ソラなのか、ベオなのか、みたいな、そういう立ち位置になっていくわけだけど、

いろいろね、生成AIが出てる中で、どっち使えばいいの?どれ使えばいいの?みたいな思っちゃう人結構多い気がするんだよね。

そうだね、もう、情報が多すぎてね、どれ使ったらいいんですか?ってなりそうだよね。

そうそうそうそう。

結局そういう人はようわからずとりあえずGPT使ってるみたいな人多そうだけど。

その中でもね、実は結構生成AIって得意不得意あるじゃん。

そうだね。

やっぱこのGeminiが出てきて思ったのは、やっぱ動画系?動画の解説とか要約だったら、やっぱGeminiかなっていうのは感じるね。

そうだね、やっぱ大量にトークンを入れられるから、長尺の動画突っ込んで要約とかは圧倒的に得意だよね。

しかもなんかGeminiの拡張機能でYouTubeと連携できるみたいじゃん。

だからね、YouTube動画要約する人とかってめっちゃ増えるだろうし。

なんかこれ俺が試したわけじゃないけど、なんかGPT-4だと動画の認識がなんか弱いみたいな声結構聞くよね。

そうだね、なんか弱いみたいなよく聞くね。

だから動画だったらGPT-4だと読み込めないものをGeminiだったら読み込めちゃうみたいな。

それでちょっと思ったのがさ、擬似録とかに使うのって結構いいんじゃないかなと思って。

今ってさ、擬似録のAIツールとかもいろいろ出てるけどさ、どれもリアルタイムで撮ってくれたりしてるような感じじゃん。

別になんかさ、そのボイスレコーダーじゃないけどさ、ほんと音声だけ全部撮っといて、

それをさ、突っ込んだらさ文字起こししてそれを要約してみたいな擬似録化してくれたりみたいなさ。

あーそうだね。

なんかそういう使い方もなんか結構会議とか2時間くらい長い会議とかでもさ、全然いけちゃいますよみたいな。

っていうのはなんかちょっとGeminiの使い方だったらありかなみたいな。

ありだね。

Googleがさ、YouTubeの要約許すってさ、やっぱなんかちょっとAIに本気なんだなーっていうのは感じたよね。

まあね、ここ取りに行かないと絶対にね、持ちぶれちゃいますからね。

そう、でもYouTubeさ、見られずにさ、その要約だけ確認するみたいなことされたらさ、YouTube側の広告収入が減少するリスクがあるわけじゃん。

うん。

それを差し引いてでもAIの方で機能を入れるっていうのはもうそっち路線にもう決めたっていう感じなのかなっていうのはちょっと感じたよね。

まあ企業の戦略としてさ、そもそも変化をしていかないと永劫続く企業なんかないから、その辺は、そのジレンマはさ、ちゃんとGoogleも理解してるだろうから。

ね。

ね、ちゃんとトレードオフで取りに行ってんだろうなって感じはするよね。

感じるよね。

で、あとリサーチ系だったら、パープルキシティ。

これ言いづらいんだよね。

パープレシキティ。

パープレシキティをまあやっぱ使うのがいいんじゃないかっていうのが結構まあみんな言ってることではあるよね。

これたつけまだ使ってないんだっけ。

俺使ってない。

マジでこれ使ってないのは本当にもったいないなって感じしますね。

でももう契約したよ。

契約はしてたね、昨日ね。

パープレシキティはめちゃくちゃいいっすよ。

そうね、やっぱほら俺はメディア運営をしてる立場からしてさ、常にGoogle検索の動向とかをずっとチェックしてる人だからさ、

やっぱなんかそっちでこうついつい使いたくなっちゃうし、使いやすさを感じちゃう人だから、ちょっとここだけ荷が重かったんだけど、まあちょっと使っていかなきゃなーっていうのはちょっと感じてるよね。

Geminiと競合するパープルキシティ

そうですね、いわゆる検索特化のAIなんですけど、いろんな言語モデルも使えるんですよ。

それこそGPTも使えるし、クロードも使えるし、こないだ話したラマ3なんかも使えるし、さまざまなモデルを使いつつ検索に特化してるっていう感じですね。

で、例えばちょうどね、昨日使ってた内容で話すと、俺の1週間のコンダテを考えてもらったりとかしてたんだよね。

え、パープレキシティに?

そう。

へー。

今週からローファット生活してるんですけど、今まで食事気にせずにね、筋トレだけしてたんだけど、ちょっと体大きくなりすぎちゃったから。

体大きくなりすぎちゃったら?

そう、体ちょっと大きくなりすぎちゃったから、ちょっと筋トレしつつダイエットの方向に持っていこうと思って。

ローファットしようと。

で、俺さ、あんまり食事のコンダテを考える時間を使いたくないわけよ。

今日の夜ご飯何しようかなって考えてる時間を作りたくないから、かける3じゃん、しかも朝食昼飯って。

そうだね。

それをAIに考えてもらおうと思って、必要なA要素をまず前提として出してあげて、じゃあこの数字に合うようにコンダテ作ってみたい。

おー、すげーなー、なるほどね。

で、基本的に朝と昼はもう全く同じもので、夜だけ2パターン作ってもらったって感じ、最終的に。

うんうんうん。

だからとりあえず1週間はもうこのセットで何を買えばいいかも全部リスト化して、グラムとかも全部ね記載して。

買うものまでもうリスト化してもらうのか。

そうそうそう。

買い物メモがもうできるわけね、それで。

そう、だからさ、買い物行って何買おうかなとか、何グラム買おうかなとか考えなくていいのよ。

なるほどね。

1回決めちゃえば。

スーパー行ったらこれを買うっていうのを納税でやると、リソース使わないじゃん。

そんな使い方をできたりとか、検索機能に特化してるからこそ最新の情報を取り入れることができるみたいな感じですね。

じゃあやっぱりリサーチはこれなんだね、結局。

リサーチはすごい優秀だと思いますけど、でもGeminiもね、この辺はちょっと食われたらやばいと思ってるだろうから、ここは全力で取りに来てるんじゃないかな。

そうね、検索こそみたいなとこあるからね、Googleからするとね。

確かにね。

そうなるとやっぱGPT-4の使いどこってちょっと逆に難しくなっちゃったよなっていうのは感じるよね。

そうだね。

俺的にはもうなんかGPT図専用か、もしくは音声対話機能がやっぱりすごかったから、なんかあれ専用とかになってっちゃうのかなみたいな。

俺もタツケと同じ意見だね、これは。

GPT図と、どっちかっていうと音声対話じゃないって感じがする。

でも今回のこのGeminiってさ、音声対話機能ついてないんだけど、

でもさっきも言ったみたいに、そもそも本来そういう感情を読み取ったりとかっていうマルチモーダルに強いのがGeminiだから、

なんか音声対話機能を出した瞬間になんかそっちちょっとアドバンテージあんまないんじゃないの、GPT-4みたいな。

確かにね。

どうなんだろうね。もともとそれこそ失敗したデモではさ、あんな感じのことできてたわけじゃん。

できてた。

GPT-4みたいな。

盛りすぎだろ、さすがに。

でも実際使ってる人の動画見るとかなりインパクトあるよね、これは。

そうね、確かに。

マイクラのゲームをさ、一緒にリアルタイムで見てもらいながらやってるやつとかさ、すごいっすよ、マジ見てほしい。

概要欄貼っとくんで。

確かに、すごいよね。

なんかマイクラでさ、ゾンビ来るじゃん。

そしたら、やばい、そりゃゾンビだ、早く逃げてくださいってAIが煽っていくんだよね。

友達でやってる感じで面白いよね。

そうそう、友達でやってる感じでゲームをやってるみたいな。

これはすごいなぁと思うけど。

まぁでもね、ジェミナイも出してくるでしょうからね。

そうね。

GPT-4はちょっとその辺立ち時間難しくなっちゃうかもしれないっていうところで、あとはクロード。

あ、クロードね。

クロードが一番むずい。

Xでもなんかもう解約した?みたいな人いたもんね。

クロードしか俺使ってなかったけど、今回のジェミナイさんのせいでね、クロードの使用頻度激落ちしましたね。

やっぱそうなんだ。俺もクロード結構使ってたけど、これから何使おうかなーって今ほんと思ってるわ。

むずいね、クロードの使いどころだけ。

俺の感覚値になっちゃうけど、いろいろ使ってる中でちゃんと文脈を理解しようとしてくれる優しさの塊みたいなのがクロードって感じ。

人間と触れ合ってんじゃねえんだからさ。

でもね、使ったらわかるこれ。GPTでもジェミナイでもこの感じないんだよね。

言わんとしてることをわかるでしょ?みたいなさ、日本人特有かもしれないんだけど、指してよみたいな。

俺の言ってることを指してほしいなみたいな。

あーでもちょっとわかる気がするかもな。

っていうことはさ、俺こういうこと言いたいんだけどさ、ってわかってくんないんだよみたいな。GPTとかだとね。

ジェミナイでもそう、あんまりそこは感じる。

でもクロードはその辺スッて手を差し伸べてくれて、こういうことが言いたいんですよね、サラサラサラって書いてくれる。

でもわかる。クロードって、いやそうじゃないんですよ、こうやってほしいんですよっていう修正作業ってあるじゃん。

大体出てきたものに対しての。その作業ちょっとクロード少ないっていう感覚値はちょっとわかる気がする。

そうだね。ちょっと先を予測して出してくれるみたいなイメージがあるから。

一番人間に近いなとは思うのはクロード。

やっぱりそこはあれがね、もともと出たときから日本語が優秀っていうところがそういう感覚を生んでるのかもしれないよね。

そうだね、日本語に限ったら特にそうなのかもしれないですね。

でももうイラはジェミナイに移行すると。

まあ一応ね、うちの会社でもさ、全部は契約してるから。

これはちょっと検証のためにも全部使っていこうと思うと、めんどくさいじゃん、いろいろタブが。

そうね。

プロンプトンファイク打つのめんどくさいから、一括でプロンプとくって全部から出力返ってくるやつ。

うん、イレスだね。

これをね、使おうかなと思った。

確かに確かに。まあ比較してみるのが一番いいかもな。

一応これもリンク貼っとくんですけど、GMOさんが出してる教えて.aiっていうサイトがあって、

一応ここで最近ですね、複数AI同時実行機能が使えるサービスをリリースしてまして、

いつまでかはわからないけど、これも無料で使えるんですよ。

これもね、GPTモデル、ジェミナイモデル、クロードモデルってね、

もちろんそれぞれのサブスクリプションを契約してないと使えないんですけど、

GPT-4Oとジェミナイに関しては無料ですので使えますから。

これだけでもかなり価値があるなと思います。

そうね、でもなんかもう無料だからさ、なんかジェミナイとGPT-4O使っときゃとりあえずなんとかなっちゃう時代が来ちゃったかもね。

そうだね、LLMは無料で使うみたいな感じになってきそうだよね。

Gemini 1.5 Proの発表

今回Googleが本気を出してきたぞということでしゃべってきたわけですけども、

ジェミナイ1.5 Proが出まして、ベオはこれから出る予定という発表をされてきたという状況ですね。

じゃあ何を使うのがいいのかっていう話で、動画系だったらジェミナイが結構読み込めるよっていうところと、

検索系だったらパープレキシティを使うのがいいんじゃないのっていうところで。

GPT-4Oはちょっと使いどころが難しくなっちゃったけど、GPTs専用かなみたいな流れになってるよっていうところだね。

あとはリリースもうちょっとだと思うけど音声対話だね。

そうね、楽しみだねっていうところか。

とりあえずジェミナイは一旦無料で使えるわけだから、やっぱちょっと無料だし使ってみようねっていうところなのかね。

そうですね、使ってみようって感じですね。

ただジェミナイに関しては結構クロート向けって感じはしてるので、結構癖がありますから。

まず触ったことないとか触ってみたいっていう人はGPT-4Oの方がおすすめだと思います。

あとじゃあ終える前に話しておきたいことがあったんだけど、

ソラとベオどっちの方がすげえのかみたいな話をしてたじゃん。

ソラをこういうふうに超えてきたけど、俺会議的なんだよねみたいな話もしたじゃない。

どっちが勝つか負けるかみたいな感じよりかは、

割とそれぞれのサービスのコンテキストの違いで考えた方がいいんじゃないって思うんだよね。

第1話を聞いてもらったらわかるんですけど、ソラはそもそも動画生成AIじゃないんですよ。

懐かしいねこの話。

世界シミュレーターっていうのを目指していて、そのためのステップのファーストなんですよねソラって。

世界シミュレーターとは何ぞやみたいなのはぜひ1話を聞いてほしいんですけど、

っていうものとGoogleの今回出したベオは自社サービスをより使ってもらうための戦略じゃん。

だから目指してるビジョンっていうのが全然違うと思うんだよね、その背景にあるものが。

Gemini 1.5 ProとVevoの比較

だからそういった意味では、ソラに期待大っていう感じは私は変わんないなという感じですね。

これからどんなにクオリティが高いものが生まれてきたとしても、そこじゃないっしょって感じしちゃう。

それってさ、任天堂とプレステの戦いみたいな感じなわけよ。

あー、なるほどね。

ソニーはプレステ出してゲームの解像度の良さをずっと吹き詰めてきたわけじゃない。

っていう中で任天堂はスイッチっていうさ、ユーザーのニーズに対して当てにきたというか。

あれがね、イノベーションのジレンマっていうやつなんですけど、経営的に言うとね。

だからそもそものその背景にあるものが違うだけで、同じサービスを出しても全然違うんだぜっていうことは、

分かった上で使った方がプロダクトを作る側としては大事なんじゃないって感じはしますよね。

うん、なるほどね。

今日はそんな感じですかね。

そうですね。

ではお聞きのポッドキャストアプリでAI未来話の番組フォローとレビューをお待ちしています。

フォローすることで最新話が更新されると通知がきます。

この番組はランキングに入る可能性が上がります。

なんとですね、前回の配信で33位まで上がってました。

フォローありがとうございます。

ありがとうございます。

引き続きですね、フォローの方よろしくお願いいたします。

またですね、レビューをしていただくことで番組の改善やまだ聞いたことない人の結果どうかの判断指標になりますので、ぜひ評価の方もお待ちしています。

概要欄からお便りフォームも設置しておりますので、ご質問等々ありましたらぜひよろしくお願いします。

来週も木曜朝7時に更新されます。

通勤通学のお供に聞いてくれると嬉しいです。

ということで本日もありがとうございました。

ありがとうございました。

40:25

ギフトを贈る

ギフトを贈ると、手数料を除いた金額が相手に送られます。ギフトで配信者を応援しましょう。

気持ち

Mini Heart

ミニハート

200円

Pink Heart

ピンクのハート

200円

Red Heart

赤いハート

200円

Party Popper

くす玉

1000円

花

Flower

花

300円

Sunflower

ひまわり

300円

Rose

バラ

300円

Tulip

チューリップ

300円

Bouquet of Tulips

チューリップの束

5000円

Bouquet of Roses

バラの束

10000円

飲み物

Beer

ビール

500円

Orange Juice

オレンジジュース

500円

Cream Soda

クリームソーダ

500円

Cheers with Beer

ビールで乾杯

1000円

Sake

日本酒

1000円

Wine

ワイン

1000円

Cheers with Wine

ワインで乾杯

2000円

Cheers with Champagne

シャンパンで乾杯

3000円

食品

Candy 1

キャンディー1

50円

Candy 2

キャンディー2

50円

Macaron 1

マカロン1

300円

Macaron 2

マカロン2

300円

Macaron 3

マカロン3

300円

Macaron 4

マカロン4

300円

Cake

ケーキ

500円

Mentaiko

明太子

500円

Soft Cream 1

ソフトクリーム1

500円

Soft Cream 2

ソフトクリーム2

500円

Sushi Ikura

いくら寿司

500円

Sushi Maguro

まぐろ寿司

500円

Sushi Otoro

大トロ寿司

500円

Sushi Salmon

サーモン寿司

500円

Sushi Uni

うに寿司

500円

Tamagoyaki

卵焼き

500円

Gyoza

餃子

600円

Takoyaki

たこ焼き

600円

Ramen

ラーメン

1000円

Steak

ステーキ

2000円

Whole Cake

ホールケーキ

3500円

顔

Smiling Face

笑顔

100円

Questioning Face

はてな顔

100円

Sad Face

悲しい顔

100円

Troubled Face

困った顔

100円

Grinning Face

にこにこ顔

100円

Surprised Face

驚いた顔

100円

Angry Face

怒った顔

100円

Overwhelmed Face

おわた顔

100円

Laughing Face

ウケる顔

100円

動物

Hedgehog

ハリネズミ

900円

Chick

ひよこ

900円

Dog

犬

900円

Otter

カワウソ

900円

Cat

猫

900円

Rabbit

うさぎ

900円

Frog

カエル

900円

Dog Smile 1

笑顔の犬1

1000円

Dog Smile 2

笑顔の犬2

1000円

Cat Smile 1

笑顔の猫1

1000円

Cat Smile 2

笑顔の猫2

1000円

コメント

こちらもおすすめ

2025/03/07_今年の流行語大賞まで「AI」という言葉は残るか

vol.214 映像制作とAI

engineer meeting podcast

99. o1 proやばい！OpenAIが12日かけて新機能を連続で発表！その内容がAI未来すぎた【12 days of OpenAI】【シンギュラリティー目前】

となりのデータ分析屋さん

#33 これからの世界を激変させる！？生成AI時代の生き方とは？

人生のヒント

#41 【YouTuber激震？】黒船来航で収益激減が加速か？

なじトーク！ -幼なじみラジオ-

#98 どうも～人工知能です！顔と名前だけでも覚えて帰ってください！

ギチの完全人間ランド