1. 耳で学ぶAI、ロボシンク
  2. #98 【AI比較】Gemini 3 vs GP..
2025-11-26 19:27

#98 【AI比較】Gemini 3 vs GPT-5.1 vs Claude 4.5 Sonnet

✍️内容

Gemini 3のリリースに伴い、改めてGemini, ChatGPT, Claudeでタスクの比較を行いました。

後半では直近で発表されたGoogleのニュースについても触れます。

---

🎉Udemyクーポン

ChatGPT講座

Gemini講座

AI自動化講座

---

おすすめ生成AIツールの資料を配布中🎉

→資料を受け取る

---

月額500円でAIを学ぶnoteメンバーシップ開始しました🎊

→メンバーシップを確認

---

🎧番組紹介

「耳で学ぶAI」はChatGPTやGemini、Claudeなど生成AIを初心者・中級者向けに分かりやすく解説する番組です。

---

👨‍💻パーソナリティ: 矢野哲平

「AIを分かりやすく、楽しく」をコンセプトにポッドキャストやnoteでAI情報を発信。ツールも開発しています。株式会社root c代表取締役。⁠

note

---

📩番組の感想や要望はこちら

サマリー

このエピソードでは、AIモデルの比較としてGemini 3、GPT-5.1、Claude 4.5について詳しく解説しています。Gemini 3のリリースや評価、国内外での使用例に基づく性能比較について話し合い、各モデルの強みや特徴を掘り下げています。また、Gemini 3、GPT-5.1、Claude 4.5の比較を通じて、それぞれの文章作成や構成の精度、速度、処理能力について議論しています。特に、Geminiの進化とそれに対する評価の分かれる現状が取り上げられています。

AIモデルの紹介と比較
皆さんこんにちは、矢野哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けに、AIを分かりやすく解説する番組です。
今回のテーマは、Gemini 3 vs GPT-5.1 vs Claude 4.5 Sonnet について話していきます。
はい、ということで今日は、AIモデルの比較について話していきます。皆さん、普段はどのAIを使っていますでしょうか?
私はChatGPTを使っているよ、という人もいれば、私はGemini、私はClaude、という人もいると思います。
今日は改めて、現在のAI各社のモデルで比較をしたいと思います。
直近でGoogleからGemini 3という新しいモデルがリリースされたので、改めてAIモデルの比較を行おうと思った次第です。
今日話すポイントは主に3つです。
1つ目にGemini 3が公開されたニュース。
2つ目にGemini 3の海外を中心とした評価・レビュー。
そして3点目に、実際にGemini、ChatGPT、Claudeで比較をした感想を話していきたいと思います。
はい、では早速話していきましょう。
ちょうど先週、Geminiから新しいモデルが発表されました。
Gemini 3。
もともと年内に発表すると言っていたので、予定通りだと思います。
1つ前のモデルがGemini 2.5でしたが、バージョンが新しく3になったというわけです。
その他のAI各社を含めたモデルのリリーススケジュールで言うと、
先にアンソロピックのClaudeがClaude SONNET 4.5を発表しました。
その次にオープンAIがChatGPT、GPT 5.1を発表しました。
そして直近でGoogleからGemini 3が発表されたという流れになります。
ちょっとだけですね、細かい話をすると、
この収録、まさにこの収録をする3時間前ぐらいに、
実はClaudeからClaude OPAS 4.5という最新モデルが発表されました。
なので厳密に言うと、Claudeの最新モデルはClaude OPAS 4.5になります。
ただ今回はちょっと台本スケジュールの都合上、
Claude SONNET 4.5とGPT 5.1、そしてGemini 3で比較をしていきます。
Googleの公式サイトではGemini 3について次のような評価がされています。
ちょっと読みますね。
Gemini 3は推論能力において最先端のモデルです。
想像的なアイデアにある小さな手がかりも察知し、
ここは困難な問題が複雑に絡み合った要素を解きほぐす、
といった深みとニュアンスを理解するよう設計されています。
さらにユーザーのリクエストの背景にある文脈とあとは意図、
これらを把握する能力が飛躍的に向上したため、
短いプロンプトでも必要な結果を得ることができます。
このようにGoogleの公式では説明されています。
文脈や意図を理解する能力が飛躍的に向上したと、
人間の短いプロンプトでもAIがその文脈や意図を把握して、
ちゃんとした回答を生成してくれると、こういったモデルと説明されています。
この最新モデル、誰が使えるのかというと、
ありがたいことにこれ誰でも使えます。
有料ユーザーもちろん無料ユーザーも使うことができます。
なのでこのポッドキャストを聞いた後、
Geminiのサイトにアクセスをすれば誰でも使うことができます。
この誰でも使うことができるGemini 3のモデル、
海外の掲示板でも早速話題になっています。
海外の掲示板、いろいろなユーザーがGemini 3を試した感想を投稿し合っているんですけど、
評価が二極化しているのが興味深いなと思いました。
これどういうことかというと、
Gemini 3に依頼する人の属性によって評価が分かれているというものです。
例えば、Geminiをコーディングや研究などのタスクで使っている人、
こうした人はGemini 3大幅に性能が向上したと評価している人が多いです。
一方で、Geminiを日常会話や日常タスクに使っている人、
こうした人たちは期待していたほどではなかった、
片透かしをくらったと評価している人が多かったです。
こんな感じで、普段Geminiをどういったタスクで使用しているのか、
その内容によって評価が二極化しているという印象を受けました。
補足として、LM ArenaというAIモデルの比較サイト、
その結果をお伝えすると、テキスト生成のタスクにおいては、
Gemini 3、GPT 5.1、クロードソネット 4.5の順番でした。
ウェブ開発のタスク、プログラミングなどを伴うタスクでは、
Gemini 3、GPT 5.1、クロードソネット 4.5の順番でした。
あと、画像認識のタスク、人間が渡した画像をいかに精度良く認識するか、
このタスクにおいては、Gemini、Chat、GPT、クロードの順番でした。
この結果だけ聞くと、Gemini 3が圧倒的なように感じるんですけど、
実際はどうなんですかね。海外ユーザーも触れているように、
本当にタスクによって、この結果っていうのは変わるのかなと思います。
比較実験の結果と考察
例えば、テキスト生成と一口に言っても、いろいろなタスクがありますよね。
小説の作成、営業メールの下書き、文章構成、アイデアの壁打ち、
テキスト生成と一口に言っても、いろいろなタスクがあるわけです。
じゃあ、これらのタスクすべてにおいて、Gemini 3が良い結果をもたらしてくれるのかというと、
それはちょっと違うのかなと思ったりもします。
最近感じているのは、確かにモデルの得手増えてっていうのは存在します。
でも、もともとのモデルの性能が高くなってきているので、
このモデルは他のモデルに比べて全然使えないみたいな、精度がすごく落ちる、
そういったことはあまりなくなってきているような印象はあります。
今はGemini 3良いよね、みたいな話になっても、
次はクロード、チャットGPTが新しいモデルを投入してくると。
実際にクロードは、クロードオーパス4.5という新しいモデルをすぐに投入してきたので、
良い意味でのいたちごっこが続いているのかなと思ったりします。
あと最近の傾向として、一つのAIモデルを使うのではなくて、
複数のAIモデルを使うのが一番良いよねと、
そういった意見が多くなってきたように感じます。
私もこのモデルの併用っていうのは大賛成で、
例えば文章構成とか、プログラムを書く時とか、
複数モデルに出力をさせて良い結果の方を採用する、
そういったアプローチを取るようにしています。
今回いつものように、いくつかのタスクでAIモデルの比較を行ってみました。
具体的には次のようなタスクで比較を行いました。
情報の抽出、ウェブページの要約、YouTubeの要約、文章の作成、文章の構成、
そしてメタプロンプト、AI自身にプロンプトを作成させるというものです。
環境はGeminiもChatGPTもCloudも有料プランの環境で比較を行いました。
これから一つずつ簡潔に比較内容を話していきたいと思います。
まずは情報の抽出タスクを行いました。
具体的にはある企業のレポートを基に、
そのレポートに記載されている人物名を全て抽出してくださいというようなタスクです。
だいたいこれが約50ページあるPDF、そこそこのボリュームのものをアップロードして、
そのPDFから人物名を抽出するタスクを行いました。
先に結論を言うと、Geminiが一番精度が高かったです。
Gemini、ChatGPT、Cloudの順番でした。
Cloudに関して言うと、実はファイルサイズのエラーで読み込めなかったです。
タスク自体をスタートさせることができませんでした。
ChatGPTの方は精度は悪くなかったんですけど、
時間がかかりすぎるというデメリットがありました。
処理速度に関しては違いはものすごく顕著でした。
約50ページあるPDFから人物名を抽出するタスク。
ChatGPTの標準の試行モードで約6分、
あとはじっくり試行するモード、こちらで約14分かかりました。
ChatGPTって試行モードの深さを選べるんですよね。
標準の試行かじっくり長く試行するか。
それぞれのモードで50ページのPDFから情報を抽出するのに約6分、
もしくは14分かかったと。
一方でGeminiの時間ってどのぐらいだと思いますか。
Geminiは約45秒でこのタスクを完了しました。
しかもChatGPTと回答結果は同程度です。
ならGeminiの方が若干結果は良かったです。
回答の精度も注目すべき点なんですけど、
この回答速度の速さも見逃せない点だと思いました。
なんならGemini、ファイルをアップロードするまでの時間も
全AIの中で早かったです。
改めてお伝えすると、情報抽出タスクは
Gemini、ChatGPT、Cloudの順番でした。
次にウェブページの要約を行いました。
特定のURLを渡してこの内容を要約してくださいというタスクです。
結論言うと、このタスクにおいてはどのモデルも精度は良かったです。
もうコーツ付けがたいという感じでした。
だいたい2000文字程度のウェブページの要約をお願いしたんですけど、
このぐらいのサイズであればどのAIも変わらないなという印象でした。
次にYouTubeの要約を行いました。
特定のYouTubeのURLを渡してタイムスタンプ付きの要約を行ってくださいというものです。
動画の要約をして、その要約がどこで話されているのか、
動画の時間も一緒に教えてねというような内容です。
結論をお伝えすると、Gemini、ChatGPT、Cloudの順番でした。
というか、Gemini以外このタスクはまともに機能しませんでした。
CloudはYouTubeの要約できませんという回答でした。
ChatGPTもこのYouTubeの要約できませんと。
なので、その他のウェブの情報を参照して要約しますねという回答でした。
つまり、YouTubeの要約と見せかけて、
その他のウェブページから情報を引っ張ってきて要約を行ったというものです。
やっぱりここはGoogleならではなのかなと思いました。
YouTubeはGoogleが展開するサービスなので、
AIの文章作成比較
YouTubeの要約や処理に関してはGemini一択だと思います。
はい、では次は文章の作成を行いました。
具体的には営業メールの下書き作成となります。
これは主観的な判断にはなるんですけど、
どのAIも精度高くメールの文面を作成してくれました。
以前は文章作成はCloud強いと、そういった評価が多かったと思うんですけど、
日本語の営業メールの作成タスク、
するとCloudだけが精度が高いという感じも、今の現状なくなっている気がします。
一方で次に行った文章構成のタスク比較、
こちらでは若干結果が変わってきました。
結論をお伝えすると、Gemini、ChatGPT、Cloudの順番でした。
やっぱりCloudは他のモデルに比べて文章構成弱いですね。
少し前までは文章構成はChatGPTがやや上で、
Geminiがその下だと思っていたんですけど、
今回のモデルからちょっと評価が変わったように思います。
まずChatGPTなんですけど、
シンプルに文章構成のタスク完了までの回答速度が遅かったです。
文章構成の対象となるテキストが多いほど、この違いは顕著になると思います。
Geminiはとにかく早い。
そして精度もChatGPTと同程度、やや上と感じることが多いように思います。
そういったこともあって、文章構成の比較結果は、
Gemini、ChatGPT、Cloudの順番としました。
メタプロンプトの分析
最後にメタプロンプトの比較を行いました。
これは以前お便りでいただいていた内容となります。
メタプロンプト、つまりAI自身にプロンプトを作成させるタスクでは、
どのAIが精度が高いのかという比較となります。
元のプロンプトを用意して、
そのプロンプトに対して最小限の変更を行ってもらうパターンと、
大幅な変更を行ってもらうパターン、2つで試しました。
このメタプロンプトには、OpenAIが公開しているプロンプトを使いました。
ちょっと内容を紹介すると、ちょっと読みますね、プロンプトの内容。
プロンプトの最適化を依頼された際は、あなた自身の視点から回答してください。
具体的には、望ましい挙動をより確実に引き出し、望ましくない挙動を防ぐために、
どの特定のフレーズを追加、または削除すべきか説明してください。
そしてここで、対象のプロンプトを貼り付けて、この後にこう続けます。
このプロンプトで期待する挙動は、エージェントが○○することですが、実際には○○してしまいます。
元のプロンプトを可能な限り維持しつつ、これらの課題を一貫して改善するために、
どのような最小限の編集や追加を行いますか。こんな感じのプロンプトになります。
このメタプロンプトを試してみた結果は、端的に言うとそんなに差はないかなという印象でした。
補足すると、最小限の変更のタスク、こうした場合はGeminiがやや良いかなという感じです。
ただ、プロンプトの大幅な変更に関しては、ChatGPTが良いと感じました。
一応補足すると、今回試したプロンプトの改善のベースとなるプロンプトというのは、日常タスクのプロンプトになります。
なので、AIエージェント向けのプロンプトとか、あとはプログラミング関連のプロンプト、それらの改善、
そうした場合はまた結果は変わってくると思います。
Googleの最新情報
はい、以上6つのタスクで比較を行いました。色々比較実験しましたけど、
回答精度に関しては、それほど大きな差はないかなと感じました。
ただ、回答精度以外の部分、回答の速度であったり、容量の大きなファイルを扱えるかどうか、
こうした面から言うと、Geminiに軍配が上がるかなと思います。
これも、クロードコードやGemini CLI、Codex CLI、このようなコーディング系のツールで試すと、また違った結果になると思うんですけど、
ひとまず、普段私たちが使っているチャット画面、こちらからの操作で言うと、このような結果となりました。
はい、では最後にGoogle関連のニュースを少し話したいと思います。
先週、Gemini 3が出ましたけど、それ以外で色々なGoogle関連のニュースも発表されました。
ちょっとこちらもいくつか紹介したいと思います。
まず、Notebook LM、こちらにスライド生成機能が追加されました。
このNotebook LMというのは、Googleが提供するAIツールとなります。
ユーザーがアップロードしたソースに基づいて、様々な処理をすることができると、情報整理に活躍してくれるAIツールとなります。
このNotebook LM、元々ユーザーがアップロードしたソースに対して、色々な処理をすることができました。
例えば、会社の決算資料をアップロードして、そこからPodcast、AIポッドキャストを作ったり、レポートを作成したり、
あとは、AIのナレーション付きの動画を作成したりといった機能です。
今回、新しくここにスライドとインフォグラフィックを生成できる機能が追加されたというわけです。
このPodcastでもたびたび、生成AIを使ってスライドを作成するというテーマを取り扱ってきましたけど、
Notebook LMでも新しくスライドが作成できるようになったと。
これ実際に試してみたんですけど、若干内容が冗長かなと思うページもあるんですけど、
こちらは無料プランの方でも試すことができます。気になる方はぜひ試してみてください。
あとは、NanoBanana Proという従来の画像生成モデル、NanoBananaの上位版も発表されました。
こちらも無料ユーザー使うことができます。
有料プランと比べて生成枚数に制限はあるんですけど、無料プランの方でも使うことができると。
画像生成気になっている方はぜひ試してみてください。
使い方は簡単で、チャット画面の下にツールがありますよね、ツールボタン。
ツールボタンを押して画像作成を選択して、モデルを高速モードから至高モードに変更するだけでOKです。
これだけで手元の環境でNanoBanana Proを使うことができます。
NanoBanana Pro、特に日本語の文字入れ、こちらが大幅に強化されていると話題になっています。
あとはその他のニュースとして、AIコードエディターのアンチグラビティというものもGoogleから発表されました。
直近はGoogleからいろいろなことが発表されましたね。
ちょっとまとめると、Gemini 3の発表、Notebook LMの追加機能の発表、新しい画像生成モデルの発表、そして新しいコードエディターの発表。
直近はもうちょっとGoogleお祭りみたいな感じでしたね。
最近のGoogleは特に勢いを感じます。
はい、それでは今日のポイントをまとめます。
一つ目に、新しくGemini 3のモデルが公開されました。
こちらはGeminiの最新モデルで、無料ユーザーも利用することができます。
二つ目に、海外の掲示板ではこのGemini 3に対する評価が二分しています。
日常会話、日常タスクではあまり変わらないという評価が目立った一方で、コーディングや研究のタスクでは性能が上がったという評価が多かったです。
三つ目に、Gemini、ChatGPT Cloudで実際に比較をしてみました。
回答精度に関しては、モデル間でそこまで大きな違いは感じませんでした。
ただし、回答速度や処理の容量はGeminiが強いと感じました。
はい、今日はこの辺ということで、本日もお付き合いいただきありがとうございました。
ちょっと話変わるんですけど、私Udemyというベネッセが運営する学習プラットフォームでAI講座を公開しています。
今回クーポン発行しましたので、興味のある方はぜひチェックしてみてください。
概要欄にリンクを貼っておきます。
番組ではこのように耳で学べるAIを毎週発信しています。
通勤中や火事の合間にAI情報をキャッチアップできます。
毎週水曜朝に更新していますので、ぜひフォローお願いします。
お相手は、耳で学ぶAIの矢野てっぺいでした。
また次の配信でお会いしましょう。
19:27

コメント

スクロール