最新AIモデルの発表と概要
皆さんこんにちは、矢野 哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けに、AIを分かりやすく解説する番組です。
今回のテーマは、Gemini 3.1 Pro vs Claude Sonnet 4.6 vs GPT-5.2 について話していきます。
はい、ということで今日は、AIモデルの比較について話していきます。 先週、Googleと、あとはアンソロピックから、新しいAIモデルが発表されました。
こちらは試してみましたでしょうか。 今回のエピソードでは、先週新しく発表されたAIモデルのニュース、
あとは、実際に私がこれらのAIモデルでタスクの比較実験をしてみた、 その結果というのを共有したいと思います。
具体的には、Gemini、Claude、そして、ChatGPTの現時点の最新モデルで比較をしました。
今回のエピソードを聞くことで、現時点のAI各社が出しているAIモデルの情報をキャッチアップできると思います。
今日話すポイントは主に3つです。 1つ目に、新しくリリースされたGoogleのGemini 3.1Proについて、
2つ目に、同じく新しくリリースされたAnthropicのClaude Sonnet 4.6について、
そして3点目、これらのAIモデルを実際のタスクで比較した検証結果について話していきます。
はい、では早速話していきましょう。 まず直近何が起きたのかということをちょっと一旦整理したいと思います。
先週、GoogleとAnthropicから新しいモデルがリリースされました。 GoogleはGemini 3.1 Pro
AnthropicはClaude Sonnet 4.6というモデルになります。 先週1週間の間に2社が新しいモデルを発表したので、ちょっと界隈がざわつきました。
ちなみに嬉しいことに、この新しく発表されたモデル、無料プランの人も使うことができます。
なので、今このポッドキャストを聞いているリスナーの皆さんも、ポッドキャストを聞いた後にGeminiやClaudeのチャット画面を開くと、この新しいモデルを試すことができます。
各AIモデルの最新状況とランキング
一旦現時点のAI各社のモデルを整理したいと思います。 まずOpenAI、ChatGPTのOpenAIではGPT 5.2というモデルが一番最新のモデルとなります。
厳密に言うと、GPT 5.3 Codexというプログラミングに特化したモデルを2月にリリースしているんですけど、一般的なチャットで利用できるモデルで言うとGPT 5.2となります。
次にGoogle。Googleは先週Gemini 3.1 Proというモデルを発表しました。
Chatbot ArenaというAIの比較ランキングサイトがあるんですけど、このランキングの情報ではChatGPTやClaudeを押さえてGemini 3.1 Proが1位に輝いています。
Gemini 3.1 Proが1位で、その次にClaude Opus 4.6。これはアンソロビックの最上位モデルとなります。
そして3位にGemini 3 Pro。1位と3位はGoogleが占めているわけです。
Google公式の説明によると、ChatGPTやClaudeの最上位モデルに比べてコストが半分で済むと説明されています。
同じような高性能なモデルを半分の値段で使えるというような説明がされています。
ちなみにここで言うコストというのは、プログラムからこれらのAIモデルを操作した時の料金を指します。
次がアンソロビック。アンソロビックも同じく先週、Claude SONNET 4.6というモデルをリリースしました。
このClaude SONNET 4.6では100万トークンまで対応します。つまり、より長い会話や大量のテキストを処理することが可能になったと。
Claudeの開発元であるアンソロビックについて補足すると、アンソロビックは3つのモデルを保有しています。
大きな順番で、オーパス、ソネット、ハイクという3つのモデルです。
で、これら3つのモデルをどんどんバージョンアップをしていっている、そういった経緯があります。
つまり、今回発表されたClaude SONNET 4.6というのは、ちょうど中間のモデルとなります。
Claudeが開発しているClaude SONNET、それが4.5から今回4.6にバージョンアップされましたよという話になります。
ちなみに今回、GEMINI 3.1 PRO、これもリリースされましたけど、GEMINIもバージョンが3から3.1に上がっています。
AIモデル比較実験のタスクと結果
ちょっとバージョンを細かく刻んでいるような感じとなります。一旦情報整理します。
現時点の各社の最新モデルは、CHAT GPTはGPT 5.2、GEMINIはGEMINI 3.1PRO、ClaudeはClaude SONNET 4.6となります。
私、これらのモデルを複数のタスクで比較してみました。 厳密にはサイズの違いなどもあるので、同じような条件にはならないと思うんですけど、
この3つのモデルってほぼほぼコストは同じなんですよね。 このコストというのは、プログラムからこのモデルを操作した場合のAPIの価格となります。
直近でリリースされたモデルということもあって、このCHAT GPT、GEMINI、CLAUDE 3つのモデルで比較をしてみました。
具体的にどういったタスクで比較をしたかというと、 ニュース記事から私の興味に沿ったニュース記事をピックアップするタスク、
ニュース記事を要約するタスク、 誤字・雑字を修正するタスク、そしてスライドを作成するタスク。
これら4つのタスクで行いました。 世の中ってこういった比較のタスク、いろいろなベンチマークがあるんですけど、
実際に私が業務でAIを使っているタスクで比較をしてみました。 では早速、比較結果を話していきたいと思います。
まずは、ニュース記事から私の興味に沿ったニュース記事をピックアップするタスク。 具体的には、私自身の興味の度合い、
そういった情報をAIに渡して、私が興味を示すであろうニュース記事を AIにピックアップしてもらう、そういったタスクとなります。
情報収集の場面において、AIに情報の取捨選択をしてもらう、 そういった場面で活躍してくれます。
これ結論言うと、GPT 5.2が一番精度が高かったです。 そしてジェミニ・クロードは同じスコアでした。
ただこの精度の違いっていうのは、各AIモデルでものすごく離れているわけではなくて、 誤差の範囲かなというような感想です。
AIに自分の興味を伝えて、そしてAIに情報の取捨選択をしてもらう、 そういったタスクではあまり差はないかなというのが正直な感想です。
はい、では次のタスク。次は要約のタスクとなります。 海外の英語のニュース記事を日本語の要約にまとめるというものです。
この評価、ちょっと主観的な評価になるんですけど、元の英語記事を私が読み込んで、 そこで書かれていることがうまく抽出されてわかりやすい要約に仕上げられているか、
そういった観点で評価をしました。 評価回数は各AIごとに10回要約を作らせて、その仕上がりというのを複数確認しました。
結論言うと、ジェミニ、クロード、チャットGPTの順番でした。 ジェミニとクロードに関しては結構近差かなと。
ただ、チャットGPTのGPT高点に、これは要約に集中をしすぎて、 全体像がわかりづらくなっているような印象を受けました。
はい、英語記事の要約タスクはジェミニ、クロード、チャットGPTの順番でした。 次は、誤字脱字の修正タスクを行いました。
今回行ったタスクというのは、誤字脱字を検知するだけではなくて、 テキストを正しい状態に書き直すような、そういったタスクも含めました。
これ結論を言うと、チャットGPT、クロード、ジェミニの順番でした。 どのモデルも誤字脱字は検知するんですけど、
ジェミニとクロードに関しては、書き直しの段階で関係ない場所も勝手に書き換えてしまうと、 そういった現象が確認されました。
例えば、もともと本文では2026年と書いていたのに、 修正後の段階で勝手に2026年を2024年に書き換えてしまうみたいな、
誤字脱字以外の正しい文章まで勝手に書き換えてしまう、 そういったミスが多かったのが、一番ジェミニが多かったです。
これ、毎回ミスをするというわけではないんですけど、 合計その各10回タスクを繰り返すと、場合によってはそういったことがクロードとジェミニでは確認されたと。
チャットGPTでも確認はされたんですけど、最もそういったミスは低かったです。 誤字脱字の修正タスク、これはチャットGPT、クロード、ジェミニの順番でした。
はい、そして最後はスライド作成のタスクを行いました。 具体的にはウェブスライドという形で、ウェブ上で閲覧可能なスライドを作成しました。
HTML、CSS、JavaScript、これらのコードを書いてもらうというようなタスクです。 なのでイメージ的にはウェブサイトの制作、そういったタスクに近いイメージとなります。
これ結果はクロード、ジェミニ、チャットGPTの順番でした。 やはり改めてクロードがデザイン系のタスクが強いかなという印象です。
クロードがデザイン系のタスクに強いっていうことは以前から言われていることなので、ここら辺はあまりサプライズはなかったかなという印象です。
はい、以上4つのタスクで比較をしました。 改めて情報整理すると、ニュース記事から人間の興味に沿ったニュースタイトルをピックアップするタスク。
これはGPT 5.2が一番精度が高かったです。 英語のニュース記事を要約するタスク、これはジェミニかクロードが精度が高かったです。
比較結果の考察とAIの使い分け
誤字雑字を検知して文章を正しい状態へ書き直しをしてもらうタスク、 これはチャットGPTが精度が高かったです。
スライド作成のタスクに関しては、これはクロードが一番精度が高かったです。 改めてこう見てみると結構結果はばらっけましたね。
あのこのポッドキャストでもたびたびお伝えしているんですけど、 やっぱりAIは複数使いがお勧めかなと改めて思いました。
海外のモデルの比較のランキングとか分析結果 そういったものを見ても評価をばらけているような印象です。
例えばアーティフィシャルアナリシスというサイトあるんですけど、 これはジェミニ3.1プロを次のように評価をしています。
ちょっと読みますね。 ジェミニ3.1プロプレビューはオープンAIとアンソロピックの最先端モデルの半分以下のコストで動かすことができます。
10個の評価項目のうち6項目でトップに立っていますと。 でここまでがジェミニ3.1プロの良い評価なんですけど、その後このように続きます。
実世界のタスクに焦点を当てたベンチマークでは以前と同様にトップのスコアではありません。
クロードソネット4.6やクロードオーパス4.6、GPT 5.2には依然として及ばない状況ですと。
なので良いベンチマークの結果もあればそうでもないベンチマークの結果もあったと。
AIモデル比較ツールの紹介とリスナーからの質問
で私も実際に4つのタスクで比較をしましたけど同じような印象を受けました。 やっぱり全てのタスクにおいて他のAIを上回るような唯一無二のAIモデル
そういったものは現状ないのかなと。 各AIモデルがそれぞれのタスクで得意不得意なものを持っていると。
なのであのなおさらAIは複数使った方が良さそうですね。 現段階では。
最後にこういったAIモデルの比較評価についてのアプローチについて少し説明をしたいと思います。
今回複数のAIモデルでタスクの比較を行いましたけどこれは手動でチャット画面に入力をして比較したわけではありません。
クロードコードというプログラミングに特化したAIエージェントのツールを使って比較をしました。
これ簡単に言うとAIとプログラムを組み合わせて比較作業を効率化したというアプローチです。
世の中にプロンプトやAIモデルを比較できるツールたくさんあります。 ここで何が言いたいのかというとそういった比較ツールの選択肢の中に
クロードコードやCodex CLI、Gemini CLIのようなコーディングのAIエージェントのツールを使ってみるのも面白いですよという話になります。
ここはまた機会があれば話したいと思うんですけど、もし手動でチャット画面に入力をしてテストを行っている場合
結構作業が大変になってきます。 こういった大変な作業をAIエージェントとプログラムを組み合わせて
AIにモデルの比較作業を行ってもらう、そういった使い方もできます。 はい、それでは今日のポイントをまとめます。
1つ目に先週GoogleからGemini 3.1 Pro、アンソロピークからはクロードソネット 4.6という新しいモデルが発表されました。
2つ目にAIモデルの比較ランキングサイト、チャットボットアリーナではGemini 3.1 Proが1位に輝いています。
そして最後3点目、実際に私も複数のタスクで比較を行いました。 結果としては特定のモデルが最も優秀な成績を上げる
そういったわけではありませんでした。 タスクによってAIの順位は変わると思います。
なので特定のAIモデルに絞るのではなく、タスクに応じてAIモデルを使い分ける、そういった戦略が現時点もお勧めだと思いました。
改めて最後に、こういったAIの使い分けがお勧めですよというのをお伝えします。
AIに情報の選別をさせたい時、これはChatGPTがお勧めです。 要約のタスク、これはGeminiかクロードがお勧めです。
そして文章の構成をしたい時、これはChatGPTがお勧めです。 スライドやウェブサイトの成果物を作りたい時、これはクロードがお勧めです。
はい今日はこの辺ということで本日もお付き合いいただきありがとうございました。 今週はお便りをいただいています。ありがとうございます。
ちょっと読みますね。ラジオネームやきそば大臣さん。 いつも役立つ広派な内容の解説をありがとうございます。
質問です。最近クロードがあまりに有用で、プロの上位のマックスを検討しています。
もうバイブコーディングが漢字変換と同じくらいになっているため、かなり焦っています。 ただ月額200ドルという値段にまだ日寄っています。
他のAIでも上位プランがありますが、ぜひそれぞれの上位プランを使うと、どういう人生になるのか教えていただけませんでしょうか。
Claude Maxプランの検討と番組案内
ぜひ私の背中を押してください。お便りありがとうございました。 ちょっと内容整理すると、現在クロードの上位のマックスプラン
200ドルに課金しようかどうか悩んでいると。200ドルというと現在のレートで3万円ぐらいですかね。月3万円。
チャットGPTやジェミニ、クロードで手軽な月額プランはあるんですけど、だいたいこれが3000円ぐらいなので約10倍すると。
迷う気持ちも分かります。で私実はクロードのマックスプランを契約しています。 なので焼きそば大臣さんの背中を押せる話ができるかなと思います。
ちょっとここ深掘りしたいと思います。 まず私チャットGPTとジェミニの上位プランには加入していません。
えっと現在はクロードだけになります。で私からの提案なんですけど、クロードってマックスプラン2つあるんですよね。
月額200ドルのプランと月額100ドルのプラン。 つまり3万円と1.5万円のプランがあります。
まずはこの1.5万円のプランで試してみてはいかがでしょうかと思った次第です。
この月額100ドルのプランでも結構プログラミングをしても枠が余ると思います。 なのでまず100ドルのプランで試してみてその利用枠に収まるかどうかっていうのを試して
みるのもいいと思います。 それでも100ドルのプランでも利用枠が足りなかったら次に200ドルを検討すると。
焼きそば大臣さん感じているようにクロードいいですよね。 私も現時点において一番使っているツールはクロードになります。
プログラミングのタスクにも使えますし、それこそ今回エピソードで話した AI モデルの比較のタスクなんかにも使えます。
また先で改めてクロードとクロードコードについて掘り下げて話す回を設けてもいいかもしれないですね。
いかがだったでしょうか。背中を押すことはできましたでしょうか。 お便りありがとうございました。
番組ではこのように耳で学べる AI を毎週発信しています。 通勤中や家事の合間に AI 情報キャッチアップできます。
毎週水曜朝に更新していますのでぜひフォローをお願いします。 そしておすすめの生成 AI ツールをまとめた資料も配布しています。
興味のある方はこちらもぜひ概要欄にリンクを貼っておきます。 お相手は耳で学ぶ AI の矢野鉄平でした。また次の配信でお会いしましょう。