1. 耳で学ぶAI、ロボシンク
  2. #71 新モデルClaude 4が登場!..
2025-05-28 25:42

#71 新モデルClaude 4が登場!ChatGPTとGeminiとどう違う?

✍️内容

Anthropicから新しく公開されたClaude 4 Opus, Claude 4 Sonnetについて話します。

ChatGPTやGemini、Claude 4を比較した実験のレポートについても紹介します。

あとは最近実験しているVS Code上で構築するAIエージェントについても触れました。

---

Udemyの割引クーポンを配布🎊

ChatGPT講座

Gemini講座

AI自動化講座(ノーコード)

---

おすすめ生成AIツールの資料を配布中🎉

→資料を受け取る

---

🔗リンク

Claude

Todoist

note: Claude 4のニュース

---

🎧番組紹介

「耳で学ぶAI」はChatGPTやGemini、Claudeなど生成AIを初心者・中級者向けに分かりやすく解説する番組です。

---

👨‍💻パーソナリティ: 矢野哲平

「AIを分かりやすく、楽しく」をコンセプトにポッドキャストやnoteでAI情報を発信。株式会社root c代表取締役。福岡出身。

note

X: 矢野哲平

---

📩番組の感想や要望はこちら

サマリー

新しいAIモデルのClaude 4が登場し、ChatGPTやGeminiとの違いについて議論されています。特にClaude 4オーパスは複雑なタスクを持続的にこなす能力があり、楽天での成功例も紹介されています。新モデルのClaude 4が登場し、ChatGPTやGeminiとの比較が行われています。特に、エージェント的な振る舞いや文章構成などのタスクにおいて、各モデルの性能が詳細に分析されています。新しいモデルのClaude 4が登場し、特にClaude 4オーパスとClaude 4ソネットの特徴が説明されています。ChatGPTやGeminiと比較しながら、AIツールの利用に関する実験結果や学びが共有されています。

Claude 4の特徴
皆さんこんにちは、矢野 哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けにAIを分かりやすく解説する番組です。
今回のテーマは、新モデルClaude 4が登場、ChatGPTとGeminiとどう違う、について話していきます。
はい、ということで今日はClaude 4について話していきます。 皆さん、Claude 4は使ってみましたでしょうか?
このClaude 4というのは、先週リリースされたAnthropicの新しいモデルとなります。 今までAnthropicではClaude 3.7というものが利用されていました。
今回新しく3.7から4にアップグレードしたというわけです。 今日はこのClaudeの最新モデルClaude 4について話そうと思います。
今日話すポイントは主に3つです。 1つ目に、今回リリースされたClaude 4のニュースについて話します。
そして2つ目に、Claude 4と他のAIモデルの比較について話していきます。 具体的には、Claude、ChatGPT、Geminiの比較について話していきます。
そして最後3点目に、エージェント的なタスクの実行環境について話していきます。 おそらくこのポッドキャストを聞いている方はですね
ChatGPTを使っている人多いと思います。 ただ今回リリースされたClaude 4というのは無料プランでも利用できます。
つまりですね、このポッドキャストを聞いた後、誰でも試すことができるんですね。 なのでこのClaude 4、興味がある方はぜひ最後までお付き合いください。
はい、では早速話していきましょう。 ちょうど先週ですね、アンソロピックから新しくClaude 4 OpusとClaude 4 Sonnetという2つのモデルがリリースされました。
でこれ、OpusとSonnetというワードが出てきたので、ちょっと一旦整理しますね。 でそもそも論なんですけど、まずこのClaudeというAIモデル
これはアンソロピックという会社が公開しているモデルとなります。 ちなみにこのアンソロピックという会社CEOはですね、元オープンAIの上級メンバーだった方となります。
でそのアンソロピックが公開しているAIモデルがClaudeということで、このClaudeには3つのモデルがあります。
上から順にオーパス、ソネット、そして俳句ですね。 オーパスが最上位モデルで、俳句が軽量モデルというわけです。
オーパス、ソネット、俳句の順番です。 この俳句っていうのは名前の通り日本の俳句から名前を取ってきているそうです。
話を戻すと、今回公開されたのが最上位モデルのClaude4オーパスと、あとは真ん中のモデルClaude4ソネットというわけです。
ちょっと公式があの説明しているオーパスとソネットの内容を引用しますね。 Claude4オーパスは複雑で長時間実行されるタスクやエージェントワークフローにおいて
持続的なパフォーマンスを発揮する世界最高峰のコーディングモデルです。 一方で、Claude4ソネットは
Claude3.7ソネットの大幅なアップグレードであり、優れたコーディングと推論機能を提供しながら、ユーザーの指示への応答性をさらに向上させます。
つまりですね、以前のClaude3.7シリーズよりもアップグレードしているモデルと、そして優れたコーディング性能や推論能力を発揮するというモデルになります。
この興味深いのがですね、そのオーパスの説明で、複雑で長時間実行されるタスクやエージェントワークフローにおいて持続的なパフォーマンスを発揮するというような点です。
つまりですね、自律的にAIが考えて動作をするAIエージェント、それに寄せてきている点っていうのが非常に興味深いですね。
で、これアンソロピックがあの面白い実験をしていて、Claude4オーパスにポケモンをプレイさせてみたらしいんですよね。
あのゲームのポケモンです。で、このClaude4オーパスではポケモンを24時間続けてプレイをさせて、で同時に攻略ガイドを作成させる
みたいなタスクを成功させたそうなんですね。これすごくないですか?
AIがですね、自律的に24時間ぶっ続けでポケモンをプレイしたと、自分で考えながらどんどん攻略をしていくわけですね。
で、その攻略をしていく中で同時並行で攻略ガイドも作成していくと。で、そういったタスクを成功させたというわけですね。
ちなみにですね、以前の連続プレイ時間の最高が45分ぐらいが限界だったらしいんですよね。
それもそれですごいんですけど、でも新しいこのClaude4オーパスでは24時間連続プレイをマークしたと。
ここでリスナーの方の中にはこう思う人もいるかもしれません。 AIにポケモンをプレイさせて、それがどう業務に生かせるんだいと。
こう思う方もですね、いるかもしれません。 ただですね、これって結構他のことにも通じるんですね。
例えばあの楽天ありますよね。日本の企業である楽天。 その楽天の事例というのもアンソロピックで紹介されていました。
具体的には楽天ではそのClaude4オーパス、この最上位モデルを使って7時間の自律的なコーディングに成功したと、というように説明されていました。
これもすごいですよね。AIが自律的に7時間連続でぶっ続けてコーディングをしていくと。
ちょっとイメージしてみてください。朝起きて会社の準備をして自宅を出ますよね。 自宅を出発する前にAIにですね、例えばこんな感じで指示ができます。
今日のタスクを確認して優先順位に並び替えててとか。 あと午後からオンラインのミーティングを入れるから関係者に通知とあとはリンクを発行しておいてとか。
あとメールの受信箱をチェックして返信のドラフトを作成しておいてと。 後で私が目を通すからと。
このような指示をしておいて自宅を出ます。 そして会社に到着する頃にはAIが自律的にこのタスクを完了してくれていると。
そういった仕事ができるようになるっていうのはちょっとそう遠くないのかなと。 今回このポケモンのプレイであったり、あとは楽天の7時間連続コーディング
そういった話を聞いて思いました。 ちなみに冒頭でも少し触れましたけど、このクロード4っていうのは無料プランでも試すことができます。
AIモデルの比較
具体的に言うとクロード4ソネットが無料プランで試せます。 ちょうど真ん中のモデルですね。クロード4ソネットが無料プランでも試せると。
最上位プランのクロード4オーパス、これに関しては有料プランからの利用ということです。
クロードのチャット画面にアクセスをするだけで、誰でもこのクロード4というのを試すことができます。
ちょっとまだクロードを試したことがない方は、ぜひこの機会に触ってみてください。 概要欄にリンクを貼っておきます。
はい、ではクロード4のニュースはここまでにして、次にクロード4と他のAIとの比較についてレポートしたいと思います。
私の方でクロードとChatGPTとGeminiを複数のタスクで比較をしてみました。
具体的には各AIの現時点での最上位モデルで比較の実験を行いました。
アンソロピックのクロード4オーパス、オープンAIのO3、そしてGeminiの2.5 Proですね。
これらのモデルを使って比較した内容というのをこれから話していきたいと思います。
一番最初に行ったのがまずメール作成の比較を行いました。 具体的には私が運営するこのポッドキャスト、このポッドキャストの番組宛てに
広告代理店の方が営業メールを送信してくるというシチュエーションでメールを作成させてみました。
結構ですね、広告掲載の営業メール届くんですよね。 ポッドキャストに音声広告導入しませんかみたいな。
そういった営業メールというのを各AIに作成をさせて、どのAIが作成した営業メールが私に響いたのかっていう。
完全に私の主観なんですけど、各AIモデルにメールの下書きを作成してもらいました。 先に結論言うとですね、クロード4オーパスが一番良かったです。
でその次にジェミニ2.5プロ、そしてチャットGPTのO3という順番でした。 1位はですね、ある程度予想していました。
多分クロードが一番精度が良いだろうなと。 メール作成や文書の作成っていうのは、これまでもですね
クロードが結構強いと言われていたからです。 ただ2位がですね、ジェミニっていうのは意外でした。
他のメールの内容だったら順位は変わってくるかもしれないんですけど、 ちょっとこれは意外な結果でしたね。
じゃあチャットGPTのO3が何が良くなかったのかっていうと、 メールの下書きを作成してというふうに指示をしているのに、そのメールの本文の中に
見出しを入れてきたりしたんですね。 このテキストの中に見出しを入れるっていうのは、どちらかというとこのブログ記事であったり
ドキュメントのようなテキストを想定していますよね。 メールで見出しってあまり使わないと思うんですよね。
マークダウンの見出しのようなもの。そうしたものをO3は入れてきたと。 でこれGPT 4.1とかGPT 4.0だったらまた違った結果になると思うんですけど
ちょっとO3に関してはこの比較実験の中で言うとですね、 あまり精度は良くなかったかなと感じました。
で、あとジェミニでいいなと思った点はですね、 メールの文面の精度が良いっていうのもそうなんですけど、こういった文面を入れると
モデルの比較と文章構成
相手に好印象を与えることができるよっていうような提案をいろいろしてくれたんですね。 この動きっていうのはクロードもO3もなかった動きだったので
あの逆にですね、こうした提案ありがたいなというふうに思いました。 メールの作成に関してはクロード4オーパス
ジェミニ2.5プロ、そしてチャットGPTのO3という順番でした。 はい、では次の比較に行きましょう。次はですね、文章構成を行いました。
文章から誤字、脱字などを発見するタスクですね。 この文章構成っていうのは結構幅広い業種で共通するタスクだと思います。
現状のモデルでどのモデルが文章構成に強いのかっていうのはチェックしておくことを お勧めします。
先に結論を言うと、O3とジェミニ2.5プロの精度が良かったです。 逆にですね、クロード4オーパスは文章構成のタスクは精度は良くありませんでした。
同率1位がO3とジェミニ、そして再開がクロード4オーパスという結果に終わりました。 これもですね意外な結果でした。
クロードって文章作成は強いけど、文章構成はあまり強くないんだという結果は意外でした。
ちなみに文章構成の精度を高めたいときはですね、ちょっと手間はかかるんですけど、
ChatGPTとあとはジェミニ、組み合わせて使ってみるのもいいかなと思いました。 はい、では次の比較に行きます。次はコーディングの比較を行いました。
コーディングっていろいろなプログラミング言語とか、あとはいろんなタスクがあるので、一概にはちょっと比較できない部分もあるんですけど、
私がテストした感じでは、ジェミニ2.5プロ、クロード4オーパス、そしてO3という順番になりました。
正直ここはですね、各AIモデル、こう落ち着けがたいなという感じはありました。 ただ、ジェミニ2.5プロ、これが一番エラーが起きにくいなというような感じはありました。
はい、では最後の比較に行きます。最後はエージェント的な振る舞いでどのモデルが使いやすいかというものです。
つまり、自律的に考えて動作するようなタスク、そういったものではどのモデルが一番精度が良かったのかという比較です。
これ実験環境はコードエディターのVS Codeというもので実験をしました。 このVS Codeですね、エージェントモードっていうのがあって、
AIにエージェント的な振る舞いをさせることができるんですよね。 具体的にはファイルを作成したり、ブラウザーを開いたり、
外部のツールに連携したり、そういった使い方ができます。 これは以前ポッドキャストでも話したMCPというものを使っています。
モデルコンテキストプロトコルですね。 簡単に言うと、AIに道具を持たせると。
AIがファイルを作成したり、別のツール、例えばNotionとかGoogleドライブ、 Googleのスプレッドシートとか、そういったツールに接続ができるような環境を整えてあげると。
そうした環境を整えてあげて、各モデルにエージェント的な振る舞いをしてもらいました。 これはですね、モデルの関係上クロードフォーソネットと
Gemini 2.5 ProとGPT 4.1で比較を行いました。 結論言うとですね、これはクロードフォーが良かったですね。
アンソロピックも説明していましたよね。 長時間実行されるタスクや複雑なタスクに強いと。
で、これはですね、ちょっとその通りだと思いました。 具体的にはチャットGPTやGeminiが詰まってしまう場面、ストップしてしまうような場面でも
クロードフォーはタスクを遂行してくれました。 私Todoistっていうアプリを使っているんですけど、結構使っている人も多いと思うんですけど
Todoを管理できるアプリですね。 でこのTodoistをMCPで連携をして、つまりAIとTodoistを連携して
タスクを実行するみたいな環境を作ってるんですよ。 AIに今日私のタスク、登録しているタスクの中でAというタスクと
Bというタスク、これを処理してというような指示をするとですね、 結構チャットGPTやGeminiでは途中詰まってしまうんですね。
特に実行するタスクっていうのが複数になってくると、 その頻度っていうのは結構多くなってきます。
例えばですね、こちらが処理をお願いしているタスクが3つあるのに、 1つタスクを処理し終えると何かもう満足してストップしちゃうみたいな
処理が終わっちゃうみたいな挙動は結構遭遇するんですね。 毎回そういうことが起きるわけではないんですけど、チャットGPTやGeminiだと
そういったことも遭遇することがあったと。 ただ、クロード4に変えるとそういったタスクの途中で止まってしまうみたいなことはですね
明らかに減ったと実感しています。 あのまあなのでポケモンを24時間プレイしたようにですね
結構長時間依頼されたタスクっていうのを自分で自律的に実行する 遂行力って言ったらいいんですかね。
そうしたものはクロード4は強いかなと感じました。 はいということでエージェント的な振る舞いはクロード4に軍配が上がりましたよというお話でした。
AIの成長と今後の展望
ここまでいろいろなケースで比較をしてみましたけど総括するとそうですね クロード4は確かに高性能なAIモデルだと思いました
なんて言っても現状あるモデルで一番の最新モデルですからね ただ途中で説明したようにあらゆるタスクでクロード4が一番性能が良かったなということは
なかったというわけです 精度が良いタスクもあれば逆に精度が悪かったタスクもあったというのが正直な感想です
ここから言えることはですねやっぱりそのタスクに応じて モデルを使い分けるみたいな戦略がいいのかなと改めて思いました
特にクロード4ソネットなんか無料で使えるので別に一社にモデルを限定する必要っていう のはないと思うんですね
タスクによってChatGPTやクロード、ジェミニを使い分けると でこれ一見聞くとですね面倒なんですけど結構精度が欲しいタスクってあるじゃないですか
ここぞという時のタスク でこうした時にそのタスクを一番得意とするモデルを当てるっていうのは
巡り巡って業務の効率化にもつながるので AIを比較して使う、AIを複数使うっていうアプローチはおすすめです
じゃあどうやってそういったことを把握するのかっていうと やっぱりですね自分で実験してみるのが一番の近道だと思います
例えば私文章作成と文章構成 あとはコーディングなどの比較の実験をしました
ただですね文章作成も文章構成もコーディングも 同じタスクでも人によっては全然内容は違ってきますよね
例えば私は営業メールのドラフトを作成しました でも他の人は社内向けのメールを作成する
顧客向けのメールを作成するという同じメール作成のタスクでも 内容は全然違ってくると思うんですよね
なので自分が日々AIに依頼をしているタスクあると思います そうしたタスクを他のモデルでも比較するっていうような習慣をつけておくと
このタスクではこのモデルが性能がいいなっていうのが結構自然とですね 見えてくるんですよね
特にですね文章の構成のタスク あとはAIにファクトチェックをさせる
こうしたタスクっていうのは一つのモデルだけに偏るんじゃなくて複数のモデル つまり複数のAIの視点でタスクを実行させると
こうすると回答の精度が高まるのでぜひ参考にしてみてください ちなみに今回紹介している
クロード クロードの開発元のアンソロピック
なんか絶好調みたいですね 国内と海外合わせてもやっぱりユーザーってチャットGPTとジェミニが多いっていう
イメージがあるんですけど アンソロピックも着実に成長しているようですね
これ海外のニュースなんですけど今年の3月の上旬に年間換算収益が14億ドル
14億ドルを突破してその数週間後にはえっと20億ドルに到達したそうです でその成長のエンジンになっているのが以前に公開されていた
クロード3.7ソネットの推論モデルとのことです 結構ですねクロードのチャット画面を使っている人
あまり多くない印象ですよね ただAPI経由でそれこそコーディングのようなタスクでクロードを使っているユーザーって
多いんですよね でそうしたAPI経由からの収益が成長のエンジンになっていると
で今回新しくクロード4をリリースしたのでさらにAPI経由で利用するユーザー増えてくると思うんですよね
でまたそれで収益が上がって新しいモデルの開発に充てることができると チャットGPTとあとジェミニの動向も気になりますけど
クロードの動向っていうのも目が離せないですよね あっちなみに先週グーグルからもいろいろ発表されましたよね
ちょっとグーグルに関してはまた別の機会に話したいと思いますが ひとまずですねアンソロピックが新しくクロード4のモデルを出したということで
今後目が離せないAI企業でもあります アンソロピッククロード4以外にもいろいろトピックあるんですよね
それこそクロードコードのGitHub Actionsとか ちょっといろいろ話していると終わりが見えないのでひとまず今日はですね
新しくリリースされたクロード4について解説をしました 最後に先ほど少し紹介したエージェント的な使い方についてちょっと話したいと思います
今私 VS Code っていうコードエディターを使ってエージェント的なワークフローを構築する実験をしています
これがですね結構面白くてですね ちょっと是非皆さんにも試してみたいなと思ったのでそこら辺を詳しく話しますね
でこの VS Code っていうのはコードエディターになるんですけど 別にプログラミング的な使い方に留まらないんですよね
例えば私が最近使っているやり方だと Todoist っていうあのトゥードゥアプリ これをハブにAIにタスクを実行してもらうような使い方をしています
普段外に出る機会って多いじゃないですか あと微妙な空き時間 でそういう時に Todoist に AI にお願いしたいタスクっていうのを登録します
スマホのアプリで 外出中に自分が思いついたタスクメモなんかを Todoist に登録して後で AI に実行してもらうみたいなイメージです
例えば海外のニュースレターが手元のスマホに届きますよね でそのまあ海外のニュースレターっていうのは英語で書かれているのでちょっと読めないん
ですね私 でそれを Todoist に登録をすると
で後で仕事場で vs コードを立ち上げて AI にこのように指示をします 仕事を開始してくださいと
でこの仕事を開始してくださいっていうのがキーワードになっていてですね でそれをトリガーに AI が事前に私が設定していたワークフローというのを
わーっと実行してくれる感じです 例えば海外のメールを翻訳して要約してそして新しくファイルを作成したりとか
あとはブラウザを立ち上げたりとかメールの返信の下書きを作成してくれたりとかですね つまり vs コードとあと AI モデルとそして mcp
この仕組みを組み合わせて AI がエージェント的な振る舞いをしてくれる環境っていうのを 自分のパソコンの中に構築しているとそんなイメージになります
でその AI に指示を出すハブになっているのが Todoist っていうアプリですね
これ余談なんですけど Todoist AI 関係なくあのおすすめのアプリなので興味がある方はぜひチェックしてみてください
概要欄にリンクを貼っておきます イメージとしては Todoist に人間がやるタスクとあとは AI にやってもらうタスクっていうのを
登録してそれをこううまく使い分けるようなイメージとなります で今後 AI と人間が共同して作業を進めていくと
そうしたワークフローを想定したあの ToDo アプリがあっても面白いと思うんですよね 例えば人間が AI に指示を投げますよね
そうですね例えばメールの受信箱をチェックして〇〇さんの返信メールの下書きを作成してくださいと
でそれを AI が完了したらメールの下書き作成しました チェックお願いしますっていう風に今度は人間側の ToDo に
AI からの指示 AI から人間への指示依頼っていうのが表示されるような ToDo アプリですね
既存の ToDo アプリっていうのは人間がタスクをこなすことを想定しているんですけど 人間と AI が共同してタスクをこなしていくっていうことは想定していないので
それ用の ToDo アプリ出てきても面白いと思うんですよね で今はこうしたワークフローっていうのは自分でプロンプトを組んだりとか
あとは設定をしてエージェント的な環境っていうのを作ってるんですね 結構これ面倒なんですけど
ただ先ではそういった面倒な設定をせずに誰でもこういった使い方ができるようになるっていう日は そんなに遠くないと思うんですよね
今って AI とこうチャットで会話のキャッチボールをするみたいな使い方が主流ですけど これが AI に仕事を渡してあとは自律的に
AI が仕事を行ってくれると そうしたような仕事の進め方になってくるっていうのは結構割とすぐ一般的になり
そうな気はします もしかすると2025年の後半あたりとか
出てきそうな気はしますけどね まあどうですかねいずれにしろあの楽しみにしたいと思います
Claude 4の新モデル
はいそれでは今日のポイントをまとめます 一つ目にクロードから新しいモデルが公開されました
クロード4オーパスとクロード4ソネットの2つのモデルです 2つ目にこのクロード4ソネットは無料プランのユーザーでも使うことができます
興味がある方はぜひ試してみてください そして最後3点目チャットGPTやGeminiを加えて比較実験を行いました
クロード4は文章の作成やエージェント的な振る舞いで性能を発揮しました 一方で文章構成のタスクではあまり精度は良くなかったです
AIの得意なタスクに応じて使い分けるのがおすすめだと思いました はい今日はこのへんということで本日も聞いていただきありがとうございました
あの話全然変わるんですけど 私あの動画学習プラットフォームのユーデミーで
生成AIの講座を公開しています チャットGPTとGeminiとあとはAIの自動化の講座ですね
でこの講座の割引クーポンを5日間限定で発行しています 興味のある方はぜひチェックしてみてください
概要欄にリンクを貼っておきます 番組ではこのように耳で学べるAIを毎週発信しています
通勤中や火事の合間にAI情報キャッチアップできます 毎週水曜朝に更新していますのでぜひフォローをお願いします
そしておすすめの生成AIツールをまとめた資料も配布しています 興味のある方はこちらもぜひ概要欄にリンクを貼っておきます
お相手は耳で学ぶAIの矢野てっぺいでした また次の配信でお会いしましょう
25:42

コメント

スクロール