Grok 4の概要
皆さんこんにちは、矢野哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けにAIを分かりやすく解説する番組です。
今回のテーマは、新しくGrok 4がリリース、ChatGPTとGeminiで比較した、について話していきます。
はい、ということで今日はGrok 4について話していきます。皆さん、Grok 4は使ってみましたでしょうか。
ちょうど先週、Grok 4という新しいAIモデルがリリースされました。これは、イーロンマスクを率いるSAIという会社が開発したモデルとなります。
これ、SAIの発表にはなるんですけど、ChatGPTやGeminiに比べてGrok 4は性能が上だと発表しています。
日本だとChatGPT、Gemini、クロード、この3つのAIモデルが有名だと思います。ただ、このGrokもチェックしておきたいAIだと思います。
そのため、今日このエピソードではGrok 4について深掘って話をしていきます。
今日話すポイントは主に3つです。まず1つ目にGrok 4の概要。そして2つ目にGrok 4と他のAIモデルとの比較。
具体的にはChatGPTのO3と、あとはGoogleのGemini 2.5 Proと比較をした結果を話していきます。
そして最後3点目、Grokの今後の展開について話します。この機会に耳でGrokの情報をキャッチアップしていきましょう。
最後までお付き合いいただければ嬉しいです。はい、では早速話していきましょう。
まず先にGrokって何ですか?という方もいると思うので、概要について話していきます。
あのイーロン・マスクという人物がいますよね。最近だとトランプ大統領とタッグを組んで色々やっていって、そこからちょっと喧嘩別れをしてしまった人物ですね。
もともと起業家で色々な会社を経営している人なんですけど、有名どころで言うと自動車の会社テスラ、あとはSNSのX、これを買収した人物でもあります。
イーロン・マスク色々会社を経営している中で、その中の一つにSAIという会社があります。
XAIと書いてSAIと読む会社ですね。これはAIの会社となります。
そこのSAIが開発しているAIモデルがGrokというわけです。これ直近までGrok3というモデルをリリースしていました。
今回、ちょうど先週ですね、新しくバージョンアップしてGrok4というバージョンになりました。
ちょうどこのポッドキャストでも、今年の2月、2月の末ぐらいにGrok3について取り上げていました。
そこから、イーロン・マスクのAI会社からGrok3というモデルがリリースされましたよと。
そこから約5ヶ月ぐらいでしょうか、次のバージョンであるGrok4を出してきたと。このような流れになります。
結構、アップデートのスパンも早いんですよね。
SAIの発表によると、ChatGPTやGeminiなど、他のAIモデルに比べてベンチマークの性能を上回っていると報告されています。
この辺は自社で発表している内容なので、それを差し引いて考える必要があります。
ただ、とりあえずベンチマークでは他社のモデルよりも良い性能を叩き出しましたよと。
具体的にはChatGPTのGrok3、あとはGoogleのGemini 2.5 Pro、これらのモデルよりも良い成績を出しているそうです。
Elon Muskの主張としては、あらゆる分野でほぼ全ての大学院生よりも賢いというふうに述べています。
これは本当かどうかわからないですけど、Elon Muskの主張としては、あらゆる分野でほぼ全ての大学院生よりも賢いモデルというふうに主張しています。
そしてGrok4では音声の会話機能も強化されています。
ChatGPTやGeminiって、AIとの音声会話機能がありますよね。
あれと同じような機能、実はGrokのアプリ版からでも試すことができます。
そういったAIとの音声会話機能、これもGrok4で改善されているというような報告がされています。
このGrok4を使ってみたいと思う方もリスナーの方の中にはいると思います。
Grok4を使うにはいくつかの方法があるんですけど、どれもちょっと高いです。
詳しく説明すると、まず一つがSNSのXから使うパターン、旧TwitterのXです。
XからGrok4を使うには月額6080円のプレミアムプラスというプランに加入する必要があります。
まあ高いですよね。
で、X経由ではなくてGrok単体のサイト、ChatGPTのようなサイトがGrokにもあるんですけど、
そのサイトから使うには月額30ドルのプランに加入する必要があります。
SuperGrokというプランになります。
月額30ドルなので、現在のレートで言うと4400円ぐらいでしょうか。
こちらも高いですよね。
ChatGPTの有料プランが20ドルなので、それに比べると10ドルも高く設定されています。
ちなみにこの月額30ドルのSuperGrokというプラン、
これ最上位プランというのがありまして、こちらは月額300ドルのプランというのもあります。
で、この月額300ドルのプランに加入するとGrok4 Heavyというさらに高性能なモデルを使うことができます。
300ドルなので、えっと44000円ぐらいですね。
まあこちらも高いですよね。
こんな感じでGrok4ちょっと使ってみたいなという方にとっては、ちょっと結構な金額を払う必要があります。
ただしこれはサブスクで利用しようとした場合です。
もしこれを聞いているリスナーの方の中でGrok4を安くお試しで使ってみたいという方がいれば、
次の方法をお勧めします。
それがオープンルーターというプラットフォームから利用する方法です。
このオープンルーター何なのかっていうと、一つのAPIキーから複数のモデルを使うことができます。
例えばオープンルーターでAPIキーを発行すると、ChatGPTやGeminiなどのモデルを使うことができます。
本来だったら各モデルごとにAPIキーを発行する必要があります。
ChatGPTならChatGPTのAPIキー、GeminiならGeminiのAPIキー。
各モデルごとにAPIキーを発行する必要があります。
でもオープンルーターでAPIキーを一つ発行しておけば、これ一つでいろいろなモデルを使うことができます。
その中にGlockも含まれているという話です。
先週Glock 4はリリースされたばかりなんですけど、早速このオープンルーターからでも使えるようになっています。
つまりここで何が言いたいのかっていうと、月額30ドルのプランとか、そういった高額なサブスクのプランに加入する必要はなくて、
オープンルーターを使えば、重量課金制でGlock 4を使うことができるというわけです。
使った分だけ支払うと。
なので自分が使う分だけの金額をチャージしておけば、結構Glock 4をたくさんテストすることができます。
ちょっと手順を説明しますね。
手順は3ステップになります。
まずオープンルーターにログインをします。
これはGoogleログインなどが利用できるので簡単です。
そして2つ目、ステップ2はオープンルーターにクレジットカードの登録をして、使う分だけお金をチャージします。
そして最後の3ステップ目、Glock 4のモデルを選択してチャットを利用する。
この3ステップでGlock 4を利用することができます。
オープンルーターでGlock 4を使う方法、これはノートに記事を書きましたので、興味のある方はぜひ試してみてください。
ちなみに補足すると、Glockの公式からもAPIが公開されています。
ただ今回はチャット画面からそのまま利用ができる、より簡単に利用ができるオープンルーターのやり方を紹介しました。
Grok 4の性能比較
ここまでGlock 4の概要について話をしました。
ここからはGlock 4の比較について話していきたいと思います。
具体的にはChatGPTのO3、そしてGoogleのGemini 2.5 Pro、
これらのモデルと全く同じプロンプトでGlock 4との回答結果を比較した内容となります。
具体的には次の5つのタスクで比較をしました。
1つ目がコーディングエラーの解決。
2つ目がChrome拡張機能の開発。
3つ目が文章構成。
4つ目が情報収集。
そして最後5つ目がメール作成となります。
ちなみにこれらのタスクはすべて日本語のプロンプトで比較を行いました。
個人的なイメージでは、GlockはChatGPTやGeminiに比べて、
日本語のタスクはあまり得意じゃないだろうと思っていました。
ですが中にはChatGPTやGeminiよりも、
お、いい回答だなと思う場面もありました。
では早速紹介していきます。
まず1つはコーディングエラーの解決タスクになります。
今ちょうどiOSアプリの開発をしているんですけど、
その開発中に遭遇したエラー、これを解決できるのかということを実験してみました。
結論言うと解決できたのはO3だけでした。
ChatGPTのモデルです。
Glock 4とGemini 2.5 Proは解決できませんでした。
もちろんこの結果だけで、あらゆるコーディングのエラーのタスク、
O3が一番強いのかと言われるとそうではありません。
ただ私の比較した実験の範囲内では、O3がスコアが良かったです。
ちょっと余談なんですけど、AIを使って何かのタスクを進めている時、
壁にぶち当たることって結構あると思うんですね。
この時にチャットを改めてリフレッシュしたりとか、
あとはプロンプトを変えたり、いろいろアプローチを変えると思うんですけど、
こういった時に思い切ってAIのモデルを変えてみるっていうのも全然ありです。
もともと私メインで今はGemini 2.5 Proをコーディングタスクに使っています。
ただちょっとGemini 2.5 Proでは解決できないなというエラーに遭遇した場合、
思い切ってO3とかそれこそGlock 4に変更してみるのも面白いと思います。
これはコーディングのエラーのタスクだけの話ではないです。
Grok 4の基本性能比較
例えばその他のタスクでAIを使っていたとします。
なかなか自分が思ったような精度が出ないなと。
そうした時にプロンプトの改良を検討すると同じぐらいにモデルを変更してみると、
そういう選択肢もお勧めですよという話です。
少し脱線してしまいましたが、次の比較に入ります。
次はChrome拡張機能の開発の比較を行いました。
結論先に言うと、O3のみダメでした。
Glock 4とGemini 2.5 Proはクリアしました。
あと試しにWebのデザインのタスクも実行させてみました。
同じプロンプトでダッシュボードのデザインをするタスクです。
このタスクに関しては番外編ということで、Cloud ForceNetも追加しました。
精度が良かった順番としては、Cloud ForceNet、Gemini 2.5 Pro、O3、Glock 4の順番でした。
結構海外の掲示板を見ると、Glock 4あまりコーディングタスク得意じゃないみたいな書かれ方もしているんですね。
ただ私が試した範囲だと、そんなにGlock 4がコーディングの能力に劣っているとは思いませんでした。
ただ他のAIモデルよりも格段にコーディング能力が高いというわけでもありませんでした。
はい、では次は文章構成のタスクとなります。
日本語の文章の誤りを指摘するタスクです。
これ結構今回の比較実験の中で一番意外な結果でした。
Glock 4、普通に日本語の文章構成のタスク、スコア高かったです。
明らかな誤字脱字、あとは表記の揺らぎ、そういったものも含めた文章構成の指示を出しました。
O3やGemini Proもスコア高いんですけど、Glock 4も負けてなかったです。
これはちょっと意外な結果でした。文章構成のタスク、意外にGlock 4いけます。
はい、では次は情報収集のタスクを行いました。
インターネットの情報を参照して、より正確な情報収集ができるかという比較実験です。
今回Glock 4がリリースされてから、24時間以内にGlock 4についてのレポートをまとめる指示を各AIに行いました。
同じプロンプトと同じタイミングでGlock 4、O3、Gemini 2.5 Proに指示を行いました。
情報収集の精度評価
情報収集のタスク、先に結論言うとGlock 4が一番精度が高かったです。
O3とGemini 2.5 Proの回答の中には、いくつかの間違いが含まれていました。
おそらく出たばかりの情報なので、情報の整合性というのが難しかったのかもしれないです。
もちろんGlock 4の回答全てが間違いがなかったというわけではありませんでした。
Glock 4にも間違いは含まれていました。
ただ、O3やGemini 2.5 Proに比べると間違いの数は明らかに少なかったです。
Glock 4、Xの情報参照にも強いので、情報収集という面では活躍してくれるモデルだと思いました。
はい、では最後はメール作成のタスクを行いました。
日本語の営業メールを作成してくださいという指示です。
これも意外な結果になりました。
結果としては良いモデル順に次のような順番になりました。
Glock 4、Gemini 2.5 Pro、O3、これ意外な結果でしたね。
シチュエーションを変えたりとか、あとはプロンプトを変えるとまた結果も違ってくるかもしれません。
ただ、私が実験した中ではGlock 4が作ったメール、これがかなり自然な内容で、
実際に自分がその営業メールを受け取ったとして、あまり違和感を感じないメールだと思いました。
これも意外な結果でしたね。
Glock、日本語のタスクに弱いっていう認識あったんですけど、
ちょっとこの認識は改めないといけないなと今回の比較で思いました。
以上、5つのタスクでモデルの比較を行いました。
今後の展開とコスト
全体的な感想としては、Glock 4、良いねと思う場面もあるんですけど、
他のモデルに比べて、著しく良いというわけではなかったというのが正直な感想です。
実はですね、ここで一つ抜けている視点というのがあります。
それがGlock 4のコストです。
Glock 4のAPIのコスト、つまり重量課金制で使った場合ですね、
O3やGemini 2.5 Proに比べると割高です。
ちょっとそれぞれのAPIのコストを今からお伝えしますね。
Glock 4のインプットが100万トークンあたり3ドル、
アウトプットが100万トークンあたり15ドル、
O3が100万トークンあたり2ドル、
アウトプットが8ドル、
Geminiがインプットが1.25ドル、
アウトプットが10ドル、
ちょっと数字が細かいんですけど、
端的に言うとGlock 4はO3やGeminiに比べて
ざっくり倍の金額がかかります。
そうした点を踏まえるとこういった見方もできると思います。
Glock 4の性能確かにいいよねと。
ただコストも他のモデルに比べて高いよねと。
こういった見方もできると思います。
はい、ここまでGlock 4と他のモデルの比較を行いました。
最後に今後のGlockの展開について話していきます。
Glock 4の発表の時にGlock 4 Codeというものも発表されました。
これまだ現時点では使えるようにはなってないんですけど、
噂ではコードエディターのカーソルで使えるみたいな話も
海外の掲示板であるみたいです。
ちょっとここまだ不確定なんですけど、
近いうちにGlock 4 Codeというものが公開されるという話があります。
コーディングのタスクに特化したGlock 4のモデルという立ち位置でしょうか。
あとGlockの紹介でも話されていましたけど、
ゲームの分野でもいろいろ展開をしていくという話もあります。
あとは、これイーロン・マスク自身がXでポストした内容なんですけど、
来週にはテスラ、電気自動車のテスラ、これにGlockを搭載すると発言をしていました。
これはGlockが自動運転をするとかそういう話じゃなくて、
Glockの音声アシスタントがテスラの車に搭載されるという話だと思います。
例えばカーナビを音声で操作したりとか、そういった使い方になってくると思います。
やっぱりここら辺は複数の事業を展開しているイーロン・マスクが強いですよね。
開発したAIを自分の会社が開発している電気自動車に搭載をすると。
これはオープンAIにはできない動きだと思います。
テスラはオプティマスという人型ロボットも開発をしています。
その人型ロボットのオプティマスにもGlockのモデルを搭載していくと、そんな話もポストしていました。
結構このAIの流れって続いていると思うんですよね。
今私たちってパソコン上でAIとやり取りをしているじゃないですか。
それが今度はAIがロボットに搭載される、こうした動きすでに出てきています。
つまりAIがパソコンから飛び出して物理的に動作ができる体を得ると。
こんな感じで人間のように動作をするAI搭載のロボットが出てくると、いろんな場面で活躍してくれると思います。
その先にどういったことがあるかっていうと、今度は宇宙だと思うんですね。
人間が活動できないような場所でもロボットだと活動できますよね。
そんな感じでAIが発達をして、その次にAI搭載のロボットが発達して、そして次に宇宙産業が発展していくと。
AIを起点にこれからそういった道筋ができるのかなぁなんて思ったりしています。
その中でイーロン・マスクはAIもロボットも、あとは宇宙。
彼はSpaceXっていう民間のロケット開発会社を持っているので、
そうした中でグロックがどんな感じで展開していくのか、
これはやっぱり他のAIモデルにはない展開ができると思うので楽しみです。
いずれにしろユーザーとしてはやっぱり選択肢が多い方がいいと思っています。
ChatGPT、ジェミニ、クロード、この3つが僕の意外でよく使われるAIモデルです。
そこに第4の選択肢としてグロック。
最近Xでもグロック使っている方見かけますよね。
あるユーザーのポストに対してリプライでグロックを呼び出して、
このポストの内容を説明してとか、着実にグロックのユーザーは増えていると思います。
ぜひこの機会にグロックチェックしてみてはいかがでしょうか。
それでは今日のポイントをまとめます。
1つ目にSAIという会社からグロック4という新しいモデルがリリースされました。
SAI発表のベンチマークではChatGPTのO3、Googleのジェミニ2.5 Proを上回る性能を出しています。
2つ目にグロック4を使うには高額な月額プランに加入する必要があります。
ですがAPIやオープンルーター経由では、重量課金でグロック4を利用することができます。
とりあえずグロック4を試してみたいという方は重量課金での利用をお勧めします。
そして最後3点目、様々なタスクでO3やジェミニ2.5 Proとグロック4を比較しました。
全てのタスクで他のモデルをグロック4が上回っているというわけではありませんでした。
ただ日本語のタスクでは精度の高い回答を出しました。
これは個人的にも意外な結果でした。
あとはもう1つ、グロック4の利用コストはO3やジェミニ2.5 Proよりも割高である点にも留意する必要があります。
はい、今日はこの辺ということで本日も聞いていただきありがとうございました。
今週はお便りをいただいています。ありがとうございます。
ちょっと読みますね。
いつも通勤中に勉強させていただいております。
私は地方の大学病院で医師をやっているものです。
矢野さんの配信を聞いてから、私が担当している雑務の一部をAIに任せることができないかと思い、
手始めに医師の待機表の作成をやってもらうことにしました。
Grok 4のリリース
ここ3ヶ月は待機表の草案をクロードフォーソネットを使用して作成してみました。
作成する月を指定し、各医師の待機深日を入力すると、
可能な限り均等な日数で待機を割り当てるようなプロンプトにしています。
ただ、手動で一から組むよりも楽ではあるのですが、どうしても一発で完璧に近い出力を得ることができません。
具体的には、担当日数がある医師だけ多くなってしまったり、待機不可能日に割り当てられたりしてしまいます。
これはつまり、AIを使って医師の勤務表、シフト表みたいなものですかね、そういったものを作成していると。
ただ、ハルシネーションが発生してしまうという課題にぶつかっているようですね。
続けますね。
プロンプトが大事なのだろうと思い、クロードと相談をしてブラッシュアップをしているのですが、
改定を重ねるたびに重要な部分が抜けたり、内容が重複して情緒になったり、
情緒になった部分を整理しようとすると、また重要な部分が抜けたりと、堂々巡りのような状態です。
AIあるあるですね。私もよく遭遇します。
続けますね。
プロンプトを最適化するおすすめの方法などはございますでしょうか。
また、そもそもAIで待機表を作成するための別のアプローチ、アプリの制作などはございますでしょうか。
矢野さんのお知恵をお貸しいただければ幸いです。
今後ともお体に気をつけて末永く配信をよろしくお願いします。
お便りありがとうございます。
AIを使って勤務表を作る、このタスク自体ちょっと私やったことがないので、非常に興味深く拝見させてもらいました。
結構複雑な条件になってくると、ハルシネーションが出てくるんですかね。
例えば、ABCDE、5人の医師の方がいて、それぞれ勤務可能日があると。
例えば、1日に配置する人員は最低3人とか、ある人は連続5日間勤務はできないですとか、色々な条件が絡んでくると思います。
そうした条件をつけていくと、ハルシネーションが起きてしまうと。
つまり、人間のチェックもその分かかってくるわけです。
今回のケースだと、プロンプトの最適化よりも、AIモデルの変更を試してみてはどうかなと思いました。
今はクロードフォーソネットを使っているということなので、例えばChatGPTのO3とか、もしくはGemini 2.5 Proを使ってみるとか、
特にGoogle AI StudioでGemini 2.5 Proを試してみてはどうかなと思いました。
このGoogle AI Studioというのは、Googleが提供している実験環境のようなものなんですけど、
まず、トークンをたくさん扱えるというメリットがあります。
つまり、長い指示、長い文章でも問題なく扱ってくれると。
あとは、Gemini 2.5 ProというGoogleの最新モデルを無料で試すことができます。
結構、このモデルを変えることで精度がぐっと上がるケースもあるので、まずはこちらを試してみてはどうかなと思いました。
もう一つのアプローチとして、AIを使ってアルゴリズムからこのシフトの問題を解決する方法、これもどうかなと思いました。
例えば、宅急便の配送ルートとか、アルゴリズムで最適化されていますよね。
そんな感じで、アルゴリズムを使ってシフト作成を最適化するというアプローチです。
例えば、私こんな感じで質問してみました。
勤務票を作成するタスクをアルゴリズムを使ったアプローチで解決したいですと。
そうしたら、AIがこのように回答しました。
この問題を解決するための代表的なアプローチを、実装のしやすさ、精度の観点からいくつかご紹介をします。
そして、その一つがヒューリスティックなアプローチ、貪欲法というアルゴリズムですと。
シフトの作成問題、こうした問題を解決するようなアルゴリズム、なんかいろいろあるみたいなんですね。
その中で、貪欲法というアプローチが一番簡単で実装できますよと。
具体的には前提条件をまず設定します。
その月の勤務日数、例えば、そうですね、7月だったら31日、31日の勤務日数があって。
で、一人当たりの最大勤務日数、例えば20日間とかですかね。
で、あとは1日あたりの最低配置人数、最低でも2人は配置したいとか。
あとは一人当たりの最大連続勤務日数、3日間以上連続で勤務するようなシフト作っちゃダメですよと。
で、意思の数をABCDE、例えば5人としてそれぞれが勤務不可能な日程というのを提出します。
で、そういった前提条件を基に貪欲法のアルゴリズムで問題を解いていくみたいなアプローチです。
具体的にご質問いただいた方、どんな条件で待機票作成されているのかちょっとわからないんですけど、
このアプローチ、アルゴリズムを使って作成した感じだと、結構いい感じに待機票が作成できたと思うんですよね。
これ、あのノートに記事書きましたのでリンク貼っておきます。
良ければチェックしてみてください。
で、ここで私がお伝えしたかったのは、貪欲法を使って待機票問題を解決するというわけではなくて、
AIを使って待機票の問題を最適化できるアルゴリズムを質問していくと、
そしてその中から自分に合ったものをAIに実装してもらう。
こんなアプローチだと、まずあのAIのハルシネーション問題というのがなくなります。
で、この貪欲法のアルゴリズムっていうのは簡単に導入できるものとしてAIも紹介しています。
なので、さらに精度を高めたい場合、他のアルゴリズムを検討する選択肢もあるわけです。
例えば、他のアルゴリズムを加えたハイブリッド方式とかですね。
ちょっと一旦まとめます。
今回のAIを使って意思の勤務票を作成する課題に関して、私から2つ提案したいと思います。
1つは、今使っているクロードフォーソネットのモデルを変えて、他のモデル、例えばO3やGemini 2.5 Proを試すアプローチ。
そして2つ目が、AIを使って勤務票を作成するのではなくて、AIが作成したアルゴリズムに則って勤務票を作成するというアプローチです。
これちょっと検討違いのアドバイスになってたら申し訳ないんですけど、参考になれば嬉しいです。
お便りありがとうございました。
AIモデルの比較
番組ではこのように、耳で学べるAIを毎週発信しています。
通勤中や家事の合間にAI情報をキャッチアップできます。
毎週水曜朝に更新していますので、ぜひフォローをお願いします。
そして、おすすめの生成AIツールをまとめた資料も配布しています。
興味のある方はこちらもぜひ、概要欄にリンクを貼っておきます。
お相手は、耳で学ぶAIの矢野てっぺいでした。また次の配信でお会いしましょう。