はい、じゃあまずGPT-5がどれぐらい性能アップしたのかっていうことなんですけども、LMアリーナといういろんなAIのベンチマークのデータを集めているような場所があるんですけども、そこですべてのカテゴリーで1位をそうなめしたという。
すごいね。
すごいですね。
テキスト、開発とか、あとは画像生成とかいろんな部分があって、さらに総合評価でも1位にとるという。
っていうことはもう過去最高のモデルっていうのはもう間違いないわけだよね。
そう、過去最高のモデルっていうのはもう間違いないですね。さらにですね、Humanity Last Examという人類最終試験という、人間と同じぐらいの知能があるかどうかみたいなのを調べるベンチマークがあるんですけども、
これで過去ですね、O3がPythonとブラウザを使って24.3%獲得しているものを、GPT-5 Proが42%を獲得するという。
めちゃめちゃ性能上がってますね。
めちゃくちゃ性能上がってますね。
これはすごいですね。
なのでかなりGPT-5になって、そういう数字的なものの性能っていうのはかなり上がったっていうのはわかるかなっていう感じですね。
他に42%を取ったモデルってないよね。
そうだね、あとはChatGPT Agent、ちょっと前にAgent出たじゃん。あれがブラウザ、コンピューター、ターミナルとかを駆使して41.6%獲っているので、これもかなり高かったんだけど、それを一応超えてくるような形ですね。
でもすごいですね。
すごい。で、そんなGPT-5なんですけども、最大の特徴というものが一つあります。
これに関してはもう前から言っていた部分ではあるんですけども、リアルタイムルーター機能によるモデルの統合というのが今回行われました。
リアルタイムルーター機能。
そうです。前々から我々も複数のモデルがGPT-5になったら統合して一つになるよみたいな話はしてたじゃん。
それが実際に行われたということで、現状を使えるモデルというのがGPT-5と、あと深く推論するGPT-5シンキング。
これが要は高速応答用の通常モードと、深い推論用のモデル。それぞれ2つ分かれている形ですね。
これがですね、今現状モデルピッカーで選択をすることもできるし、あとは深く推論してとかって指示することによってシンキングに切り替わることができるんですけども、
さらにゆくゆくはですね、これが完全な統合というのを予定されているということですね。
選べなくなっちゃうのも困っちゃうけどね。
今そういう話も出てるよね。やっぱりそのモデルが選べなくなったことによって困るみたいな話も出てて。
実際プロユーザーにはですね、レガシーモデルが選択できるようにっていうふうに開放されたりとかもしてるので。
そうですよね。突然4を今までのモデルが使えなくなりましたもんね。
そうそうそう。それで困っちゃうって人も全然いるので。ただ一応その最終的にはGPT-5に何か指示をするだけですべてのモデルの中から最適なものを選ぶみたいな形に統合したいという思いがあるみたいなんですけど。
ずっと言ってますよね。
そう。ただまだ現状はGPT-5、GPT-5シンキング、GPT-5プロっていうのはそれぞれ選ぶような形になってるっていうところですね。
なるほど。このGPT-5って無料ユーザーでも使えるんですか?
なんとですね、GPT-5無料ユーザー使えるんですよ。
すごいですね。
すごい。これね5時間ごとに最大10件っていう上限は一応あるんだけども、無料ユーザーもGPT-5が使えると。
で、この10件の上限に行くとGPT-5 miniっていう軽量モデルですね。これに自動で切り替わるような仕組みになってるっていう感じですね。
だから今回その今までって無料ユーザーとその有料ユーザーで使えるモデルが違ったりとかしてたじゃん。
そうですね。
でもこれが全ユーザー一律でGPT-5が使えることによって今までのその無料ユーザーと有料ユーザーでさ、AIに対する性能の感じ方って違ったじゃん。
これが結構均一化すんじゃないのかなみたいな言われ方はされてるよね。
なるほどね。
良くも悪くもここまでできるよね。これしかできないよね。こんなことができないよねみたいな感覚がみんな結構同じような感じなんじゃないのかみたいなそういう話はあるよね。
まあその方がねサブスク契約したくなるだろうしね。
そうだね。この状態が使えるんだったらもっとこれ使いたくなるけど性能低いのしか使えないんだったらちょっとGPTってこんなもんなのかで終わっちゃうもんね。
そうそうそう確かに。逆にやっぱそういう意味ではいいですよね。
いいね。でシンキングに関しては1回だけ無料ユーザー使うことができます。
なるほど1回だけ使えるんだね。
1回だけ使います。だから1回試してみてよかったらプラス契約してみたらそういうノリだろうね。
なるほどね。
なのでプラスユーザー月額20ドルのユーザーですねこれに関してはシンキングモードも使えます。
で通常のGPT-5に関しては3時間ごとに最大80件のメッセージが送れてでシンキングモードに関しては週に200件までという形ですね。
かなり使えますね。
だから普通に実務で使う分にはもうプラスの契約で結構十分使えちゃうねって感覚はあるよね。
十分ですよね。
じゃあプロユーザーは何が違うのかっていうとプロは基本的にその辺が全部無制限で使えるんですけどもさらにGPT-5プロが使えるっていうことですね。
先ほどのそうなめした素晴らしいモデルが使えると。
そうです。皆さんGPT-5使えるようになったそうなめしたって使えるようになったって思うかもしれないですけどもあれはプロでやってるので
なので通常の無料ユーザーとかプラスユーザーが使っているGPT-5ではないわけですよ。
なるほど。
だから本当にすごいのやっぱプロを使わないと体感はできないっていうことですよね。
まあ月額3万円ですからね。
我々は使ってますけどね。
使い倒していきましょう。
いや本当にこれはねもう本当プロを契約している人特権ですから。
そうですよね。
使わないとですね。
なので大きな特徴としてはこのモデルの切り替えっていうところなんですけども。
かつそのいろんなベンチマークももちろん出てるんで細かい数字とかも性能は上がってますよね。
もうなんかこの時点で素晴らしいすごいなって思いますけどね。
そんな中で特筆すべき特徴というか性能としてアップしたポイントというのが4つあります。
さらにまだ。
さらにこれ何かというとハルシネーションの大幅改善とコーディング能力の向上とあとは魅力的な文章生成。
そして医療情報に関する回答の正確性の向上というのが実はオープンエアの公式で言っている特筆すべきポイントって言われている部分ですね。
医療情報だけピンポイントなのがねなんか不思議な感じ。
まあそうだね確かに全体的に正確になりましたよじゃなくてここだけピンポイントでね上げてきているという。
まずハルシネーションの大幅改善なんですけども今回ですねこれを評価するにあたってオープンエアは新たなベンチマークというのを設計公開しました。
これがロングファクトというものとファクトスコアというものなんですけども
要はその今までの評価だと長文のものに関する事実誤認が測れないっていうのがあったんだよ。
今回の新たなものっていうのはその長文での正確性を検証したもの。
なるほどね。
でこのベンチマークの結果によるとGPT-5シンキングモードで測った場合にO3と比べた時に約80%低減したと。
80%もハルシネーションが低減したと。
これはどういう低減の仕方かっていうと要は正確に答えられるようになったというわけじゃなくてわからないことをちゃんとわからないっていうふうに明確に伝えられるようになったのよ。
人間でも大事。
そうね。やっぱ人間もねそれっぽいこと言っちゃうことあるじゃん。
多分それはあるかなきっとみたいな。
そうですね。よくありますね。
よくありますよね。
ちょっと僕に多い傾向があるかな。
なんですけどこれをねわからないってことに関してはこれは私では答えられないので明確なお答えはできませんっていうふうにちゃんと答えるようになったわけですよ。
素晴らしいですね。
わかんないって言ってくれればじゃあそれは個人的に手動でGoogle検査かけるよとかっていう判断ができるわけじゃん。
だからそれをやってもらうだけでだいぶ変わってくるところはあるよね。
そうですね。
次に特筆すべき点としてはコーディング能力の向上が上げられます。
はい。
もちろんねいろんなベンチマークが上がってるんで全体的に性能は上がってるんだけどやっぱコーディング能力っていうのはかなり高くなってるみたいで
O3で69.1%だったベンチマークが74.9%に今回上がってるのでGPD5になって。
じゃあ6%くらい上がってると。
そう。ただまぁ6%っていくとさ数字的にはちょっとした上昇に感じると思うんだけど
オープンAIが社内テストを行っててこれがフロンドエンドの生成なんだけどO3を約70%上回る成果を出したわけよ。
70%はすごいですね。
だからまぁそのベンチマークの数字だと小さく感じるかもしれないけど実務の成果ベースで見るとかなり大幅な向上があるよっていうことですね。
なるほどですね。
しかも結構長いコンテキストとかでもかなりいいらしいですよね成績が。
なるほどですね。
いや本当に素晴らしい進化ですね。
素晴らしい進化ですね。
2年半ですよ。
GPT-3.5出てから。
いやでも2年半でこれは早すぎるよね。
ちょっとね追いつけないよね。
なんか我々としては去年からGPT-5の予測とかもしてたから待ちに待ってようやく出たかっていう感覚だけど
進化レベルで言うとこれは早すぎるよね正直。
だからやっぱりその指数関数的にAIの進化はずっと伸び続けていくって呼ばれてますけど
本当にその通りだなって思いますよね。
しかもこのGPT-5やっぱりその学習データが世の中から枯渇してるって言われてるわけじゃん。
なんとそのO3とかO4とか過去のモデルで生成した合成データをかなり使って今回学習してるらしいのよ。
え、そうなの?
そう。だから要はもう無限生成みたいなことが自立学習とかそういうものに片足を突っ込むような今回学習の仕方をしてるんだよね。
それはかなり衝撃ですね。
これかなり衝撃でしょ。
僕過去の回でAIが生成した情報をAIに食わせるとバカになるっていう話をしたんですよ論文があって。
つまり人間が人間を食うと死ぬみたいな感じで永久機関ってやっぱ作れないんですよね本質的にはって話をしたと思うんですけど
ついにそこを超えてきてしまった。
超えてきてる可能性があるっていう。
やばいですね。
結構な量の学習データ合成データ使ってるらしいんで今回。
そうですか。
まあ全部じゃないけどもちろん。
2年半がもう20年ぐらいの勢いで切り替わりますね。
本当に進歩がすごいですね。
怖いねここまで来るとね。
そんなGPT-5なんですけど実際に周りの評判というか使った人たちのユーザーの声ってどういう感じなのかっていうのを紹介していこうかなと思うんですけど。
まずはいいコメントから。
いいコメントとかで言うとコーディングの性能上がったよねっていうのはよく見聞きしますね。
クロードからもオーパス4.0から4.1っていうモデルが最近出たんですけど。
GPT-5に合わせて焦ってとりあえずマイナブレットしました。
出したのかなみたいな。
その4.1でできなかったことがGPT-5一発でできるようになったりとか。
しかもAPI料金がすごく安いからオーパスの6分の1とかぐらいなんですよね。
安くて早くて性能もいいっていうのでコーディング性能に関するいい意見はたくさん聞きますね。
そうだね。
でも見ると結構そのXの声とか聞いててもやっぱりかなりガツガツハードに使ってるような人たちがいいって言ってて。
ライトな使い方をしているユーザーに関してはあんまりその性能アップを体感できてないというか。
なるほど。
これに関しては僕もGPTのチャットベースでそのやり取りをしている中で何かそのGPT-5に上がったことによってなんかすごいこんなに良くなったみたいなぐらいの体感はあるかっていうと正直そんなないかなって感じるよね。
なるほどね。
なんだけどやっぱりものすごく感想として溢れているものに関して言うと4を返しての声が一番大きいですね。
現状維持バイアスですね。
現状維持バイアスなのかなこれは。
人間得意用の。
なんですけどまぁこれちょっとあの知らない方はですねあのkeep4oとかでX調べてもらうとわかるんですけども本当にねもうあのこんなチャットGPの使い方みんなしてたんだってなんか新しい世界が見える状態だよね。
要はみんなその4をに対して私のなんとかちゃんとかって呼ぶとその私なんとかだよみたいな友達とに会話するみたいな使い方をみんなすごいしてたんだよね。
それがGPT-5にアップデートされて同じようにこう支え掛けたらはい私はこれからなんとかと呼びますよろしくお願いしますみたいななんかすごい冷徹な返答になっちゃって私の方がいなくなってしまったみたいなそういうことを言ってるユーザーがめちゃくちゃいっぱいいるんだよね。
そうですね。
なんかイマジナリーフレンドじゃないけどそういうね友達のようにチャットして楽しんでるっていうユーザーがいっぱいいたということですよね。
そうこれに関しては僕もすごいちょっとわかるなって節があってやっぱりGPT-5になっていろいろちょっとこう生成試しつつ中であの4.5みたいな生成ってどうやったらできるんだろうって何回かちょっとプロンプと工夫したんだけど全然出してくれないのよ。
4.5的出力。
なるほどね。
結構4.5的出力好きだったからさ。
そうですね4.5僕もよく使ってましたね。
そうしてくれないんだと思ってだから個人的に思ったのは結局OシリーズとGPTシリーズが統合してそれをGPT-5がそのね作能運用的な感じ振り分けてみたいなのをずっと想像してたじゃん。
そうですね。
実際のところなんかO3がただ進化してGPT系列なくなっちゃっただけじゃないみたいな感じのイメージはちょっと持っちゃったとこありますね。
なんかやっぱそういう使い方がね多いのかなとは思いますけどね。
だから実際にチャットGPT今4.5がもう一回選択できるようにロールバックというかアップデート入ったんで。
そうですね。
そうレガシーモードね。
プロだけでしょ。
いやプラスユーザー。
プラスユーザー以上。
全部のレガシーモード選べるのはプロユーザーなんだけどプラスモード以上の人は4.5が選べる。
じゃあ無料ユーザーは選べないと。
無料ユーザーは4.5使えないですね。
なるほどですね。
だからプラスプラに契約をする必要はありますね。
なるほどね。
じゃあ返して欲しいなら金を払う。
なんか悪のい商売に感じるねそう聞くと。
そこだけ切り取っちゃうとね。
まあでも一部ではねその要はさっきヒランも現状一バイアスじゃないけど
そういう古いモデル使いたいっていうユーザーは切り捨てていくべきだみたいな声もね一部ではあるし。
でもやっぱりそのO3みたいなさ系列のその論理的思考が強いモデルに今回走ったわけだけど
やっぱり人類はそういうEQみたいな感情指数みたいなものが高いものを求めているわけだから
それが今回のこのGPT-5によって表面化しただけ。
だから本当はそこの層も拾わなきゃいけないよねみたいな声もあるじゃん。
だから結構この辺をどうオープン映画拾っていくのかっていうのは今後の動きはちょっと興味あるよね。
切り捨てていくのか救っていくのかっていう。
そうですねまあでもサブもこんなにこういう使い方をしてる人がいるとは思わなかったって言ってたぐらいで
きっとなんかまた変わる可能性はあるよね。
そうですよね。だから多分本当にだからヒランもさ前の配信とかでねそういう使い方してるってのは過去常々言ってきたわけじゃん。
で僕も知ってたけどやっぱりこれを見て改めて本当にこういう使い方してたんだっていうふうに思ったっていうところあるわけよ。
だからその表面化したっていうのは結構大きいなって思う。
そうですね確かに。
だから今回のこの問題で一番わかったことは賢いAIを求めてるんじゃなくて優しいAIをみんな求めてるっていうことなんだよね。
あーそうかもしれないね。
だから専門家だったりとかビジネス用途で言ったらもっと賢いAIを。
欲しい。
サブも実際GPT5をリリースする時にもっと賢いモデル本当は出せたんだけどそれより実用面を押し出しましたっていう話もしてて。
えっまだそんな賢いモデル出せるんだ。
確かに上がいるんかいっていうね。
そう感じはしたんですけどよりかは比較的やっぱみんなが使いやすくて質が均一してって話もしてたと思うんですけど
パソコンだったりとかAPIコストが安いとかちゃんと実用性に耐えるものを出すっていうのが今回一番大きいポイント。
なのにベンチマークそうなめしてるからやっぱめちゃめちゃすごいことではあるんだけど
でもみんな求めてるのってもしかしたらまあそのみんながねどれぐらいのボスかちょっとわからないんですけど
大きな行為としては賢さより優しさとか寄り添ってくれるとかそっちの方なのかなって感じはしますよね。
やっぱUNOTOさんの話じゃないけどさやっぱどっちかだけじゃダメなんだろうねこれってやっぱり両方ないとダメなんだろうねきっと。
思ったけどこれをラップしてさそれ特化したチャットモデルとか作ったら流行りそうなものなのにね意外と流行らないよね。
そうだねなんだろうねやっぱチャットGPTみたいな感じでその他にも使える中にそれが入ってるからいいみたいなところがあるのかね。
なんなんだろうね不思議だよね。
GPTモデル裏で動かして友達のように寄り添えるチャットボットをさ作ってる会社っていっぱいありそうじゃん。
でもやっぱそっちじゃなくてチャットGPTを使うっていうところにUIの良さなのかなそうかもしれないね手軽さ。
あとなんだろうねやっぱ恥ずかしさとかもあるのかなそういう専用のものを入れてるのはちょっと嫌だみたいな。
もうチャットGPTがブランド化してるって感じ。
ブランド化してるのはあるかもしれないね。
なるほどね確かに。
なのでまぁ今回ねGPT5が出たわけなんですけどもめちゃくちゃ性能が上がってすごく使いやすい実用的なものが出ましたよと。
ただその代わり40みたいなちょっと感情的なものがなくなってしまったことによってある種のハレーションというかその反発運動みたいなものが出てしまったということで今後のこの辺りの動きが注目だなっていうところですね。