33【GPT-5.5は本当に変わった？】使ってみたリアルな所感

GPT-5.5のリリースと概要

こんにちは、AI駆動開発部の日常へようこそ。このポッドキャストは、日々AI駆動開発を行う、企業家の山本とエンジニアの安部が、AI駆動開発のリアルを見る、語り合う番組です。

よろしくお願いします。

今日の話題は来ましたね。

そうですね。来ましたね。

GPT-5.5が出たので、それを早速使ってみての感想というか、どんな感じかみたいなところをシェアしていけたらいいのかなというふうに思っておりますので、よろしくお願いいたします。

早速なんですけれども、僕のほうから簡単にどういうところ変わったみたいなところとか調べてきたので、

簡単にシェアしてから、お互いの使用感の部分を伝え合えたらいいのかなというふうに思っております。

まず、どういったことが変わったのかみたいなところなんですけど、5.4から5.5ですね。

一番変わったところが、ベンジマークとかいろいろ見て、一番変わったのが、長文コンテキストに対する体制というか、みたいなのがかなり飛躍的に向上しましたっていうのがあります。

もともとが5.4のときなんですけれども、長文コンテキストで、特に100万トークのコンテキスト内の、なのでめっちゃ超長文の分析とか行動みたいなところの破綻がないかどうかみたいなものが、

GPT 5.4だと9.4%だったのが、GPT 5.5になって45.4%になりましたと。なので、36%ぐらい上がったというのが、かなり大きい進化。

もともとクロードのモデルは、それでもなおクロードのほうが強いみたいな感じなので、長文コンテキストに対してはクロードのほうに分があるっていう状態だったんですけれども、そこがちょっと差が縮まったみたいなのが、結構特筆すべき点なのかなというふうに思っております。

一応公式上は、チャットGPTのほうの公式上は、全体的にまず能力が上がって、よりリアルにタスクをこなすっていうところで、かつ長時間の実際の作業とかに対して耐性が強くなりましたよっていうところで、ほぼほぼ本当に全体的に少しずつ上がったみたいなのが、

基本的な性能向上みたいな感じです。なので基本的には性能向上して、特に長文コンテキストの理解、特に関連性をちゃんと追えるかみたいなとか、そういった能力が上がったみたいな。

おそらくなんですけれども、クロードのほうがいいよね、モデル的にって思っている人たちは、どちらかというとそういう長文で今まで一緒に問答をやっている中で、果たんなく自分のこと、自分の思っていることを理解してくれている感じが強く感じていて、クロードのほうがいいよねって言っている人が多いのかなと。

逆に結構元々コンテキストとかにかなり注意深くコントロールしてた人たちは、チャットGPTのほうが頭切れるしいいよねみたいな評価をしてたのかな、そういうふうなのをちょっと思いましたね。

使う用途というか対峙の仕方でだいぶこの差があるってことは、相当確かにクロードのモデルのほうがいいっていう人もいるんだろうなというようなのがかなり思ったという感じです。

一応100万トークンコンテキスト対応っていうふうに書いてるんですけど、我々オープンコードで実際に使っている限りは、オープンコードの表示上は100万トークンコンテキストできるぐらいのパーセントの見せ方なんですけど、40万トークン前提みたいですね。

サブスクリプションクラウンが40万トークンでAPI利用すると100万トークン利用できるっていうのが今の方式の発表かなって。だから多分オープンコードがGPT 5.4前提で動いちゃってるっていうときなのかなって思ってる。

一応そんな感じで。けど40万トークンやったとしても、どっちにしろ長文コンテキストに弱かったっていう5.4のことを考えると、5.5を使って40万コンテキスト前提で使うほうが我々にとってもいいのかなっていうのは思ってますっていう感じですね。

もう基本的には本当に上がっていてっていう感じで。

厳密にちょっと補足させて欲しいのがあって、今回9%ぐらいだったもともと長文6回、長文のコンテキスト理解のベンチマークがもともと9%だったのが45%ぐらいまで上がったっていうところの話は、

会話的な文脈というよりかは、グラフ構造を探索させる上での理解力っていう意味合いが強くて。

どっちかっていうと深くコードをリーディングしに行って、システムのコードって大体Aっていう関数があったら、AはBに紐づいて、BはCに紐づいてっていう枝分かれにどんどん処理が分岐していくのを辿って深くまで読み切れる力が極めて向上したみたいなのが、

それはコンテキストの維持の、コンテキストへの耐性の強さっていう意味も含まれるんだけど、どっちかっていうとその読解力がめちゃくちゃ向上したよっていうところが1点と、会話履歴的な部分もすごく上がってて、それは別のベンチマークで、

例えばオーパスの4.7だと今だと59%ぐらいだったものがGPT 5.5で87%になって、かなりオーパスと比較しても飛躍的に向上しているし、GPT 5.4との比較も当然10ポイント以上増えているみたいな感じで、

コードの読み書き、コードリーディングして正しい情報を理解するっていうところがまず今回極めて向上したっていうところと、そもそも長時間、ロングコンテキストの会話履歴に対して耐性が高まったみたいな、2軸の強さがあるみたいな感じになってます。

GPT-5.5の使用感と体感

おだしょーありがとうございます。そんな感じで、とはいえオーパス4.7もちょっと強いところもありって感じなんですけど、5.5はかなりオーパスと比較させてみたんですけど、実際。

ほぼほぼ長文のグラフのほうのやつが負けているだけで、ほかは結構ほとんど勝っているなみたいな感じですね。けど、GPQA Diamondとかはほぼ互角で、ちょっとだけ近差で負けているみたいなのがあったりとかするみたいですね。

あと広範囲専門難問での正答率みたいなとかはクロードのほうがちょっとかかったりとかみたいな感じで、本当に近差というかみたいな感じと捉えていいのかなと。だからここまで来ると正直使用感のほうが重要というか、相性的なもののほうが重要なのかなっていうのが前提としてあるのかなというふうに思ってます。

そんな中、オーパス4.7も過去の回収が影響して品質劣化してたみたいな発表が実は今日当時にあったりとして、実際に使用感としてどっちのほうがどうなのかみたいなのは改めて見てみないとなというような感じですね。

とはいえ基本的にモデルの性質というか、職人機質なのはGPTで、人に寄り添ってくるのはクロードっていうのはあんまり変わらないのかな。その性質というところではあんまり変わらないのかなと思っているので、実際それも今後確認してみてシェアできたらなというふうに思ってますという感じです。

じゃあちょっと実際に使ってみてどうだったかみたいな話いきますか。じゃあ阿部ちゃんからどうですか。

今日なんなら日本時間で言うと今日の3時ぐらいで、今まだ1日も経ってないという状況なので、僕自身今日のやってた仕事としては結構複雑な問題、それこそいろんな多岐にあたる行動を分析して今の現状仕様だったり課題になっている部分を深掘りするみたいなタスクをGPT5.5にやらせてみたんですけど、

まず最初に感じたのは、5.4と比較してかなり動作早くなりましたよね。

いや、それは本当にそう。めっちゃ早くなった。

めっちゃ早くなって、しかも今まで5.4でいろんな複雑な問題についてレポートをさせようとした時に、5.4ってかなり長文を書き出してくる傾向があるんですよ。

結構長々と説明をするんですけど、その中身がいまいち芯を食ってなかったりして、結局これ何言いたいんだろうみたいな状況に陥ることがたまにあったりしていたんですけど、

この5.5はかなり自分が聞きたかった質問に対して的を得た回答をシンプルな文章で書き出してくれるっていうのが結構今までの動きと違ったなっていうような印象を受けていて、

文章を書き出す力が飛躍的に向上している。そして何を私が知りたいのかみたいなのをしっかり組んで文章化、構造的な文章に落とし込む力が高いんじゃないかなっていうふうに感じました。

そういう意味では使用感として、GPTとコミュニケーション取るのって僕の中ではコミュニケーション取りにくい相手だな。むしろクロードオパスの方がコミュ力高くていろんなことにちゃんと答えてくれるなって感覚が強かったんですけど、

GPT5.5になってかなり話しやすくなったなっていうところが1個。

アベちゃん的にはいい感じというか、コミュニケーションも取りやすくなって早くなっていいことづくめみたいな印象ということですね。

まずはそこの印象ありましたね。

僕もけどほぼ同じで、まずスピードが早くなった。これはチャットGPTのアプリのいつも5.4 Pro。ちょっと最近早くなった。昨日ぐらいから早くなったなって思ってたから内部的に切り替わってたのかもしれないけど、チャットGPTアプリの5.5 Proの返答も相当早くなってて。

実際にコーディングも僕自身させていて、相当早くなってるっていう感じなので、体感的には5.4 miniより早いのかもしれないなぐらいタスクが終わるスピードとかっていうので、全部5.4じゃなくて5.5fastにするので、

更新を固めてもいいんじゃないかみたいな話を今日阿部ちゃんとしたけど、なんか速さも品質も全体的に上がったなっていうような感覚は僕も受けてますね。

あと計画の、もともと5.4の時にかけてた計画の穴みたいなところも結構明確について、妥当性のあるつき方をしてたんで、クリティカルなものを含めて見抜いてたんで、分析能力みたいな部分ってもうかなり高いのかなっていう感じがするんで、何よりも速さですよね。速さのおかげでストレスがちょっと軽減したなっていう。

早いだけでちょっとした質問もすぐ投げれるし、しかもなんかちょっとした質問でも今まで5.4って結構サブエージェントすぐ呼んだりって挙動、トロンプトにもちろんそういう指示を細かく書いていたりするので、そういうふうにサブエージェントをすぐ呼ぶっていうのはもちろん挙動としては正しいんですけど、

5.5は本当に呼ぶ必要があるのかを考えているような気がしていまして、すぐに返せるときは別に呼ばずにさっさと返してくれたりとかして、別にそこの回答が間違っているわけではないので、かなりそういった判断もできるようになっているのかなっていうふうに感じました。

大平なんかベンチマークに的にはさ、ちょびっと変わったなみたいな感じなんやけど、相当変わった感じあるよね。

しばやんなんか使用感は結構変わった印象を受けますね。

大平なんかそうやんな。

コーディング性能とツールの活用

しばやんただ僕の中で気になっているのは、まだ実装させたりっていうタスクは僕はまだやってないので、コーディングだったりとかはどこまでいけるのかはちょっとこの後見てみたいなと。

しばやん一応なんかコーディング向けに改善したみたいな前提があるみたいなんで、そこもちょっと気になるところですよね。

しばやんコーディング向けに、実際ターミナルベンチ2.0ってCLI上で複雑なタスクを完了できるかっていうやつが7.6ポイント上がってるっていうところで、ここ他のものよりも上がり幅が結構あるのかなっていうふうに思っていて、

100万トークンのやつと、あとそのターミナルベンチと、あと初見抽象タスクへの流動的推論っていうのを、いわゆる今まで学習してない抽象的なタスクをちゃんと流動的に推論して達成できるかみたいなものも10%以上伸びてたりとかして、

この辺りがかなり強くなったので、このベンチマーク上でいうとコーディングは間違いなく上がるはずっていう気はしてるけど、ちょっとそこは使用感含めて確認したいよね。

あと粘る力が改善したらしいよ。長期高難度の実装、リファクターデバッグを解けるかっていうExpertSWE Internalっていうベンチマークがあって、それも4.6ポイント向上してるらしいです。

それはありがたいですね。

うん、なんか諦めない心も、ちゃんと諦めない心も少し強化されたっていうことで、なんか単純になんか頭良くなって諦めが早くなったみたいな変な、なんか頭の良くなり方ってあるじゃん。あれはなんかないんだろうなーみたいな。

なるほど。確かにそのターミナルベンチが強くなったっていう話は、なんかそんな気はしてて、さっき実装させてないとは言ったものの、あれは大規模実装させてないだけで、なんかちょっとした回収自体はさせていて、

なんかそういったときに今まで結構、セレナのLSP機能でこう、なんだろう、一括変換する、一括置換してコードを回収するみたいな作業をAIが、特に5.4とかそれ以前のモデルがやろうとして、結構失敗したりとか、そもそもそんなセレナを使わないことの方が多かったように僕は体感してたんですけど、

だから普通にここの実装変更してって言ったら、セレナのそのツールユーズして、しかも結構頻繁に呼び出して、全部ミスることなくやり切れてたから、なんかかなりうまくツールを使いこなす能力が向上したんじゃないかなっていうのは、なんとなく体感としても一致しますね。

おだしょーお目が高いですね。なかなかお目が高いですね。4.7%実はMCPアトラスって言って、MCP経由で複数ツールを見つけて正しい引数で予備結果を統合する力っていうのが、約5%、4.7%アップしてるんですよね。なのでそこも実際のところなのかなというふうに思いましたね。なかなかお目が高いですね。

ハルシネーションとトークン消費

あとちょっと気になるのが、ハルシネーション関連でここだけ実は5.4から下がってんのよね。3%だけ。

おだしょーなんでここがどう効くか。けどとはいえ主張なのか事実なのかっていうのをちゃんと見極める力っていうのは23%向上してるから、統合された結局ハルシネーション起きにくくなってるよねみたいなのはあるかもしれないけど、ちょっとそこが気になってるっていう感じですね。

とはいえ全体的に向上してるし、使用感上がったから一旦これでやっていきたいなっていうような。あと重要なのが今まで5.4だとファストモードにすると1.5倍速2倍消費だったのが1.5倍速2.5倍消費になっているっていうのは結構。

おだしょーこれ阿部ちゃんが調べてくれてますね。

阿部セレナをちゃんと使って最短の変更でちゃんとゴールまで行けてたっていうのを目の当たりにすると、結果的にトークン効率がめちゃくちゃ上がってるように感じているので。

無駄がなくなった分、むしろ安く済むっていう風にはオープンAI自体もそういう風な主張をしていて、確かにそれはありそうだなっていう気がしてますね。

サブスクリプション枠の挙動とリセット

おだしょーとはいえよくわかんない全然トークン減らないっていう時期を超えたので着実に減るようにはなってしまったっていう。4月22日ぐらいまではどんだけ使っても全然減らないサブスクリプションの枠が。

我々コーデックスバーっていうやつをインストールしてて、コーデックスバーを見ると今のセッションとかウィークリーのレートリミットとかがどれくらい消費してるか、どれくらいでランアウトするかみたいなのが見れるようになってるんですけど、それが全然減らないじゃんみたいな。

もう使い放題じゃんぐらいの誤作動なのかなんかよくわかんないけど、実際にずっと使い続けて、なんかおかしいのかな、これでいいのかなみたいな、けど使いまくろうみたいな感じの状態だったんですけれども、それが4月23日、昨日ぐらいから改善されてどんどんバンバン減るようになって。

で、4月24日今使いまくってて。使いまくっててけど、今日からなんか減り方がちょっとまた、昨日に比べて4月23日に比べて減り方が緩やかになったっていう感覚があるので、何を正解としたらいいのかちょっと俺もちょっとよくわかってないんやけど。

まあちょっと今後でいきたいっていう。あと最近すごい不安定やから、CodexのWabiリセット来てほしいなというのを。

いやそうですね。

Wabiリセットなのか、5.5リリース祝いリセットなのか来てくれたら嬉しいなというような感じですね。

前週ぐらいとかね、3回ぐらいリセットしてたのに、今週全然リセットしてくれないから、どんどん減っちゃうなって感じ。

まあ期待ですね。

はい、期待しましょうと。

だけどみんなもし使ってたら、なんか同じこと思ってるんじゃないか。

そう思うよね。なんかカツカツの人は特にリセット来て救われる人が多いと思うので。

そうそう、多いと思うからね。

ちなみにちょっと、僕2アカウントチャットGPTの200ドルのやつを使ってるんですけど、セッションを使わなかったらウィークリのリミットは保持されるんで、

うまく使い始める日にちを分けると、片一方が誤発しても片一方使えるみたいな状態になるので、

2アカウントぐらい使い回してるとか、2アカウント3アカウント使い回してる人にはおすすめです。

どれだけいるのかは知んないけど。

ずらしてリセットされるタイミングをね。

そうそう、足りないからね。

まあけどね、2倍期間も5月末まで伸びたので、ちょっと安心できるなというような感じなので。

その他の話題と今後の展望

ちょっとKimiK2.6は結構評判良さそうなんだけど、中国語圏の人のアカウントの投稿がかなり評判良くて、

なんかあれが実際にそうなのかどうかみたいなのをまた検証してシェアできればと思っております。

あとそうだ、YouTubeで、YouTubeかな、YouTubeか。

ちょっとどっかで、FMかコメントをいただいておりまして、

9円って言ってたんですけど、実際9円っていう呼び方らしいです。

教えてくれてありがとうございますっていうのと、あと9円の3.6が使い放題になってるよっていうのを伝えたんですけれども、

もうすでにその期間は終わってしまっていたようでして、すいませんでしたっていう感じです。

本当に短い期間のボーナス期間みたいな感じだったみたいなね。

一瞬で終わりましたね、そう考えると。

一瞬で終わった。そんな感じで今日は終われたらなと思います。

引き続き5.5を使って感想とか伝えれたらなと思いますので、取り急ぎ出たばっかりということで、今の初刊のシェアということでした。ありがとうございました。

ありがとうございました。

本日もAI駆動開発部の日常をお聞きいただきありがとうございました。いかがでしたでしょうか。

今回は早速GPT 5.5を使ってみてというところで、本当に速度が速くなって使いやすくなったので、

ぜひ皆さん使ってみていただければなと思っていただけたらなと思います。

このPodcast気に入ってくれた方は、いいねやフォロー、高評価ぜひお願いいたします。

それではまた次回もお楽しみください。バイバイ。

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

AI駆動開発部の日常

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ