00:02
こんにちは、AI駆動開発部の日常へようこそ。 このポッドキャストは、日々AI駆動開発を行う、
企業課の山本とエンジニアの阿部が、 AI駆動開発のリアルを緩く語り合う番組です。
はい、じゃあ本日もよろしくお願いします。
よろしくお願いします。
今日はGPT-5.4について話せたらなと思っておりますので、よろしくお願いいたします。
はい、5.4。
5.4、使ってますか?
使ってますよ、一応。一応って変だな。
一応。もうそれがなんかみじみ出てるね、なんか。
なんか新しいモデルが来たらまず必ず使うっていうので、使ってって感じですよね。
はいはいはい、了解です。
もう飛びつくように使えますよ、もちろん、それは。
はい、わかりました。じゃあ、そうですね、なんか使ってみた初感とか、なんかその辺を話していけたらなと思いますので、よろしくお願いいたします。
よろしくお願いします。
はい、ではですね、ちょっと軽くGPT-5.4って、なんかどんな感じなのかみたいな、5.3コーデックスとなんか違うのかみたいなところのちょっと特徴の部分をざっとおさらいして、
そこから2人の実際の使用感みたいなところにいったらいいかなというふうに思っております。
一応GPT-5.4が、オープンAIの公式で3月5日に出ましたよというところで、
ネイティブで最先端のコンピューター操作能力を備えた当社初の汎用モデルですと書いてますね。
結構だからツールを使うのがうまいみたいなところと、
あと最大100万トークンのコンテキストをサポートし、エージェントが長い工程にわたるタスクを計画、実行、検証できるようにしますっていうふうに書いてるので、
100万トークン最大で使うこともできるよっていうところ。
あとはこれまでで最もトークン効率の高いリーズニングモデルであり、
GPT-5.2と比べて問題解決に使用するトークン数を大幅に削減していますと。
結構リーズナブルになってるんじゃないっていう感じですね。
オープンAI初の汎用モデルという位置づけなんですね。
03:02
みたいやね。
他の説明とか見てても結構知識労働によった設計をしてるっていうのは見てたから、違和感ないかなっていう感じはある。
スライド資料を作ったり、財務モデル、法的分析といった長期的な作業を伴う成果物を作成するのに特に優れているというところ。
エンジニアもオフィスワーカーなんだけれども、オフィスワークに向いてるみたいなのがある。
スプレッドシートを使ったりとか、あとツールユーズがうまいのかな。
ブラウザコンプって、ブラウザを使用するのの指標もベンチマーク的には結構優れてるっていうふうになっていて。
あとGDPVALっていう、アメリカでGDPに特に寄与している9つの業種だったかな。
9つぐらいの業種から44種類の触手を抜き出して、その触手の知識業務の成果物をエージェントが作成できるのかどうかを評価するベンチマークっていうのがあるんですけど、
それは結構大幅に伸びてるというような感じみたいですね。
実際そこの知識作業っていうところに関しては、クロードのオパスの4.6よりも優れてるというような感じ。
コンピューター制御とかツールユーズ的なものもオパスより優れていて。
ただSWEベンチとかはオパスの方が優れてるみたいですね。
そうなんですね。
本当にいわゆるホワイトカラーの作業に向けて作られていってるのかなっていう感じがあるという感じで。
なるほど。
この説明を聞いたときに、僕は本当にオパスとかそっちよりに振っていってるのかなみたいなすごい感じました。
今までみたいな内製的なすごい職人機質なエンジニアみたいな想像が5.3コーデックスまでだったのかなっていうふうに思ってたんですけど、
そこからちょっともうちょっと頭の切れるビジネスマンみたいなのに移行しつつあるのかな、方向性としてはみたいな。
これはちょっと感覚にしてほしいですね。
今の説明を聞くと僕もそういうことかとすごい納得をしましたね。
オープンAIも自分たちが初めて出した、ちゃんと汎用モデルとしてちゃんとやりましたよっていうのを宣言してるぐらいだから、
06:07
結構力入れてそういうちょっとクロードっぽく寄ったところに力入れたんだろうなっていうのを何となく頷けるかなって感じました。
なんかそんな感じな気がしそう、気がするよね。
あとハルシネーションとか誤りの削減に向けた取り組みも結構進めてますみたいな感じで言ってますね。
一応コーデックスCLIとかオープンコードとかだとミディアムとかハイとかエクストラハイとか選べるみたいな感じになってるけど、
基本はミディアムでいいんじゃねっていうのがオープンAIの見解で、
より長期タスクをやらせるみたいなときになったときにエクストラハイとかハイとかを使うっていう感じにしたらいいんじゃないかなみたいなのを、
オープンAI側の市長としては言ってるという感じですね。
みたいな感じで。
トークン効率良くなって、今まで5.3コーデックスのときってすごい兆候する感じだったと思うけど、
そこが緩和されてちょっとシンキングするときの効率が上がったのかもしれないなというふうに、
ちょっとこの説明からは見て取れるのかなと思ってます。
みたいな感じなんですけれども、
じゃあ実際に、僕はオープンコードで使うっていうことしかしてないんですけど、
阿部ちゃんはちょっとだけあれでしょ、コーデックスCLIとかでも使ったって聞いてるけど、
お互いの使ってる初感とかその辺を話し合えたらいいのかなというふうに思ってます。
じゃあそんな感じで感想を言い合えたらと思うんですけれども、
じゃあちょっと阿部ちゃんから初感をまず聞いてもいいでしょうか。
わかりました。
もちろんそうですね、3月5日に登場して、
僕はオープンコードで普段最近だとAI開発を行ってて、
オープンコードただ基本的にいろんなモデルをガッチャンコしていろいろと使えるので、
GPT 5.4の素の能力って測るの難しいかなって思ったんで、
まずすぐにコーデックスCLIに切り替えて仕事をするように、
1日2日間くらいそれでやってたんですよね。
まず最初に感じたのがすごく物腰柔らかになったなって感じました。
説明とかが今までだと結構ブッキラボって感じたりとか、
09:00
すごく説明はしょられてわかりにくいなって感じることは、
GPT 5.3コーデックスのとき、それよりも前のオープンAIのモデルって大体みんなそうだったんですけど、
5.4に関しては少しは説明をわかりやすく書いてくれるし、
質問したときも少しは柔軟な感じがしていました。
そういう意味では汎用に寄ったんだなっていうのは感じていたんですけど、
実際にAIとコーディングを一緒にやっていこうってやったときに、
5.4だとたまに間違った判断というか、
あとは筋があんまりコーディングとしては良くないんじゃないかなっていうような推論を出すときがあって、
僕的には5.3コーデックスの方が結局優秀なんじゃないかなっていう風に感じてしまったのが第一印象なんですよね。
もちろん文章を作成するとか会話をするという意味では少し優秀になって、
結構話しやすくなったなと思いつつ、
実際にプロジェクトで開発をしていく上での安心感は個人的には5.3コーデックスかなっていう風に感じたっていうのが一番素直な感想でしたね。
なるほどね。
そんな感じです。
なんかそうだね。僕はオープンコードで使う前提で、
役割として、俺はそんなに安倍ちゃんほどコードの中身とかみたいなのでの判断はあんまりしてないんだけど、
概ね合ってるなーっていうところは、
オーマイオープンコードでシシューポスとかアトラスっていう、シシューポスってジェネラルなオーケストレーター、
アトラスっていうのはプランを進めるプランエクスキューターっていう立ち位置のこの2つのエージェントは、
もともとクロードのオパス推奨でGPT危ないからやめとけっていうのはオーマイオープンコードから警告が出てきたみたいなのがあったけど、
それを5.4にして、GPT5.4のモデルにして、だからGPTモデル使ってるんよね最近。
それで結構動くようになったなっていう感覚があって。
さらに5.4にすることによって、より長時間タスク、もちろんラルフループとかってあるけど、
ラルフループに頼らずとも結構長く回るなみたいな感覚があるので、
12:03
アブちゃんとそんなに感覚としては変わらんねんけど、5.4ツールユーズうまいよねとか、
ブラウザコンプとかいろんな複雑な処理とか作業っていうのができるようになったっていう、
非効力はちょっとその分犠牲にしつつみたいなのがあって、
なんですけど、そのおかげもあって、サブエージェント使うのとかもある意味ツールユーズとあんま変わらんと思うから、
サブエージェントの呼び出し方とか、その辺がうまいのかなっていうのをちょっと感じてます。
だから結構役割としては本当にコードをめっちゃ分析したりとかレビュー返すみたいなのは、
引き続き5.35で使ってて、そっちのほうが頭の固い職人って感じ化して、
逆に安心感があるというか、しっかり言われたことをやってくれるっていう感じがあって、
もう少し全体最適にやったのが5.4みたいな印象を受けてるんで、
一応そういうたてつけにしたら結構うまく動くようになった。
一方でツールユーズっていうところで言うと、これはオープンコードの相性かもしらんけど、
オープンコードでアプライパッチってファイルに変更を加える作業がめっちゃミスる、5.4は。
まだチューニングができてないっていう話だと思うんだけど、オープンコード側が。
めちゃくちゃミスるなっていう印象は受けてます。
なるほどね、そういうことか。
じゃあ確かにGPT 5.3 Codexは結局コーディング能力とか言われたことをきっちりこなすっていうのが得意だから、
そういうコードを書かせるところにオープンコード上では配置しておいて、
今まではシシューポスっていうオーケストレーション的な役割を担うのは、
汎用的なモデルであるクロードとかに任せるのが推奨だったんだけど、
そこをGPT 5.4で代用できるようになったよねっていう感じなんだ。
代用できちゃってるね。
まだGPTモデル使うなよっていうのは今まで通り警告としては書いてるんだけど、
とはいえ普通に使えちゃってるので、おそらく僕の仮説は合ってるんだなっていうところと、
あと安部ちゃんの言ったちょっと間違えることもあるみたいな。
本当の意味で精度の高いコーディングという意味では若干信頼感に欠けるっていう意味でも、
そういう設定にしとくのが今のところ一番いいんだなっていうのが分かったっていう感じかな、イメージとしては。
15:03
確かに。5.4だけでやり切るっていうよりかは、
やっぱりそこは向き不向き的な形で使い分けるといいんだなっていう感じだね。確かに。
そう、みたいな感じで。なので納得感はあるなっていうところですね。
ちなみにチャットでも僕は5.2Proヘビーユーザーなんで、5.2Proを結構使ってたんだけど、
5.4Proになって、じゃあなんかめっちゃ変わったかみたいなところで言うと、
5.2Proから5.4Proは正直あんまりめっちゃ変わったなみたいな感覚は得てない。
そうなんだ。
ちょっと5.4に変わってからめちゃくちゃ大きいというか、
込み入った質問をしてないっていうのもあるはあるけど、
とはいえ今少なくてもだいたいの作業は一緒なのかな。
もっと込み入ったことをさせると違ってくるのかもしれないけど。
でもなんかあれだよね、Xとかでいろいろ見てると、
5.4、チャットGPTのほう、チャットアプリのほうで今まで5.2で使ってた人が、
例えばThinkingモデルとかも、やっぱりThinkingじゃなくてProを使ってるほうが圧倒的に推論力高いけど、
5.2でThinking今まであまり使える感触なかったけど、
5.4になったら結構使える感触あるみたいなふうに言ってる人もいて。
俺Proしか使わないからな、Thinking使えへんのよ。
Thinking使うんだったら自分…え?
Pro信者だからね。
Pro信者っていうか、Thinkingは別に自分で考えたほうが早いと思っちゃうんで、
みたいな感じで。
そう、あんまりThinking使う利点が思い浮かばなくて、
Proしか使ってないから、Thinkingが逆に使えるようになってきたのかな、じゃあ。
なんかPro相当の考察力だみたいなことを言ってて、
山ちゃんはProがすごいいつも使ってるから、Thinkingでもそこまでいくんだったらいいんじゃないかなって。
それはいいかもしれない。
それが相談だとしたらめっちゃ嬉しいかもしれない。
待つの結構大変だからね。
かなり時間かかるからね、あれ。
もしそれがそうであればの話なので、ちょっと試してほしいなとは思ってる。
5.2のThinkingちょっと使って、これはダメだってなって、たぶん使わなくなったから、
たぶん使っても変わりが分かりそう。
18:03
な気がするわ。ちょっと使ってみようかな、じゃあ。
なるほどね。
まぁちょっとそんな感じで、
だから振る舞いとしては、たぶんコミュニケーション、
アブちゃんとかコミュニケーション取りづらいってずっと5.3コーデックスに対して言ってたから、
取りやすくなったんじゃない?
まぁね、そう。
でもなんか最近、コーデックスとコミュニケーション取ること自体、
そもそもあまり諦めてるというか、
5.4で取りやすくなったとはいえ、
すごいクロードっぽい、分かりやすく説明してくれるわけではないので、
別にそこは僕にとっては重要、
コーデックスを使う上では求めてるものではなかったかなっていうふうに思ってたから、
結構思い返したんだ。
そう、別にここは重要じゃないなって、
開発をする上で。
やっぱり鋭く推論してくれて、
ちゃんと破綻がないことであったりとか、
実装として不自然じゃないことをしっかりやってくれるっていうの方が、
はるかに重要に感じていて、
もし分かんないなって思ったら、
俺は結構GLMモデルを立ち上げて、
脇で聞いたりとかしてたんですよ。
この計画についてどうなんですかとか。
なので、
それに慣れてたから、
しかもコーデックスCLIを使う上では、
それが一番パフォーマンスが出るなって思ってたんですけど、
オープンコードでGPT 5.4を使ったりとかすれば、
結構オープンコードでやれば、
よりちょっとクロードっぽい振る舞いもしてくれると俺は感じてるので、
オープンコードで使ったら結構いいんじゃないかなっていうのは感じますね。
コーデックスCLIだとそこまで5.4は求めてなかったのかなみたいな、
そういう印象を今受けてます。
なるほどね。
ちなみにそんな阿部さんにちょっとだけいい情報がありまして、
今日知ったんやけど、
オープンコードを使ってるっていう前提になんやけど、
今日結構いろいろオープンコードの設定いじって、
コンパクションのモデル枠とかいろいろやってたと思うんやけど、
テキストバーボスティっていう、こういう読み方なんかちょっとわからんけど、
っていうのを設定できるんですよ。
テキスト冗長度っていうのを設定できるんですよ、各エージェントに対して。
21:04
GPTモデルは一律でローに設定されてんねんって。
あーそうなんだ。
オープンコード上でなのかな。
詳細なとか情報量のある程度ある説明を求めるときは、
それをミディアムぐらいとかにしておくと可能性出てきそうだなっていう、
いちいちGNNに行かなくてもみたいな。
確かにそれはやってみてどうかはちょっと検証してみたいですね。
そういうローとミディアムとハイでGPTモデルは基本的にローでやるみたいな。
マジでオープンコード設定いろいろできていいね。
いいよね。コンパクションの時のモデルはこれにしたいとか、
あとフォールバックモデル、またオープンコードの話に舞い戻ってくるけど、
フォールバックモデルこれにしとくとかめっちゃ設定できるもんね。
感動しました。
今日そのフォールバックとかコンパクションの話を聞いて、
あ、そうなんだって。しかもフォールバックに関しては多段にできるというか。
そう、複数モデル。
GPTがダメだって。
それがすごいいいなと思った。
若干ね、フォールバックモデルに関してはバリアントを設定できないとか、若干あるけど。
あくまでフォールバックって感じだもんね。
まあ、とはいえいいよね。
そういえばGPT 5.4って100万トークンをサポートしたと思うんだけど、
使ってみたりしました?
いや、してない。
僕もね、ちょっと不安で使えてないんですよね。
なんかベンチマークで、
GPT 5.4の100万トークンが、コンテキストウィンドウが100万トークンに達するまで、
どれくらい精度が保たれるかみたいな、
そういうベンチマークがあって、それ見てたら、
最初は80%、90%と当然優秀な性能なんですけど、
そこから100万トークンに向けて、
256系トークンを超えたあたりから結構急速に精度が落ちていって、
100万トークンに達する頃には、
30何%みたいなぐらいまで落ちていくっていうのを見かけたときに、
いや、これなんか使えるのかなっていうのがすごい疑問だったんですよ。
で、ちょっと不安だから、実運用上でちょっと使うの怖いなと思って、
24:01
僕はできてなかったって感じなんですよね。
はいはいはいはい。
なるほどね。
あれってさ、何かで設定できるの?
確かできたはず。
Codecsでモデルを選択するときに、
Codecs CLIか。
これはもうオープンコードだからな。
オープンコードでどうやるかわかんないんだよね。
いやけどオープンコードでどうやるかは、
あのコマンドで多分わかるはずなんで、
あそこに書いてないんだったら、もうあれかもしんない。
オープンコードモデル、オープンAI、
リフレッシュ、バーボスっていうやつで、
多分書いてないと思うよね。
できないのかな。
うん。
あ。
1Mとか。
あ、違うわ。
あ、オープンコードはもうデフォで100万トークンだ。
あ、そうなの?
うん。
オープンAIすらGPT-5.4でリミットって書いてて、
コンテキストが105万って書いてる。
おー。
じゃあもう自動で適用されてるんだ。
うん。じゃあそういう意味で俺は使ってるってことか。
おー。
ってことはじゃあロングラウンしててそんな気になってないとかだったら、
意外といけるみたいな?
そうやね。今のところそんな気になってないかな。
はいはいはいはい。
うん。気になってないかもしれない。
そうですね。気になってないですね。
じゃあ意外と平気なのかな。
まあちょっとね。
100万トークンに行った時にオーパス4.6とかだと、
もともと256系のトークンの場合は90%上回る精度だったものが、
オーパス4.6とかだと78%まで減りますよ。
なんですけど、GPT-5.4に関しては36.6%っていうのが出てて、
もうこれ半分以下になってるって結構怖いなって思ったんですけど、
意外とそこはそれでも大丈夫な何か仕組みが逆にあるのかもしれないですね。
いやーどうだろう。なんかそこまで繊細になってたら変だけど。
ガーって進める業務ばっかり最近やってもらってたから。
27:01
ともそも気にならんかったみたいなのもあるかもしれない。
逆にさ、コンパクション全然最近走んないなって思ったりしなかった?
いや、走ってた走ってた。
うん、走ってたね。
あらま。
だからコンパクションのね。
まあ設定してるって感じだよね。
そうそうそうそう。
確かにけど、あれだわ。28万トークン消費で27%だから。
いやけど、そうだ。だからな。
え、まだ20%なんて思ってたわ俺。
あー。はいはいはい。
やっぱそういうことなんですかね。
思ってました。そういうことですね。
そういうことですわ。
そっか。
気づかんかった。
でも、俺もオープンコードでGPT5.4を最近は使っていて、
100万トークンになっていることを俺も今の今まで知らなかったから、
そういう意味ではあまり気にしなくてもいいのかもしれない。
かもね。
てかそもそもさ、
別にだってそもそもコンパクションをしたときにそんな気になってなかったもんな。
最近。
個人的には最近コンパクションしても全然性能落ちないなって感じがしていたので、
正直256系のもともと、あれか。
GPTモデルは400系トークンぐらいがコンテキストウィンドウだと思ってるんですけど、
そのぐらいでコンパクションして次に進んでくれるで、
僕的にはもうそれでコンパクションが何回起きてもいいかなっていう感覚で正直いたんですよね。
だから100万トークンに増えて100万トークン周辺で精度が落ちるよりも、
もっと手前でコンパクションして刻みにやってった方がむしろパフォーマンス上がるのでは?みたいな気持ちも若干あった。
ちょっとこれはわかんないですけど実際は。
霧のいいところでコンパクションしたほうがそれはいいよね。
うん、って思ってます。
まあまあまあまあ、そうなんだ。気づかんかったな。
ちゃんと見てなかったっていう。
まあそんな感じで、けど5.4。
けどこれからチューニング入るんじゃない?
ソネットもさ、初め100万トークンの時、確か結局のところ元々のトークンを超えたタイミングから
もうめっちゃ性能劣化するからダメじゃんみたいな。
ああ言われてたね。
30:00
言われてたから、ここからチューニングしていくからまあいずれ良くなるんでしょうね。
まあまあそういうことなんでしょうね。
そういうことだよね。
気になるのはあれだよね、サブスクリプションの減り方?
256K以上の時になんかちょっと変わるみたいになってないかどうかだけ気になるかなって感じ。
たぶんこれね、リミットの消費は激しくなりますよ絶対。
いやなんかね、どれだったっけな、9円だったかな。
9円かなんか100万トークンのできるよみたいなモデルがあって、
それがなんか256K超えてからのトークン消費をなんか結構上乗せてやるみたいな。
設定次第で100万トークンいけるんだけど、
256Kからそれ以上のトークン消費はなんか結構お金多めに取るよみたいなのがあったりしたんよね。
それはAPI課金で、要はトークンあたりの100万トークンあたりの料金が上がるよって感じじゃん。
そうそうそうそう。100万トークンのやつを使えばっていう。
こんだけ上がるよみたいな。
それと同じのになってないかだけちょっと気になるなって。
なるほどね。
そうそうそう。
それはわかんない。
なんかサブスクリプションモデル、サブスクリプションでのリミットの消費は、
100万トークンを使ってる方が加速するんだろうなっていうのは、原理的には理解。
原理的にそうなるだろうなって感じてるんですよ。
はいはいはいはい。
それはほら、1ターンごとに過去の履歴を含めてコーデックスのサブスクリプションを叩くので、
会話が長くなってロングコンテキストになればなるほど。
そういうことだよね。
相受信するトークンが増えるからね。
けどあれだな、今オープンルーターのAPI見てみたんやけど、272Kまではインプットプライスが100万トークンあたり2.5USドル。
で、アウトプットトークンが15USドルやねんけど、
272Kより上になると、インプットが倍の5ドルになって、アウトプットも1.5倍か、の22.5USドルになってるので、上がるね、これは。
これさ、そう考えたら、オープンコードとか使ってるときも、できれば200Kトークンとかで足切りするとか、400Kトークンぐらいで足切りして、
33:04
したほうがいいね、これ。
じゃないとリミットの消費がむしろ加速するっていうのが起きるよね、絶対に。
そういうことやね。
その設定ができればいいね、逆に。できるかな?
多分できると思うよ。
はいはいはい。
じゃあ、それはやっといたほうが良さそう。
そうやね、272Kまででコンパクション走るように設定するかがいいね。
そうしましょう。
なるほどね。
でもそれが知れてよかったわ。
そうやね。
そんな感じで、何の話なんだって感じやけど。
いや、けど絶対そうしたほうがいいわ。
だからかコーデックス減り早いなって。
なんか言ってたよね、減り早くなったって。
終わったんかなとかって、あの2倍のボーナスステージとかって言ってたけど。
言ってたけどね。
そういうことだわ。
多分そっちですね。
うん、なるほど。
了解です。ありがとうございます。
はい、じゃあそんな感じで、なんか本当の日常の会話みたいになっちゃったけど。
今日はこんなもんですかね。
はい、今日はこんなもんで。
はい、じゃあ本日もありがとうございました。
ありがとうございました。
はい、ありがとうございます。
本日もAI駆動開発部の日常をお聞きいただきありがとうございました。いかがでしたでしょうか。
こんな感じで、いつもAI駆動開発を行っている中での話を発信しておりますので、
こんなトピック話して欲しいよとかあれば、いつでもコメントでリクエストいただけますと幸いです。
このポッドキャスト気に入ってくれた方は、いいねやフォロー、高評価ぜひお願いいたします。
それではまた次回もお楽しみください。バイバイ。