2【Claude Sonnet 4.5】GPT-5-Codexより優っている？

クロードソネット4.5の紹介

こんにちは、AI駆動開発部の日常へようこそ。このポッドキャストは、日々AI駆動開発を行う企業家の山本とエンジニアの阿部が、AI駆動開発のリアルを色々と語り合う番組です。

はい、ではですね、今回2回目ということで、よろしくお願いいたします。

よろしくお願いします。最近、41℃の熱を出して倒れていた阿部さんが復活しまして、

41℃まで上がると、本当に死ぬ危険を感じるなっていう、必死と感じて戻ってきました。

はい、そんな話はさておき、皆さんが知っていることがあると思うので、その話をできたらと思っております。

最近ね、クロードのソネット4.5が出ましたね。来ましたね、ついに。

なのでこの収録をしたくてウズウズしてたんですけれども。そうね、風邪で寝込んでる時に限ってこういうの出てきちゃうからね。

実際に僕自身もソネット4.5を使ってて、前回はコーデックス一択とか言ったのに、一旦ちょっとクロードに浮気しておりますと。

阿部ちゃんも今、クロードのコードとコーデックスの比較みたいなのをちょろっとやった、みたいな状況かなと思ってますので。

結構みんな気になってるところかなと思うんですけども。結局ソネット4.5になってどうなの?みたいなところを、

結構AIの性能というか、エラーとかあったりとかするから、移り変わりは激しいっていうのはあるかもしれないですけれども。

今日10月2日ですね、時点でのどんな感じかっていうところの話をできたらと思っております。

まずはじゃあ阿部ちゃんからソネット4.5の軽く概要を。まず比較の前にね、概要を。

4.5どういう違いがあるのかなってちょっと調べてみると、スイーベンチっていうエンジニアリング能力を比較するベンチマークがあるんですけど、

それがGPT5と比較しても高いスコアを持っていて、どのモデルよりも一番高いよっていうところでアピールしているところが1個ありました。

他にもユーザーに対する忖度をしないですよっていうところのスコアの高さも一番高くなっているっていうところを言ってまして、

これも同じくGPT5とかよりも高い性能だっていうところで歌っていたってところになってました。

ユーザーの選択っていうのは結構僕らにとっては重要かなと思ってて、結構今まで例えばコーディングしている中でAI駆動開発している中で質問をしたときにその質問を正当化するようにおっしゃる通りですっていうふうな

回答をすぐAIって返してきたりするんですけど、それはあまり忖度してほしくなくて、もう汚い意見をバンバン投げてほしいなと思っているので、できるだけ忖度しないっていうスコアが高いほど僕らは嬉しいんですけども、

今回このSONNET 4.5がどのモデルよりも高くなったっていうふうな形になっているみたいです。

ちょっと余談というか脱線しますが、その選択の回避するためにASKコマンドみたいなのを無事に作っておいて、事実ベースでちゃんと回答しているのかとか、ちゃんと正直に回答しているのかとか、

その信頼度であったりとか、忖度回避度みたいなのを最終的に自分で考慮した上で、一度分析した上で教えてくれみたいな、そういうのをプロンプトに落とし込んでいて、やってたりするぐらい、結構この忖度って大事よね。

そうだよね。ここ一番結構僕の中では重要視しているところかなって思った。

なんか不具合とかあってもね、全然忖度されると、いやいやいやみたいな話になるからね。

性能比較と実用体験

はい。ちょっとずれましたが。

大まかな性能の向上みたいな部分だとこのぐらいで、あとは既存のモデルでオーパス4.1っていうフラグシップモデルがあったんだけど、これのベンチマーク基本的に上回っているっていうので、かなり高性能なのかなっていうのがすごい僕の中で期待値が高い状況でした。

ありがとうございます。そんな感じのソネット4.5なんですけれども、実際にじゃあちょっとアベちゃんのCodeXとソネット4.5フロードコードで試した結果みたいな、どんな検証をしたのかみたいなところを含めて聞かせていただいて、

で、その後僕が実務ベースで開発で使っている中での感想とちょっとこうすり合わせて、まあなんかこんな感じだよねみたいなのが、まあなんかね、僕たち2人とも使っているっていうのが結構特殊かなと思いますので。

そうだね。僕はよく、まあ、自宅の案件とかでお客さんの質問に答えたりとか、まあそれは仕様だったりとか、不具合の調査とか、あとはまあ回収とか新規開発とかいろいろやったりするんだけど、なんかその比較的簡単なタスク、まあサクッと答えられるようなタスクとかをまずソネット4.5で試してみたんだけど、

ソネット4.5を使ってみて最初に思ったのが、結構回答が早いっていうふうに感じました。

で、これまでGPT5はすごい回答が早いなっていうふうに感じていて、まあクロードコードの方がやや遅いなっていうふうに感じていたんですけども、今回ソネット4.5を使って、まあどれよりも一番早いような体感は受けてましたね。

で、その上でより複雑なタスク、まあ僕一人じゃ解けないような調査タスクとか複雑なタスクをお願いしたときに感じたのが、ソネット4.5結構やってくれるなとは思ったんですよ。

で、じゃあ試しにと思って、コーデックスのGPT5のコーデックスモデルで検証してみたところ。

ハイやんね。

あ、そうそうそう。ハイで検証してみたところ、ほとんど同じような結論に至ってて、まあかなり、まあ結構しているなっていうような感じでした。

ただ、細かいところだけで言うと、そのクロードの方、クロードコードの方は、少しその、例えばそのチケットに記載してあるような曖昧な表現だったり、

まだなんか、推測レベルの会話の中身とかも拾い上げてきてくれて、ただそれに引っ張られてしまって、ちょっと表現が違うんじゃないかなっていうところだったりがあって。

損託してるってことですかね。

そう、ちょっと損託してるんじゃないかな、あれっていうところが1個あったんだよね。

で、一方でGPTじゃないか、GPT5のコーデックスハイの方。

そっちに関しては、もう本当にコードに書いてあることだけを、とにかく事実ベースで突き詰めて回答してくれてるなっていう感じがあって、特に余計なことはもう一切ない。

もうコンパクトにパッて答えてくれるなっていう感じが。

コンパクトは結構良い意味でのコンパクト?

あのね、良い意味でもありつつ、ちょっとコンパクトすぎて読みにくいなっていう、そういう部分はちょっと、もともとコーデックス、出力が読みにくいなっていうのはずっと感じていたので、これは引き続きかなっていう感覚ですね。

どっちの方がいいとかあるんですかね。

そうね、これどっちの方がいいのかちょっとまだ悩ましくて。

なるほど。

うーん。

ちなみにコンテキスト消費とか、その辺は差はあったりしたの?

そうだね、コンテキスト消費に関しては、コーデックスの方は、その複雑なタスク、比較してお願いしたときに、コンテキストの消費量っていうのが40%ぐらいしか消費しないで調査完了したんだけど、

残り60%あるぐらい。

残り60%ぐらいある。

だけどクロードの方、クロードコードの方は、30%ぐらいまで?

サブエージェント使ってんの?その調査に。

それは使わなかった。コーデックスも使わないから、クロードも一旦それでお願いしてみたら、もう30%まで使い、残り30%っていうところまで使ってて、結構コンテキストの消費は激しいんじゃないかなっていうふうに感じた。

なるほどなるほど。

もしかしたら、クロードコードはサブエージェントとかがあるから、もうちょっとドラクティックに使っていくとかっていう戦略があるのかもしれないし、単純にモデルの性能としていっぱい消費してしまう。

あとは、さっき言った忖度の話があると思うんだけど、なんかそのチケットとか、その課題に、お客さんから問われた内容に対してより忖度してしまった結果、回り道をして答えにたどり着くまでに回り道した結果、コンテキストを多分に消費してしまったっていう可能性もあるのかなっていうふうに思うかな。

実務での問題点

今のところはコンテキスト消費とかあるけど、サブエージェントを使ったらある程度、まあまあまあまあいけるよねっていうところもあると、評価としては逆行してるかなみたいな感じ。

すごい逆行してるような感じがしますね。

了解です。じゃあ次は僕があれかな、実務的に実装とかしてもらって使ってる中での、今現段階での評価って言ったらちょっとおこがましいけど、

評価っていうよりはどちらかというと実体験ベースでこんなことあった、これはCodexじゃ起きなかったとか、そういう話できたかなというふうに思ってます。

まず1個目起きたことが、僕とか普段開発、どちらかというと新規開発っぽいことを僕はやることが多くて、なので結構割と大きい開発タスクが多いです。

変更したものを一度ステージングして、ステージ上げて、それでステージした分を分析してプルリクエスト作ってとか、そういうお願いをすることがあって、それ用のスラッシュコマンドとかも作ってたりするっていう感じなんですけれども、

今日なんと、クロードコードソラット4.53はですね、プルリク作ってっていう指示なのにも関わらずデベロップ、自家プッシュタローをするっていう、なんとの新事件が起きましてですね。

説明しよう。自家プッシュタローとは、開発現場においてエンジニアとしてはあるまじき行為である、デベロップやメインに直接コードをプッシュして反映してしまう行為を揶揄するための造語である。

本当はしてはいけないことだからね。

本当はこれはしてはいけないことなんだけれども、知らせて、それもうダメだから戻してって言ったら、間違って変更履歴ごと全部消しちゃって、もうどうしようもないみたいな状態になってて、いやマジかよって思った。

そういうことが起こりましたと。これはちなみに僕はコーデックスずっと使ってきて、一度も起きたことがない。

そうなんだ。

そう、一度も、本当に一度も起きたことがない。そして、もうこれクローブダメだなと思って、コーデックスにこんな感じで消しちゃったから直してよって言ったら、ちゃんと復元して、ちゃんとVR作るところまでやってくれてたっていうのがまず1個ある。

クロードソネットの機能

あれだよね、スラッシュコマンドにそういうふうになるんでしょ。デベロップとかに自家プッシュしちゃダメだよねみたいな。

そうそうそうそう。

話もしてるもんね。

話もしてるしてる。で、全部ことも細かに書いて、ステージしている変更を分析して、その上でそれに適したブランチ名でブランチ切って、コミットしてプッシュして、VR作るみたいな流れになってるんですけども、そういう出来事がありました。

あともう1個あったのが、今シフト管理ツール。結論それとちょっとダメかなって思ってる。先に言っておくんですけど、今シフト管理ツール、近体管理含めてみたいなのを作ってるんですけども、その中で近体の確定をさせる締め機能みたいなのがあって、月締め機能みたいなのがあって、それを今の段階、MVPの段階だといらないから消してよっていう依頼をしたっていうタスクがあったんですね。

で、それで消してもらいましたと。で、それが直プッシュタローされちゃったんだけど。で、それでそれにちょっと近い機能があったんですよね。

で、それにちょっと派生機能みたいなのがあって、それも消していったんですよ。で、それはシフトリクエストっていう、まあ、チェンジリクエストかどっちかというと、シフトのチェンジリクエストの1個のプロパティを消すみたいな小さい機能だったんですけども、

で、それを消してよっていう依頼をしましたと。なんですけども、これなんと、チェンジリクエスト、シフトのチェンジリクエストの機能っていうのを僕は活かしといてほしかったんですよね。

なのに、チェンジリクエストの1個のプロパティを消すだけなのに、チェンジリクエストのプロパティから派生して、チェンジリクエストまで消さないといけないんだって何思ったのか、とちくるったみたいな計画を出してきて、

で、僕が計画を見て、「あれ?こいつ、こいつチェンジリクエスト丸ごと消そうとしてるんじゃね?」って思って、聞いてみたら、すみません、私が間違えておりました。

Codexとの比較

よくあるムーブね。

そう、よくあるムーブをかましてきたわけですよ。で、これ、クロードよくあるなって思ってて、それは前から、実はCodexから前ずっとクロードコードを僕使ってたんですけど、

これマジで、ちょっと関連する文字を見つけたら、それを性として突き進んじゃうみたいな癖がクロードコードある気がしていて。クロードのモデル時代なのかな。オパスでもソネントでも。

その性質がもうね、予実に現れた結果だなと思って、そう考えると、ほとんど丸投げしたい僕みたいな非エンジニアからすると、いやーCodex一択変わらないなーって。

僕、これ使い始める前、結局クロードとか何か出した翌日言ってるかもなーとか、この前回の動画ではCodex一択って言ってたんですけれども、そこをクロードに乗り移った、しりがるなやつみたいな感じになっちゃうかなーって思ってたんですけど、

今使ってる限りでは、もうちょっと使い続けたいなと思ってるんですけど、まだCodexの方が部があるというか、信頼度があるって言うのが正しいのかな?っていう。

まだね、出てそんなに経ってないから、ちょっとしか経ってないのにもかかわらず、これぐらいかましてきたみたいなところが、ずっと僕的にはあるなーって。

あとコンテキスト消費は、正直、僕結構クロードコード使ってたとき、サブエージェントを基本的にバーって使ってもらうっていう前提で、サブエージェントだと昔だったらだいたい全体のコンテキスト量の1、2%ぐらい消費なんですよ。

与える指示と返ってきた指示で、だいたい1%から2%ぐらい消費するなーって。

一回のラリーの。

そうそう、感覚があったんで。だから、今このタスクでサブエージェントにこの段階で渡したら1、2%消費だから、残りこんくらいでコンパクトせずギリギリいけるなみたいな、そういう感覚で開発をすることが多かったんですよね、クロードコードのとき。

なんですけれども、今回サブエージェント使ってるのにもかかわらず5%ぐらい一気にガクって少なくなったりとかしていて、中のロジックが変わったのか何なのかわかんないんですけれども。

サブエージェントの恩恵がちょっと減ったんじゃないかなっていうのが、ちょっと今僕が使っていての所感。

今のはあれですね、昔のクロードコードと、せっかくサブエージェントっていう唯一の特性というかいいところがあるのにも、もちろんスラッシュコマンドに引き継が与えられるとか、いろいろクロードコードのツールとしての成熟したところはあるけれども、

やっぱりサブエージェントは特筆すべき点だったわけですよ。なんですけれども、やっちゃったなーみたいな所感を受けているのが今の現状ですね。

なるほど、これあれなのかな。まずサブエージェントのこのテキストの消費が多くなったっていうところは、もしかしたらクロードコードのバージョンも、

まあ今回その4.5が出るにあたって、N2にメジャーアップデートをしたわけじゃないですか、そこで何かバグみたいなものが仕込まれているって可能性もありそう。

まあまあ、なきにしもあらずや。

もうちょっとじゃあ様子見たい。

ここに関しては、まあそれはある。

なんだけど、まあ今のところはちょっと残念かなーみたいな。

コーデックスももちろんね、セレナMCPでリプレイス使ったら謎にカッコが残るとかっていうバグがあったりするんですよ。

そういう細かいバグはあるけど、まあ今のところちょっとクロードコードの方が、もしこれがバグなんだとしたら辛いなーみたいな。

そうですね。まあそうだな。あとはあれかな。

ちょっと小さめの指示を与えたはずなのに、大袈裟に捉えて周辺のところまで削陥してしまうっていうところの話。

性能の評価

僕はね、逆にコーデックスで感じることが最初多かったんですよ、実は。

これでもただちょっと性質が違くて、僕がコーデックスに依頼してた内容って、ドキュメントの作成とか、再生をお願いしてるときにこの現象がよく起きていて、

なんかこの表現を全体を通してやってるとちょっと違うから、こういうテイストにしてとか、

まあここの部分だけこういうテイストにしてっていうところを伝えたわけで、そこのファイルの中身なんでしょう。

例えばファイルの中のここだけっていう指定をしてたにも関わらず、ファイル全体を変えてしまったりとか。

ああ、けどそれはAIの特性っちゃ特性っぽい気がするけどね。

さらに言うと、なんか俺の言ってた余計なことやっちゃったは、論理破綻してる。

それ消したらまずいよねみたいなところをやっちゃってるから、余計なことをやったとかそういうレベルじゃないんだろう。間違ってるんよ。

だからチェンジリクエストをもし仮に消したら、他に依存関係のある機能があるから、バグるから消しちゃダメな機能だったんよね。

でもそれで言うと、そのドキュメントの部分も全体変えちゃうとおかしくなるので、ここだけっていう指示をした上で全体…

文章のここだけはあんまり効かんイメージがあるけどね。どのモデルであっても。

そうか。

なんかやっちゃうなーっていうイメージはある。だから細かい指示出しは、俺は割と諦めてるかなーって思ってるけどね。

ほんとドキュメントに関しては、クロードのその指示は割と守ってきてくれてる感覚がある。

そうなんだ。俺、ドキュメント生成プロジェクト始めの方でクロードコードでやってたんだけど、ダメだった。

ダメだった。

だから何かが違うのか、何なのかわかんないですけど、だから僕抜き出してそこだけをクロードのチャットアプリとかで直させて、

で、すげ返るみたいなことをしてた。

あ、そうなんだ。

そう、部分的にドジョイられたいって。

努力をしてるね。

職人の手によってコピー&ペーストを繰り返すっていう。

なんか原始的だよね。ちょっと今考えると原始的だよね、相当。

そうそうそうそう。

まあでもそうだよね、コードを、まあそもそも実装として破綻してるようなことをしてきたっていうのが今回のクロード。

そうそう、なんかおせっかいじゃ済まないことをしてきたっていう認識かな。

なるほどね。

クロードコードっておそらく汎用エージェントとして作られてて、コーデックスってコーリングエージェントとして作られてるんで、そこの思想の違いってありそうかなって気がしてるんですけど。

まあそうかもね、まあプログラマー的な脳でとにかくやるのか。

特にコーデックスモデルとかはコードに特化して。

クロードコードはさ、最近アンソロピック自体が推してるじゃん。

汎用エージェントとして、他のこういうファイナンスのエージェントとしても使えますよとか、エージェントSDでみたいな。

そういうことを推していってるから、相当薄く作られてるがゆえに、エンジニア独自のやってほしい振る舞い、アンチパターンみたいなのを軽視されてるとかあるかもしれないですね。

確かにコンテキストとしてね、そもそも入っていないというか、薄いのか。

そもそももっといろんな情報を入れられてるから、汎用エージェントとして保つために。

そうだね。

思想というか、そういうのが影響しているのかなって。

あるかもしれない。あるかもしれないというか、たぶんあるでしょうね。

あとやっぱ、コーデックスというか、GP Divineの方がローリー的な思考?破綻がなくっていう思考力はやっぱ強いよね。

キッズダケオとかもそうだし、そこにはやっぱクロードはまだ至ってないんだなっていう。

頭いいんだけどね、前提として。

まあね、ここまでやってくれる?みたいなのはあるけどね。

でもいろいろなスコアが今回伸びて。

嘘なんじゃないかなって。

GP T5のモデルを上回ったとはいえども。

でもなんか今思うと、アンソロピックが出したモデルのベンチマークって、あくまでGP T5とソネット4.5の比較なので、

GP T5、コーデックスハイとの比較はまだそういえばなかったな。

GP T5の時よりもひどいけどね。

ひどいけどね。

比較すると。

僕はGP T5とコーデックスはそこまで大きな違いを感じなかったんですよ。

AIスコアリングの議論

GP T5ハイとコーデックスハイはそこまで大きな違いは感じてない。

けどなんとなくコーデックスの方がいいかなくらいで感じてるぐらいなんですよね。

もちろんエンジニアが見たら生成されるコードがよりプロのエンジニアっぽくなるみたいなのとかはあるかもしれないけど、

個人的にはそれも嘘なんじゃないかな?

どうなのかな?って気持ちがある。

正直エンジニアの視点からしてもすごい如実に変わってるって感じはあんまりしなかったかな。

なんかね、あんま変わってないよね。

ちょっとアンソロピック社には嘘って言ったら怒られそうだけど、

どういうベンチマークなんだろうね。

ちょっと不思議よね。ベンチマーク、3Dベンチに関しては、

いろんなタスクを行なさせる中でのどれだけ解けたかってパーセンタイルだと思うんだけど、

結構なんか、例えばオープンハンズとかも3Dベンチでやってて、

すごい高いスコア出すじゃん。あれ本当なのかなとか。

結構いろんなモデルが常に高い値出してて。

ベンチマークでスコアリングできる、

俺らがさ、今LLM、コーディングエジェントに求めてる能力。

ベンチマークでスコアリングできる能力なのか謎よね、正直。

若干謎ではあるよね。

もちろんね、プログラミングの試験みたいな、問題とかを解くみたいな。

そういう形だと単純な頭の予算みたいな。

アットコーダー的なね。

競技プログラミング的なものだったり、

もうシンプルにこういうものを作ってくださいっていう、

割と決まったものを作るのか。

いろんな環境とか、

こちらのCGのちょっとした言い回しとか、

コードベース全体の設計思想とか、

いろんなコンテキストを不足しているものも生みないながら、

それこそ事実だけをちゃんと捉える力があるのかとか、

その選択肢ないとか、

そういうのがまた違う能力なのかなって。

若干ね。標準的に測るってなると、

そういうところに落ち着いていくっていうのはあるのかもしれないけど。

分かりやすいし、標準的にね。

あれで、はいって言われたら、おーい!みたいな。

テンションは上がるよね。

こいついいじゃん!みたいなね。

僕のイヤホンに求めるものと一緒ですね。

マイク性能を求めてるんだけど、

誰もマイク性能に言及しない。

なぜなら伝えるのを伝えづらいからみたいな。

そうね。

そういうのに近いのかもしれないね。

そうなのかな。

スマホとかもさ、薄さとか重量とか、

やっぱ低量化して伝えやすいものをみんな頑張るんだけど、

そこじゃないんだよなーって思うんですよね。

使う人の視点で言うと。

そこを基礎やってる。

レンズのとかもそうだけど、

レンズの大きさが1インチだったらいいと思いきや、

写りの良さ?写りが好みに合うかは、

全然指標とは全然違うわけじゃん。

色味とかっていうのはずっとスコアリングされないからさ、

そういうのと同じ世界に入っていってるのかなって。

AIのスコアリングっていうところだな。

そうそうそうそう。

実務で使えるかっていうのは意外と測りにくいな。

そこはなかなか測りにくいよね。

けどちょっと継続的に使ってみましょう。

前提、こんなの言いましたけど、クロードコード自体はすごい。

クロードコードの実用性

やっぱサブエージェントを平律で動いてくれてるのを見るとテンション上がるんですよね。

そうだね、スラッシュコマンドも引数を渡せるってだけで幸せを感じれば。

だからやっぱコーデックスのコーデックスでツールとして足りてないところが多い中で、

クロードコードの期待値が高すぎて、

逆にちょっと文句ばっか言ってるやつみたいになっちゃったんですけれども、

前提クロードコードを期待してます。

本当に頑張ってほしいと思ってる。

って感じですかね。

じゃあそんなもんで。

今日は以上ですか。

今日は以上ですかね。

はい、じゃあありがとうございました。

ありがとうございました。

はい、AI駆動開発部の日常いかがでしたでしょうか。

はい、今回クロードソネット4.5ですね。

新しいモデルを実際に試してみての初感を話し合うというような回になりました。

はい、意見を2人とも好きかって言いましたけれども、

本当にクロードコード自体すごいツールとして優秀なので、

ぜひ使ったことない方は使ってほしいなというふうに思います。

はい、ちょっとこのチャンネル始めたばっかりなんですけれども、

ぜひこちら励みになりますので、

コメントであったりとかお便り、

あといいねとかフォローとかしていただけると大変助かります。

はい、では次回も発信していければと思いますので、

引き続きよろしくお願いいたします。

ありがとうございました。

じゃねー。

スターの数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

AI駆動開発部の日常

サマリー

目次

スターの数

コメント

こちらもおすすめ