GPT-5.5は高いけど強い？ Cursor 3.2マルチタスクの進化とClaude Designによるデザインの民主化 #デブログfm #013

GPT-5.5の性能と価格

今日はGPT-5.5の話と、それからCursorの新しいバージョン3.2と、最後、ClaudeDesignについて少し話していきたいというふうに思っております。

今日メインで話したいのは、まずGPT-5.5ですね。オープン絵が出した新しいモデルになっております。

まずはじめにちょっとスコアを見ていきたいですけれども、ターミナルベンチ2.0で82.7%のスコアで、これは1個前のGPT-5.4が75.1%なので7%ぐらい伸びていますというところと、

Claude Opus 4.7と比べると、Claude Opus 4.7は69.4%なので、それも上回っていますというところです。

それからGDPVALですね。これの評価もGPT-5.5が84.9%、GPT-5.5が84.9、GPT-5.4が83.0なので上がっていますというところと、

Claude Opus 4.7が80.3%なので、これにおいてもClaude Opusも超えているし、1個前のGPT-5.4も超えていますというところです。

非常にいいスコアが出ております。ただですね、ちょっと料金を見たいんですけれども、

API料金は入力が100万トークンあたり5ドルで、出力が100万トークンあたり30ドルとなっています。

これはですね、書籍がかなり高いと言わざるを得ないですね。

Claude Opus 4.7、アンソロピックの今出ているMITOSを除いたモデルの中では一番高いモデルですけど、

これは入力は同じく5ドルなんですが、出力は25ドルなので、Opusよりも高いという単価感になっております。

さらにさらに比べるとですね、カーサーのComposer2、私が前から言っているこれはおすすめですよというモデルですけれども、

これはなんと入力は0.5ドル、出力は2.5ドルというところで、12倍ぐらい差があるというところがあるので、

かなり使いどころを選ばないといけないなという体感というか、現実的な問題はあります。

一方で実際に私もこのGPT 5.5をカーサー経由で使ってみたんですけれども、

ベンチマークのスコアに出ている通り、非常にいい性能が出ているなというふうに思っていて、

ドキュメント作成もコード作成もいろいろやってみましたけれども、

ありかし曖昧な指示であっても、あなたがやりたいことってきっとこういうことですよねみたいなことを

概ね汲み取ってくれて、自分が欲しかった出力を出してくれるというところの強みがあるなというふうに感じています。

それ以外のモデル、例えば、アンソロピックのOpusとか、あとはComposer2もそうなんですけれども、

ユーザーの指示が少しでも曖昧だと結構違った出力になってくることがあるんですよね。

これは当然のことだと思うんですけれども、今まではそういうのが当たり前だったんですが、

このGPT 5.5はユーザーが思い描くこういうふうなものがアウトプットが欲しいというものに対して、

入力が曖昧だったとしても、ある程度の目的としたものが出てくれるというところがあるので、

それがすごく強くなったなというふうに感じています。

これはOpenAIのドキュメントにも書かれているんですけれども、

今までより曖昧さの中で指示を受けて最後まで持ってくることが強くなったというふうに書いています。

加えてもう1個話したいのはスピードですね。

パフォーマンスはさっきお話ししたように非常に高いですと目的としたものが出る。

値段は高いんだけれども目的としたものが出るというところがあるんですが、

オーパスもGPT 5.5ほどではないんですけれども、

いい性能がもちろん出ます。

何が差かというと、スピードが速いんですよね、このGPT 5.5というのは。

逆に言うとオーパスが非常に出力が遅くてですね、

いつまで経っても結果が返ってこないというところがあって、

値段はちょっとだけですけれどもGPT 5.5は高いんですが、

ほとんど一緒ですというところを考えると、

いよいよオーパスの出番は今のところないなというふうに感じています。

私は会社でクロードのチームプランを契約しているので、

オーパスって最近どうかな、どこまでできるかなというリサーチとか探索用途でオーパスは使っていくんですけれども、

実際の用途においてはオーパスあまり使わないふうに最近は得になってきていて、

基本的にはクロードのカーサーのコンポーザー2でやるんですが、

コンポーザー2でやれない部分においてはGPT 5.5でやるというふうにしていて、

オーパスを選んでしまうともちろん性能は高いかもしれないんですけども圧倒的にスピードが遅いんですよね。

なのでそれをやっている暇があるのであればGPT 5.5でやった方がいいなという判断であまりオーパスは使っていないです。

あとGPT 5.5、これは自分自身で試せているわけではないんですけれども、

このGPT 5.5のドキュメントによるとトークンの使用量が減ったというのが書かれています。

何かアウトプットを持っていくためにシンキングをしたりとか中間の出力をアウトプットするみたいなことはあるんですが、

このGPT 5.5はその同じ結果だったとしてもそれに対するトークンの使用量が少ないということが書かれているので、

単価は高いかもしれないんですけどもトータルプライスとしてはそんなに高くないと前のモデルよりさらに良い性能が同じトークンの使用量で出るというところがあるので、

単純に値段だけの問題、単価の問題だけじゃないというところを考えて私は見ています。

皆さんの環境でも、例えばNotionを契約している方であればNotion AIでもGPT 5.5が使えるようになったし、Cursorでも使えるようになっています。

GPT 5.5のCursorベンチ、Cursorが独自でやっているベンチマークのスコア、これは以前にPodcastでも共有しましたけれども、

そのスコアが72.8%ということで今までのモデルよりも一番高い性能が出てきております。

かつですね、オープンAIのモデルに関しては5月の2日まで50%オフですというふうに書かれているので、

使ってみるのはいかがかなというふうに思っております。

とはいえですね、50%オフとはいえコンポーザ2よりも高いので、このあたりはちょっと考えものですが、

ぜひ一旦皆さん試してみていただければなというふうに思います。

Cursor 3.2の新機能

さて次ですね、Cursor先ほど話題になっておりましたが、CursorもCursor 3.2という新しいバージョンが出てきております。

今までよりもマルチタスクとかワークツリーとかCLIとかバグボットの強化が進んでいますので、

このあたりちょっと紹介していければなというふうに思っています。

まず一つ目がマルチタスクという機能です。

スラッシュマルチタスクというふうに入れて指示をすると複数のタスクを同時に実行することができます。

これはちょっとイメージが分からないと思うんですけれども、

例えばで言うと何かCursorに指示をしますよね、何か作業してくださいと。

実装してレスポンスが入ってきてコードが生成されましたというものに対して、

このコードを読みましたと人間が私が読んで、

AとBとCという部分がちょっと分からない、なんでそういう実装にしたのか分からないというところがあったとして、

今までであればこれAってどういう意味って聞いて、

帰ってくるまで待ってて、帰ってきたら次Bってどういう意味ってやって、

次Cってどういう意味っていうふうにやってたと思うんですが、

このスラッシュマルチタスクっていうふうに入れた後にやると、

その後の指示が全部バックグラウンドに回るんですよね。

なのでスラッシュマルチタスクAってどういう意味ってやると裏側で起動して、

指定されたモデルでシンキングをしてその答えを探し出すんですけれども、

その間に入力はまだできるんですよね。

なので結果が返ってくるのを待たずに次Bってどういう意味って渡して、

次Cってどういう意味って渡してみたいな感じで、

作業を続けることができるっていう機能です。

これを使うと今までのすべて直列でやっていかなかった作業が、

マルチタスクってものを使うことによって非同期で裏側で動くので非常に使い勝手がいいです。

次がマルチルートのワークスペースをできるようになりました。

これはエディター画面では前からできていたんですけれども、

このエージェントウィンドウでできるようになったのは新しい機能ですね。

例えばフロントエンドとバックエンドでリポジトリが2つあったら、

それを同時に実装したいという時に、今までだったらフロントエンドのリポジトリを1画面開いて、

バックエンドのリポジトリを1画面開いて、それぞれ指示を出さないといけなかったし、

それぞれのお互いのリポジトリを横断しながら何か実装することはできなかったんですけれども、

この同じエージェントウィンドウに複数のリポジトリを紐づけることができるので、

フロントエンドとバックエンドと横断的に指示を出せるようになったという機能ですね。

次がCursorのCLIの方です。

こちらは地味だけど便利みたいな機能がいくつか出まして、

まず一つ目がslashbtwですね、by the wayの楽ですけれども、

slashbtwって言ってリクエストを投げると、そのコンテキストは汚さずに、

今までのやり取りの中で、ところでこれってどういう意味?みたいなところを、

1回だけリスポンスを返すことができるという機能ですね。

なので本質を止めずに、ちょっと気になったことをby the wayなんとかなんとかって聞くと、

その部分だけ返してくれると。ただそのメインのコンテキストの中には含まれないので、

本筋とは関係ないやり取りっていうのは、コンテキストウィンドウを汚さずに、

聞いていくことができるという機能なんですね。

次がslashstatuslineですね。

これはクロードコードでは前からできた機能ですけれども、

このクロードコードの画面のチャット欄の下に、今コンテキストどれぐらい使ってますよとか、

どのブランチでやってますよみたいなステータスを出す機能があったんですけれども、

これがCursorのCLIでもできるようになりました。

それからですね、地味に便利になるこのスラッシュモデルの改善なんですが、

今までもこうスラッシュモデルって言って、好きなモデルを選ぶことができました。

スラッシュモデルGPT5.5とか、スラッシュモデルコンポーザ2とかできたんですが、

これを文の途中でできるようになったんですよね。

なので、何かやり取りをしていて、次のやり取り文章打ちましたと。

打ったんだけど、いや、これってちょっと難しそうなタスクだなっていうふうに思ったときに、

今までだったら一回全部消して、スラッシュモデル、モデル、モデル名ってやらないといけなかったんですけれども、

そうではなくて、文の途中でもスラッシュモデルって言ったらモデルを選べるようになったので、

指示を書いた後に、いや、これって難しいタスクだからモデルをGPT5.5にしたいなっていうときには、

そのまま続けてスラッシュモデルってやってもモデルを選べるようになりました。

これは地味なんですけど、非常に便利な機能ですね。

最後がバグボットの機能改善です。

バグボットはあまり使ってない人いるかもしれないんですけど、

これはGitHubとかに常駐してプルリクエストに対してバグがあるところを探したりとか、

改善案をコメントしたりみたいなする機能なんですけど、

これが学習ルールっていう機能が付くようになりました。

要は今までのバグボットであれば、何もコンテキストがない状態、

もちろんリポジトリにあるコンテキストは理解してるんですけども、

それ以上のことは理解していないので、

コードレビューをするときにこういうところを特に気をつけてほしいみたいなところがなかったので、

あまりシニアなエンジニアがやるようなコードなレビューはできなかったんですけれども、

この学習ルールっていう機能が付くことによって、

プルリクエストの画面上で、

カーサーってやって、

ここはこういうふうな意味だから、このレビューは間違ってますよみたいな指示をすると、

プルリクエスト上のレビューも修正されるし、

合わせて学習ルールとして自動的に保存されます。

なので次、同じようなプルリクがあったときに、

前回こういうふうにユーザーから言われたから、

次はこういうふうにレビューをしようみたいなことができるようになった。

しかもそれが自動的に、

例えばこれを何か学習ルールセットとして登録するみたいな手順は必要なくて、

このバグボットと日々プルリクエスト上でやり取りをするだけで、

どんどん賢くなっていくっていう機能が出たので、

これも非常に強力なアップデートかなと思います。

Claude Designによるデザイン作成

さて最後はですね、フクロウドデザインの話をしていきたいと思います。

これはアンソロピックが出した新しい機能ですね。

フクロウドデザイン、皆さんご存知と思いますけれども、

このフクロウドでデザインを作成するっていうふうに特化した機能となっています。

これは今のところウェブのフクロウドでしか使うことができないので、

アプリでメインで使っている人はフクロウド.aiに入ってもらって、

左の画面を見るとフクロウドデザインというアイコンがあるので、

そこから押してもらえばできるようになります。

これをやると、例えばランディングページとか、

アプリのプロトタイプの画面とか、スライドとか、

あとはデザインパターンみたいなものを作ることができます。

作ったものをキャンバーに入れるとか、PDFにするとか、

PowerPointにするとか、HTMLにするみたいなことができるようになる機能となっています。

今日ポートキャストをやっている中で、話が変わるときに

トランジションの動画を入れてるんですけれども、これですね。

これを入れてるんですが、これはまさにフクロウドデザインで作りました。

どうやって作ったかというと、まずフクロウドデザインに

トランジションを作りたいですと。

こういうコンセプトで、こういう動画なので、こんな感じのものを作ってください。

ある程度の指示をすると、質問してくれるんです。向こう側から。

どういうサイトでこのポートキャストを運用してますか、

どういうユーザーに対してのポートキャストでしたか、

みたいなところに質問が来るので、それを埋めたら出てきたのが

この状態のラフなバージョンが出てきました。

他にも何パターンか、3,4パターンが出てきたんです。

その中で一番私が良さそうだなと思ったものを選んだのが、

まずこれの原型です。さっきのトランジションの原型ですね。

このトランジションに対して、もうちょっと変えたいな、みたいな風に

フクロウドデザイン上でやっていたんですけれども、

あまり言うことを聞いてくれなくてですね、

思ったように変更が進まないなという風な現象が起きました。

なので、これはXとかでもベストプラクティスと言われているんですが、

フクロウドデザインは本当にプロタイプ作るだけに留めておいて、

ちょっと細かい修正とかはフクロウドデザインで作ったコードを

全部ダウンロード落としてきてフクロウドコードでやるといいぞ、

みたいなのがXとかでよく流れてきているんですが、

それも同じようなやり方を私も参考にして、

一旦落としてきてカーサーとかフクロウドコードで詰めたら、

これぐらいの精度まで持ってくることができたというものですね。

もちろん今までのフクロウドデザインがなくても、

こういう動画のトランジションとかを作ろうと思ったら、

できました、もちろんできます。

カーサーでもできるしフクロウドコードでもできるんですけれども、

このフクロウドデザインの良さって何かというと、

このデザインを作る上で必要なスキル、ノウハウが

最初からプロンプトとして埋め込まれているというのがまず一つです。

もう一つがその出てきた画面に対して、

ちょっと修正を加えたいという時に、

テキストとかコードであれば文章で書くことができるんですが、

デザインってなかなか文章で伝えることが難しいという側面があるので、

それを何パターンか自動で出す機能があったりとか、

あとは自分で絵を書いてここにこういうのを書きたいとか、

あとは該当の箇所をクリックして、

ここはこういうふうに変えたりコメントを書くみたいな機能があるので、

そういったデザインを作る上でのLLMとのやり取りに特化した

ユーザーインターフェースになっているというのが強みかなというふうに感じました。

先ほどの繰り返しになるんですけれども、

ある程度できた後の微修正、ちょっとした修正というのはむしろ

クロードデザインでやるとあんまり言うことを聞いてくれないというところと、

あとはクロードデザイン専用のリミットがあるんですよね。

リミットを使い切ってしまうと使えなくなってしまうので、

ある程度作った段階でプロットタイプをできた段階でも落としてきて、

クロードコードとかカーサーとかでやり取りすると良いんじゃないかなというふうに思っています。

結局はそのクロードデザインで作ったものって特別なものではなくて、

ただのコードベースなので、後の修正というのはもちろん誰でもできる。

クロードコードでもカーサーでもお得意な部分なので、

このデザインのラフを作るという部分だけ、

そういう得意な部分だけクロードデザインでやってみるというのが

お勧めの使い方だったかなというふうに思います。

まとめと今後の展望

ということで今回はGPT 5.5とカーサー 3.2とクロードデザインについてお話をしてみました。

GPT 5.5もクロードデザインもそうですけれども、最近出てきたばかりの機能なので、

あまりまだ十分に使いこなせているという状況ではないんですが、

これからもっと使いこなしていきながら何か追加で気づいたこととか、

上手くいったこととか、こういうふうにやるといいんだぞみたいなことが見えてきたら、

またPodcastのネタとしてお話しできればなというふうに思っております。

ということで最後に番組のご紹介をさせてください。

この番組はYouTube、Apple Podcasts、Spotifyなどで配信しております。

ぜひお好きなプラットフォームからサブスクライブをお願いします。

ご感想リクエストなどもしございましたら、

ハッシュタグでブログFMでつぶやいていただくか、

概要欄のフォーム、コメントなどいただけますと幸いです。

それでは次の配信でお会いしましょう。

ご視聴ありがとうございました。

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

inady

感想

サマリー

目次

総スター数

コメント

感想を書く