これ何が違うかというと、OpenAIの公式のベンチマークによるとですね、
OpenAI o1の方がスコアが高いんですね。
OpenAI o1 preview、今新しく出たモデルですね。
こちらの方は若干スコアが低いと。
少しあの分かりにくいんですけど、今の状態はこのような感じになります。
今までの最新モデルがGPT-40だったので、その次のモデルにOpenAI o1が来たということですね。
このo1の特徴をまとめると、まず一つ目に推論が得意なモデルとなります。
あの推理に理論の論と書いて推論ですね。
そして博士課程の学生と同等のパフォーマンスがあるということですね。
これは物理や化学、生物などの分野で、博士課程の学生と同等のパフォーマンスを誇るモデルということですね。
そして3点目に、数学とコーディングのタスクにも優れるモデルと説明がされています。
今までの流れで言うと、新しいモデルが出るとですね、前のモデルよりパフォーマンスが上回っているというのが今までの流れでした。
ただですね、今回は少し事情が違うようなんですね。
というのも、OpenAIの公式が説明した内容によると、今回のこの新しいモデルo1ですね、
推論やコーディングのような、ある特定のタスクに特化したモデルであって、
全てのタスクでGPT-4を上回るわけではないと説明されています。
これがですね、今までのモデル、新しいモデルが出た時にはなかったような内容ですね。
公式の説明を少し引用しますね。
o1モデルは推論において重要な進歩を提供しますが、
全てのユースケースにおいてGPT-4を置き換えることを意図しているわけではありません。
つまりですね、今私たちが使っているモデルよりGPT-4をですね、
そのモデルよりもあるタスクにおいては優れていますよと。
ただ、全てのタスクにおいてGPT-4をよりも優れているわけではないということを公式が説明しています。
例えば過去にですね、GPT-3.5からGPT-4のモデルが発表された時、
前のモデルよりも新しいモデルはパフォーマンスで大きく上回るということが当たり前でした。
ただ今回に関しては、新しいモデルだけど全てにおいてパフォーマンスが良くなっているわけではないということですね。
あとはですね、単純に画像入力やブラウジング機能、インターネットから情報を引っ張ってくる機能ですね。
ブラウジング機能や、あとはファイルのアップロード機能、これもO1は使えません、現時点ではですね。
あとは回答生成までの時間が長いという面があります。
なので高速な応答を必要とするシーンにはちょっと適さないモデルかなと思います。
そしてO1が発表された時に同じくですね、OpenAI-O1 miniというモデルも発表されています。
これはですね、O1の軽量モデル的な立ち位置でコーディングに特化したモデルということです。
ちなみにO1を使えるのは現時点ではですね、ChatGPTの有料版のみとなります。
一応、OpenAIの説明によるとO1 miniですね、軽量モデルの方のO1 miniは無料ユーザーにも今後提供される予定ということが触れられています。
ただですね、具体的なスケジュールというのは提示されていませんでした。
ChatGPTの無料版を利用している人からするとですね、少し使ってみたいなと思う人もいるかもしれません。
ただですね、有料版でも利用制限があって現状は使い放題というわけではないんですね。
具体的に言うとですね、最新の情報ではO1の1週間のレート制限が50メッセージまでですね。
1週間あたり利用できるのは50メッセージまでと。なので1日あたりだいたい7メッセージぐらいまでですかね。
そしてO1 mini、こちらの方は1日あたり50メッセージまで。ちょっとこちらのO1 miniの方が多いんですね。
なので有料ユーザーでもこのO1に関しては使い放題で利用できるというわけではないんですね。
結構レート制限は厳しめですね。
今このポッドキャストを聞いているリスナーの方の中で有料版を使っている人はですね、レート制限を念頭に使った方がいいと思います。
すぐに割とですね制限に引っかかってしまいます。
結構普通にチャットGPTを使うとなると1日あたり7メッセージっていうのはなかなかですね厳しいものがあると思います。
O1の方ですね。
ちなみにO1のモデルを使う場合はですね、モデルのところから変更することで利用できます。
あとはですね、API経由でもO1は使うことができます。
ただですね、これもちょっと制限が厳しくてAPIで使える人っていうのはTier5のユーザーのみとなります。現時点では。
このTier5のユーザーって何なのという話になるんですけど、これはですね、
OpenAIのAPIに1000ドル以上支払ったユーザーがTier5のユーザーとなります。
なので今のレートで言うと大体日本円で14万か15万ぐらいですかね。
そのぐらいの金額をAPIで使ったユーザー、これがTier5ということでO1のAPIを使うこともできます。
APIの料金に関してもやっぱりですね、GPT-4Oよりも高いですね。
100万入力トークンあたりが15ドルですね。
あとは100万出力トークンあたりが60ドル。
なので入力はGPT-4Oの3倍ですね。
出力はGPT-4Oの4倍という料金ですね。
このO1ってですね、内部で思考プロセスを経て回答を生成しているものになります。
APIを使った場合っていうのはですね、この思考プロセス分にも課金されるという内容になります。
OpenAIの説明によるとこの思考プロセス分はですね、最低でも25,000トークンくらい消費するというふうに言っているので、
まあ結構なですね、APIの料金がかかってくると思います。
質問するたびに毎回思考する分に課金されるっていうのはちょっときついですよね。
なのでAPIでガンガン使うというのはちょっと注意した方がいいですね。
かなり金額が膨れてきそうです。
このO1がですね、どれだけ特定のタスクで進化しているのかっていうのは、
OpenAIが発表した資料の中にあります。GPT-4Oと比較したものっていうのがあります。
やっぱり資料を見るとですね、数学やコーディング、あとは科学なんかのこの難易度の高いベンチマークにおいて
大幅に向上しているのが表で示されていました。
他社とのAIの比較に関してもちょっとチャットボットアリーナで調べてみました。
このチャットボットアリーナっていうのはChatGPTやGemini、クロードの言語モデルなんかで
どれが優れているかっていうのをランキング形式で発表しているサイトですね。
今私見てるんですけど、今この収録の段階、この段階ではですね日が浅すぎてちょっと掲載はされてなかったですね。
おそらく今後他のGeminiやクロードなんかの比較なんかもわかってくると思います。
ここからは実際に私がO1を使った感想なんかをちょっと話していきたいと思います。
一言で言うとですね、O1の恩恵を受けるか否かっていうのは人によると思います。
具体的にはその人がAIにお願いするタスクによるのかなと思います。
例えば私の場合だと、O1が得意とする物理や科学、生物、あとは数学ですね。
この領域っていうのは日々の業務では扱わないんですよね。
なのでその文脈で言うと、私自身はですね、あまり恩恵を受けない人間になるのかなと思います。
ただですね、これ私以外でもそう感じる人は多いんじゃないのかなと思います。
専門職とか、あとは大学生の方でなければですね、日常業務で物理や科学とか、あとは生物とかはですね、ほぼほぼ使わないと思うんですね。
ただXでとある大学教授の方がO1すごいって言ってたのを見たので、刺さる人には刺さるモデルなんじゃないかなと思います。
アイデア出しと、あとは文章生成、文章構成のタスクでちょっと試してみましたけど、
GPT-4-Oに比べてですね、遥かに精度が上がったっていうのは正直感じませんでした。
これはですね、オープンAが公式で言っていることと一致していると思います。
全てのタスクでGPT-4-Oを上回るわけではないということですね。
じゃあO1は多くの人にとって全く関係のないモデルなのかっていうと、ちょっとそこはですね、違うかなという部分もあります。
それはコーディングの精度っていうのが他のモデルに比べて上がっている点ですね。
このコーディングに関する精度が上がったっていうのは、普段プログラミングをしない人でも、あとはエンジニアでない方でもめぐりめぐって恩恵があるのかなと思っています。
以前ポッドキャストで、あなたのAIの使い方を教えてくださいという番組企画を行いました。
その時に、ChatGPTを使ってGoogleのスプレッドシートを自動化したという方がいらっしゃいました。
その方はですね、普段日常業務で4,5時間かかっていた作業っていうのを自動化することで30分に作業を短縮できたと話されてたんですね。
この方ですね、プログラミングに関する知識はほとんどなかったというふうにも話されていました。
でもChatGPTと相談しながらコードを書いて、業務時間を大幅に短縮できたと。
私はですね、これを聞いた時に、ここにAIの活用のヒントがあると思いました。
AIを使って業務効率化するという直接的なアプローチではなくて、AIを使ってコーディングのサポートをしてもらうと。
結果的に業務が効率化したと。
こういったですね、間接的なアプローチというのが、意外とAIのポテンシャルを引き出すアプローチなのかなと思っています。
今回、O1がですね、コーディングのパフォーマンスが上がったことで、よりプログラミングしやすくなったと。
エンジニアの方も恩恵を受けますし、あとはエンジニアでない方も恩恵を受けるのかなと思います。
例えばですね、前はChatGPTを使ってプログラミングをしようとしたけど、エラーを吐き出したと。
そのエラーについて質問してもまたエラーを出してきたと。
エラーのループ地獄みたいな、そんな状態を経験した人も多いと思います。
そういった人はですね、改めてO1を使って再チャレンジしても面白いのかなと思います。
私自身、最近AppleScriptっていうマイナーなプログラミング言語を触っています。
これはですね、Macですね。Macをコードから制御できるプログラミング言語になります。
これの実装にO1を使ってみましたけど、
AppleScriptを知らなくてもいろいろな処理を実装できるので、業務の効率化につながっています。
Windowsユーザーの場合だとPowerShellになるんですかね。
こんな感じで、普段自分がやっている単純作業、例えばExcelの操作であったりとか、Googleスプレッドシートの操作なんかですね。
そういったものをChatGPTを使って自動化する処理を書いてもらう。
こんな感じのアプローチも面白いと思います。
ちょっと一旦まとめますね。
O1は特定のタスクに特化したモデルとなります。
この特定のタスクっていうのは、生物や数学、物理、科学、あとはコーディングですね。
こういった特定のタスクに特化したモデルとなります。
あとはですね、一見関係ない人が多そうなんですけど、
コーディングに関しては結構多くのビジネスマンが利用できるタスクだと思います。
プログラミングスキルの有無に関わらず、業務効率化につながるポテンシャルっていうのを秘めていると思います。
そういった意味で、O1のコーディングスキルですね。
これが大幅に上昇したっていうことは、エンジニアの方もエンジニアでない方にも恩恵があると思います。
もちろんですね、AIに支持する人間側にもプログラミングの知識があるということに越したことはないです。
とはいえですね、AIが言っているコードの内容っていうのがある程度理解できるだけでも、できることの幅っていうのはかなり広がってくると思います。
もちろんですね、エンジニアに転職したいっていう人は、プログラミングの学習っていうのを一からやる必要があると思います。
ただですね、AIを使ってプログラミングで業務効率化したいという、そういった場合はですね、基礎知識を知っているだけでも十分役に立つと思います。
この基礎知識に関しては、インターネット上の無料教材でも十分だと思います。
例えば、国内のサービスで言うと、ProGateとかでしょうか。
あとは、YouTubeでも結構いい教材っていうのが出回ってますよね。
で、がっつり勉強したい人っていうのは、CS50がおすすめです。
これですね、前にポッドキャストで紹介したことがあるんですね。
で、その時に結構反響が大きかったですね。
ちょっと改めて説明すると、CS50ですね。
ハーバード大学の学生向けに作られたコンピューターサイエンスの講座ですね。
ハーバード大学のエンジニアではない学生向けに作られたコンピューターサイエンスの講座となります。
無料で受講できるので非常におすすめです。
概要欄にリンクを貼っておきます。
すいません、ちょっと脱線してしまったんですけど、プログラミングの話はこのくらいにして、O1に話を戻しますね。
O1が発表された時に、興味深い内容っていうのも案内されてました。
これですね、記憶する限りちょっと初めて聞いた内容となります。
公式の発表ちょっと読みますね。
O1モデルは、分かりやすいプロンプトで最高のパフォーマンスを発揮します。
プロンプトエンジニアリングのテクニックの中には、浮遊ショットやステップバイステップで考えるように指示するものがあるが、
これはパフォーマンスを向上させないばかりか、時には妨げになることもある、というふうに書かれています。
つまりですね、オープンAAの公式が今まで良しとされてきたプロンプトエンジニアリングの手法っていうのを、
O1に関しては使わない方がいいよというふうに言っているわけですね。
例えば浮遊ショットやステップバイステップで考えてとか、
あとはチェインオブソートですね。COTとか言われますけど、チェインオブソートのようなプロンプトの精度を上げるテクニックというのがあります。
これをですね、O1に関しては使わなくていいよというふうに公式が話しているわけですね。
なぜなら、O1は問題を解決するときにチェインオブソートを使うからですね。
ということは、今後はですね、モデルのアップデートに合わせて、私たちもプロンプトの書き方っていうのをアップデートする必要が出てくるかもしれないということになると思います。
浮遊ショットを使ったり、ステップバイステップを使ったり、チェインオブソートを使ったり、こうしたものを駆使することでAIの回答精度が上がるというのはよく知られていることです。
ただ、今回のO1のようにそうしたプロンプトテクニックは必要じゃないというモデルがですね、今後も出てくる可能性というのは十分あると思います。
少しややこしいんですけど、これはO1の時だけですね。
GPT-4Oの場合は、もちろん今まで良いとされてきたプロンプトテクニックっていうのは有用です。
ただ、O1に関してはこうしたものは要らないというふうに公式は説明しています。
ちょっとややこしいですね。
O1を使う時のプロンプトのベストプラクティスっていうのをオープンAが説明しています。
ちょっと読みますね。
プロンプトはシンプルで直接的なものにする。
このモデルは広範囲なガイダンスを必要とせず、簡潔で明確な指示を理解し、それに応えることに優れています。
プロンプトはシンプルに書きなさいよということを言われています。
これはですね、他のモデルでもそうですね、よく言われていることですね。
プロンプトはシンプルに書いてくださいと。
2つ目は思考の連鎖を促すプロンプトは避ける。
これらのモデルは内部で推論を行うので、ステップバイステップで考えなさいとか、推論を説明しなさいというプロンプトは不要です。
チェーンオブソートを使わないでいいですよというふうに言われています。
3つ目ですね。明確にするために区切り記号を使用する。
入力の明確な部分を明確に示すために、三重引用符、トリプルクオーテーションですね、
XMLタグ、またはセクションタイトルのような区切り記号を使用し、モデルが異なるセクションを適切に解釈できるようにします。
これもですね、今までのAIでよく言われていることですね。
入力の部分というのを明確にするように区切り文字を使ってくださいねと。
例えば次の英語テキストを日本語に翻訳して、要約してという指示をしたとします。
そういった時にはですね、その対象となる英語のテキストと指示を明確に分けるようにトリプルクオーテーションで囲んだりとかですね。
これはですね、欧安に限らず他のモデルでも有用とされていることですね。
最後4点目に検索支援生成、ラグで追加のコンテキストを制限する。
追加のコンテキストやドキュメントを提供するときは、最も関連性の高い情報だけを含めるようにして、モデルの応答が複雑になりすぎないようにします。
というふうに書かれています。
全部で4つですね、プロンプトはシンプルにする、チェーンオブソートは使わない、あとは区切り記号を使用する。
でラグの場合は追加のコンテキストっていうのを厳選するというわけですね。
少しややこしいんですけど、今後ですね、欧安を使う場合っていうのは、浮遊ショットやチェーンオブソート、あとステップバイステップはですね、不要ですよという話ですね。
逆にパフォーマンスが落ちてしまうと。
であの先ほども言ったように、これはですね、あくまで欧安の話になります。
GPT-40とか、あとはジェミニとかクロードなど、他のモデルの場合は今まで通りでOKです。
ただですね、今後ジェミニとかクロードも新しいモデルを出してきた時に、このプロンプトテクニックはいりませんよと、そういったアナウンスももしかするとあるかもしれないですね。
今回の新しいモデルの特徴っていうのは、使える場面が限られていて、あとは使えるレート制限っていうのも現時点ではあると。
とはいえですね、私たちが新しい武器を手に入れたっていうのは変わりないと思います。
日常の一般的なタスクは今まで通りGPT-40にお願いすると。
でちょっと込み入ったタスク、推論やコーディング、数学など、専門的なタスクの時は欧安にお願いすると。
ただ欧安は現状使用制限が結構厳しいので、例えば欧安に大きな枠で出力をしてもらって、
あと細かい部分っていうのはGPT-40で処理する、みたいなこう併用していく使い方でもいいのかなと思います。
同じチャット上でですね、先に欧安で回答を生成して、途中からGPT-40に切り替えるみたいな、そういったこともできます。
欧安ミニに切り替えることもできます。
こういった感じでタスクに応じてモデルをですね、切り替えていくのもいいのかなと思います。
今日のポイントをまとめます。