1. じゅりんHACK|ラジオ館
  2. #115 新モデル「ChatGPT o1」..
2024-09-13 18:56

#115 新モデル「ChatGPT o1」は何がすごいのか?実際に使ってみました!

spotify amazon_music

突如として発表されたOpenAIのチャット型AIの新モデル「OpenAI o1」。有料版を使っている方は、すでに使える状態になっていますが、今回のモデルは今までのモデルの進化とちょっと毛色が違います。ちょっとわかりにくい進化の仕方をしているので、できるだけ噛み砕いて解説してみました。

 

Introducing OpenAI o1-preview

https://openai.com/index/introducing-openai-o1-preview/

00:05
こんにちは、じゅりんです。じゅりんハックラジオ館、始めていきたいと思います。
今回はですね、今日が2024年の9月13日なんですけど、
今朝というか昨日の深夜というかですね、
OpenAIがChatGPTの新しいモデルをね、忽然発表して、
もう使える状態にしたので、ちょっとそれについて話をしていきたいと思います。
はい、この新しいモデルはですね、名称がChatGPT-o1というモデルになっています。
はい、ちょっと結構わかりにくいですね、ChatGPT-4oとかですね、
あったんですけど、それとはまた別でChatGPT-o1ですね。
4というのが取れて、o1というね、そういうモデルがですね、
突如として登場して使えるようになりました。
実際にこれは無料版はね、まだちょっと使うことができなくて、
有料版の方が使える状態になっています。
実際に使えるのはGPT-o1プレビューとGPT-o1ミニプレビューというね、
2つのAIが、2つのモデルがね、使えるようになっているような感じです。
はい、このo1というこのモデルなんですけど、それが何なのかっていうことなんですよね。
で、これがですね、簡単に言うと、いわゆる思考ができる、考えられるAIみたいな感じということなんですよね。
ちょっと簡単に言いにくいんですね。考えられるAIって何のこと?みたいな感じなんですけど、
より複雑な問題、複雑な課題に対して考える過程っていうのをちゃんと持って、
考える時間っていうのをちゃんと作って、
そしてその複雑な問題をより正確に解けるようになった、そういうモデルみたいな、そういうことなんですよね。
はい、ちょっとね、なかなかね、これ説明がしにくいんですが、
基本的に今までのChat GPT-4oですね、今まで最新だったこのモデルと、
そのいわゆる頭の良さみたいなところは、実はそんなに変わってないみたいなんですよ。
で、そういう頭の良さそのものっていうのは同じで、
ただ、答えを出すときのそのプロセスですよね、その過程、答えを出すときのその過程がちょっと違うということなんですね。
はい、今までのChat GPT-4oみたいなものはですね、これは何かこっちがですね、
こういうことを解いて、この問題解いてとかですね、これ考えてとかっていうふうにお願いをしたら、
それをですね、一足跳びで答えるみたいな形だったんです。
ワンステップで答えるみたいな形なんですよね。
だから、いわゆる考えるとかではなくて、もうシンプルにその聞かれたことに対して、
もうそのワンステップでこうですね、答えはみたいな形でやってくるわけですよ。
なので、いわゆるちょっと論理的な問題とか、より複雑な過程を必要とするような、
そういう問題っていうのに対しては、結構弱いっていうところがあったんですね。
03:00
間違ってしまうとか、ちょっと嘘をついてしまうみたいなことっていうのが起きていたんです。
で、それに対してこのGPT-o1っていうこのモデルは、
同じようにこの問題解いてとか、この問題考えてとかっていうふうに、
こちらが質問を投げかけたときに、それに対してワンステップで答えるのではなく、
考える時間っていうのが作られてるんですよ。
で、その考える時間っていうのが、だいたい7秒から10秒ぐらい考えるんですけど、
その時間の中で、まず1回目考えて、それに対してすぐに答えを出さずに、
その考えたことに対して、さらに自分でそれを評価して、
もしかしてこれおかしいんじゃないかなみたいな形で見直したりとか、
そういうことをして、さらにそれを自分なりに考えて評価して、ちょっと改善をするとか。
本当にそれが合ってるかどうか、またさらに見直すとか。
そして、そもそもこの問題っていうのを解くその過程っていうのは、
これで良かったんだろうかみたいなことも、さらに組み合わせて考えるみたいな形をとって、
そして最終的に、いくつかの考える過程を踏んで、
より今までよりも精度の高い回答を出してくれるみたいな形の、
そういう答え方になってるという、そんな感じなんですよね。
なので、今までよりもより人間らしい思考パターンというか、
思考過程を踏んでるみたいな感じです。
例えばぼくらは数学の問題を解いたりするときに、
いきなり解けたりはしないじゃないですか。
まず最初に、ここの問題があったら、まず最初にこれができて、
これが分かったら次にそれが、そこから次にこういうことが分かって、
これが分かったからさらに次にこういってみたいな形で、
いくつか段階を踏んで回答をしますよね。
それをAIも同じようにやるっていうふうな形、
それがこのo1というモデルの最も大きな特徴になります。
なので、今まで一足跳びでポンと答えていたのに比べて、
その引っ掛け問題に引っかかりにくくなったりとか、
ちょっと複雑な問題っていうのを、より正確に回答できるようになったりという能力が高まってます。
実際にこれ、OpenAIのホームページで見てみると、
このGPT-o1ですね、名前がちょっと頭にまだ追いついてないんですけど、
についての能力的なところっていうのが書いてあって、
これは物理学とか科学、生物学の難しいベンチマークタスクで、
博士課程の学生と同等のパフォーマンスを発揮しましたと。
そして、また数学とコーディングでも優れていることが分かりました。
そしてさらに、これなかなかすごいなと思うんですけど、
06:00
国際数学オリンピックIMOの予選試験では、
GPT-4oは問題のわずか13%しか正しく解けませんでしたが、
この推論モデル、GPT-o1ですね、
こちらの方は83%のスコアを獲得しましたと。
彼らのコーディング能力はコンテストで評価され、
コードフォースコンテストでは89%に達しましたという形で、
非常に正答率が上がっている。
すごく複雑で難しい問題に対しての正答率っていうのが、
結構格段に上がっているっていうことが実際に実証されているみたいなんですよね。
さらに安全性っていうのも非常に高くなっていて、
いわゆるこのChat GPTとかこういうチャット型のAIっていうのを悪く使おうという、
安全に使うっていうルールが決められているんですけど、
そういうのを突破して、悪い使い方みたいなのをする、
いわゆるジェイルブレイクという安全ルールを突破するみたいな、
そういうことが今までできる状態だったみたいな形なんですけど、
それもこのGPT-4oは22点だったところが100点満点中の22点だった。
要するに突破されてしまうというような状態結構あったんですけど、
それがこのo1プレビューモデルですね。
このGPT-o1っていうモデルだと84点を獲得できているということで、
非常に安全な使い方っていうこともできますよと。
要するにちょっと工夫を凝らしてすごい危険なものを作らせるとかっていうふうな、
そういうことっていうのは基本的にはほとんどできなくなってますよみたいな形ですね。
こういった形で基本的な頭の良さみたいなものが、
そう大きく変わったわけでもないし、機能面ですごい大きな変化があったわけではないんですけど、
特に複雑な問題とか、それから研究の分野とか、
それから論理的な課題とかっていうものに対してのしっかり時間をかけて考えて、
より精度の高い回答を出してくれるというところが向上したモデルというのが、
このGPT-o1というモデルですよみたいな感じです。
ちょっと説明が前置きがすごい長くなっちゃったんですけど、
実際にぼくもそれがどれぐらいのものなのかなっていうのをちょっと試してみようと思って、
ちょっと試してみたんですね。
ぼくは有料版にしてるのでこちらのGPT-o1もすぐに使えるようになってたんですけど、
ただGPT-4oとそれからGPT-o1の比較をするときにすごく比較がしにくいんですよね。
どうやってそもそも比較すればいいんだろうみたいな形で、
基本的にはGPT-4oだったら解けなくて、GPT-o1だったら解けるみたいな、
09:03
そういうことが分かればいいかなと思うんですけど、
なかなかそれに該当するような質問とかっていうのが思いつかなくて、
ちょっといろいろ探してみたんですけど、そしたらちょっと論理ゲームみたいな、
論理クイズみたいなのがあって、それでちょっと一つうまくいったのがあったので、
少し紹介したいと思います。
それがちょっとしたクイズなんですけど、
まずこういう問題があります。
幼女は深さ30メートルの井戸に落ちてしまった。
幼女は1時間ごとに3メートル登るが、その直後に2メートルずり落ちてしまう。
幼女が井戸から脱出するには何時間かかる?
こういう問題なんですね。
皆さんどうでしょう?お分かりになりますでしょうか?
ちょっとした引っ掛けのある問題なんですけど、
この問題に対して、まずGPT-4oに該当させたところ、
GPT-4oは残念ながらこれを間違いました。
答えは29時間ですというふうに該当したんですね。
これは間違いなんですね。29時間ではありません。
これ正解は28時間です。
考え方はですね、3メートル登って2メートルずり落ちるということです。
1時間に3メートル登って直後2メートルずり落ちるということなので、
基本的にこの幼女は1時間に1メートル登れますよみたいな感じなんですよね。
1時間に1メートル登れる速さで30メートルの井戸を登ればいいわけです。
でもこれだけで考えてしまうと間違ってしまう。
27メートル目まではもう1時間に1メートルのペースで行くわけですよ。
27メートルを超えた地点で、27メートルから次28メートルに上がっていくこの地点で、
実は忘れちゃいけないのが、1時間ごとに3メートル登るっていうところなんですよね。
要するに2メートル落ちるんですけど、その前に3メートル登ってるんですよ。
だから27メートルまで到達すれば、次の1時間で27から28、29、30で3メートル登って、
実はもうここで脱出できますと。
落ちることを考えなくていいわけですね。
ということなので、27メートルにプラス1時間で28時間が正解ということなんですね。
ちょっとこういう引っ掛けみたいな問題っていうのに関して、
このGPT-4oの方はミスをしてしまうと。
回答がちょっと間違った回答を出してきました。
それに対して、全く同じ問題を、今度はGPT-1の方に回答をさせたところ、
もうパーフェクトに回答をしてくれました。
試行時間は9秒ということで、
12:00
実際に考える時間っていうのが発生するんですけど、
こちらがプロンプト、指示文を投げてから、 その回答するまでに9秒間考えるんですよ。
その後に回答を出してくれるみたいな形で、 回答に関してはもうほぼ正確な回答でした。
さっきぼくがちょっとお話しした解説と、 もう全く同じような解説で回答をしてくれて、
もうしっかりと、ちゃんと論理的に説明もしてくれています。
さらに、この試行時間のところをクリックすると、 どんなふうにこのGPT-o1が考えたかという、
その考えたプロセスっていうのも ちゃんと書いてくれるんですよ。
なので、例えば今回のこの問題に関して言うと、 まず考える時間を確保ということで、
考える時間を確保して、 この問題に対しての情報を整理してるんですね。
そしてその後に、今度は確認と調整を重ねるということで、
さらにこの問題の回答に対して、 確認と調整を重ねているというプロセスがあります。
そしてその後に移動の追跡という、 各時間帯の高さの変動を追跡中みたいな形で、
そういったところもやってくれてるみたいなんですよね。
なので、いろんな視点からこの問題に対してアプローチをして、 より正確な答えを出すという、
さらにこの問題をちょっとわかりやすく噛み砕いて、 さらに一つ一つのステップをちゃんと踏んで、
さらにいろんな視点からも、こうではないかみたいなことも、 推論も立てながら一番正しいだろうと思われる答えを出してくれたと。
結果的には今回この問題に関して正解を 出してくれたみたいな形でした。
なので、確かに頭が良くなっているというよりも、 考え方が良くなっているみたいな形です。
一発でスパッと答えを出したけれども、 引っかかってしまうという問題ではなく、
そういう回答ではなく、時間はかかるけれども、 その分しっかりといろんな側面から考えて、
手順を踏んで、ステップを踏みながら 回答をしてくれましたみたいなことができていたので、
なかなかすごい面白いかなと。
面白いというか、頭が良い。 頭が良いと考え方が非常に良くなっているかなというふうに感じました。
ちょっとただ、実際問題、
じゃあこのGPT-o1を使う場面というのが どれくらいあるかと言われると、
ちょっとなかなかパッと思いつかないところは 正直あるんですよね。
今回もGPT-o1の能力を試したいなと思ったんですけど、
結局、こういう普段使わないような論理的な問題を わざわざ探してきてやらせるぐらいなので、
実際、研究職とか、 それからすごく複雑な課題を解くとかっていうふうなことでもない限りは、
15:00
なかなか日常生活とか通常の仕事の中で、
そこまでこのGPT-o1じゃなきゃ困るみたいなことっていうのは 今のところはなさそうかなというふうに感じました。
ただ、一応プログラミングとかをされる方にとっては、
非常にこのプログラミングの行動を 作ってくれるっていうことに関して、
いろんなエラーとかそういうのを途中の段階で、 考える段階で修正しながら出してくれるので、
エラーとかはすごく少なくなっていい みたいなことはあるみたいです。
なので、一般的にはこのGPT-o1が 今すぐめちゃめちゃ便利に使えますよとは言いにくいんですけど、
プログラミングをする方とか、 それからすごく複雑な研究とか、
課題に取り組まれているような方にとっては、 このGPT-o1っていうのは非常にありがたいAIになっているのかなというふうに感じます。
最後になんですけど、このGPT-o1なんですけど、 今のところ使える人っていうのに制限があって、
有料版の方しか使えないっていうことと、 それから気をつけなくちゃいけないのが、
使用回数に制限が今のところまだあります。
それが1週間に、このGPT-o1プレビューの方は 1週間に30回という制限。
それからGPT-o1 miniという、 このo1のちょっと簡易版みたいなのは、
1週間に50回という制限があります。
なので、合わせて1週間に80回ということなので、
これに関しては、結構ガンガン使っていれば、 あっという間に使い切っちゃうみたいな形なので、
どちらかというと、本当に複雑なことを考えさせるとか、 複雑な問題を解くとか、
コーディングでここはしっかりやってほしいとかっていうようなときに、
決め打ちでこのGPT-o1を使うような使い方になってくるのかな みたいな感じですね。
今のところは、ちょっとメインで使うAIという形ではなく、
あくまで本当に複雑なことをさせようと思ったときに、 決め打ちで使うようなAIなのかなというふうな印象です。
あと、このGPT-o1は今の段階では、 インターネットにつながるっていうこともしないし、
それからファイルを読み込ませるっていうことも対応してないので、
本当にテキストだけのやり取りという形になるところも注意点になります。
ということで、出たばっかりのGPT-o1について、 ぼくのほうで実際に試してみたところと、
それから使用場面というか、今のところまだ一般的には なかなかガッツリ使うような場面というのはなさそうなんですけど、
ぼくのほうで考えてみたところをお話しさせていただきました。
18:00
有料版の方はおそらくもう使えるようになっていると思うので、 ぜひとりあえずお試しで使ってみてもらえるといいんじゃないかなと思います。
論理クイズみたいなのを検索して解かせると、 とりあえず試してみることはできると思うので、
頭の良さみたいなのをどういうふうに実感できるかというのは、 そういう問題でもないとなかなか試す機会がないと思うので、
論理クイズみたいなのを検索してちょっと解かせてみると、 結構それなりの正解を出してくれるかなというふうに感じるので、
ぜひやってみてください。
ということで、まっという間に20分近くなりましたね。
今回も最後まで聞いていただいてありがとうございます。
それでは、今日も良い1日を。
18:56

コメント

スクロール