1. AI未来話
  2. #55 o3とo4-miniのおすすめの..
2025-04-24 34:54

#55 o3とo4-miniのおすすめの使い方

spotify apple_podcasts

◾️お便り
https://forms.gle/j8sJ1v1hH5JSaZm97

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◾️AIメディア MiraLab AI

⁠https://miralab.co.jp/media/

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️Podcastの内容を記事にしています

https://miralab.co.jp/media/category/special_feature/

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◾️公式X
- AI未来話
https://x.com/ai_miraitalk

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
◾️Podcastリンク

- Spotify
https://open.spotify.com/show/4YQI4JvX83mURM6xywKn5w?si=34b96be128584bad

- Apple
https://podcasts.apple.com/jp/podcast/ai未来話/id1733462439?uo=2

- LISTEN
https://listen.style/p/aifuturetalk

 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄

◾️更新スケジュール
毎週木曜日AMに更新

サマリー

本エピソードでは、OpenAIのo3とo4-miniの推論モデルについて、その特徴や使い方、特に画像認識機能や文字数指定機能の進化に焦点を当てています。また、SNSでの評判や具体的な利用例を通じて、これらのモデルの利点と課題を考察しています。エピソードでは、O3とO4-miniの進化した機能について詳しく解説しており、特に画像生成機能や文字数指定の進化に触れつつ、コーディング能力やハルシネーションについての評価が分かれていることを強調しています。O3とO4-miniの使い方については、知能やコミュニケーションに関する挑戦や、それぞれの専門的な応用の可能性を議論しており、リスナーはこれらのツールをどのように最大限に活用できるかを理解することができます。また、効果的な使用法や課題解決のアプローチ、さらには今後のGPT-5やO3 Proの期待される改善点についても話し合っています。

o3とo4-miniの基本情報
AIメディアMiraLab AIのたつけです。
同じくMiraLab AIの平岡です。
この番組は、AIの最新動向をもとに未来を考察するフォトキャスト番組です。
それでは本日のトークテーマ、お願いいたします。
OpenAI o3とo4-miniのおすすめの使い方。
おすすめの使い方、珍しいですね。
そうですね。やっぱり、o3になってから、かなり今までと違う斬新な使い方とかができるなっていう風にちょっと思いましたので、
その辺を紹介したいなという風に思っているんですけど、
そもそもね、o3ようやく出ましたね。
そうね。
なのでね、ちょっとそのo3がね、どういうモデルなのかとか、機能とかその辺を紹介しつつ、
結構ね、すごいモデルではあるんだけど、実はね、意外となんかこういい評判と悪い評判にちょっと割れてるようなところも若干ありまして、
なのでその辺も踏まえた上でのおすすめの使い方みたいなのを紹介したいなという風に思います。
では、o3とo4-miniなんですけども、
一応ね、おさらいしておくと、これは推論モデルという風に長く考えることによって性能を発揮するっていうモデル。
1個前のね、o1っていうのがあったと思うんだけど、このo1と比較して、
いわゆる難しい課題でも重大なエラーが約20%減少するっていう報告もあるように、
早い話が推論モデルのo1が出た時すごいよっていう風に言ったけど、
それの上位版っていうのが正式に出ましたよっていう話。
o3の実際の使い方
じゃあそんなo3とo4-miniの最大の特徴、分かりやすくこの2つっていうのがあって、
それがAIエージェントのような動きをするっていうことと、
あとは画像を認識しての推論機能がついたっていうことですね。
このAIエージェントのような動きっていうのがどういうことかっていうと、
o3に我々が指示を出すじゃん。
そしたら必要であればウェブ検索をo3が指示するし、画像も生成するし、Pythonも使うしみたいな。
それをo3が必要なツールを考えて各ツールを動かす司令塔のような役割をするっていうような形になってるんですよ。
画像を認識しての推論機能って何っていうと、
これはただ画像を見るとか読み込むとか、ただそれだけじゃなくて、
画像を操作して回転させたりズームさせたり変形させたりみたいな、
そういった操作をプロセスの一部として行うわけですよ。
これまでのマルチモデルとは結構違うから、使い方の幅もかなり広がりそうだよね。
そうだね。じゃあまず良い評判からなんですけど、
SNSとかで主にいろんな方が言及されてて、これ便利な使い方だなみたいなことを話してたようなものの中で、
かつ僕も確かにそれはいいなって思ったようなものをピックアップして、
それを4つ具体的な使い方を交えてご紹介していきたいと思います。
一番これでしょっていうのは、リサーチをしてからそれに対して推論をさせるっていう、
一番ベタな使い方なんですけど、この使い方が最強だなっていうのは感じますね。
なるほど。
これO3の特徴で、個人的に今までのチャットGPと明らかに違うなって思うのが、
ウェブ検索の部分で、すんごい往復すんのよ。
今までは出すじゃん、バーって調べて結果が出てくるじゃん。
だけどその結果出てきたものに対して、もう一回GPTっていうかO3っていうのかな。
これだとこういう意図と違うから、もう一回ここを検索してみたら。
また調べて、検索しましたみたいな。
そうするとこれが足りないからあれしてみたら、そのやり取りをモデル内でやってんだよね。
優秀な構成者がいるみたいな感じ。
だからディープリサーチほどではないけど、超高速なディープリサーチみたいなイメージかなっていう。
しかも引用元を圧倒的に多く引っ張ってきてるよね。
圧倒的に多く引っ張ってきてるね。
前のサーチだと数件パッて見たら終わりみたいな感じだったものが、
すごい数調べるねみたいな。
すごい数調べてるよね。
感じしますよね。
なのにさらに差し戻されてるっていう。
そうそうそう。
これブラウザーコンプエージェンティックブラウジングっていうベンチマークがあって、
要するにAIエージェントがウェブブラウジングで難しい情報をどれだけ見つけ出せるかっていう指標のベンチマークなんだけど。
そんなベンチマークもあるんだ。
そう。当然これが一番高いモデル。一番オープンエアの中でね。
オープンエアの中で一番高いモデルはディープリサーチ。
性能が高い。
そう。これで51.5%。で、O3がPythonとブラウザーを両方使った場合、49.7%なのよ。
だからほとんどディープリサーチと変わんないから。
ほんとだね。
ディープリサーチしてるようなものみたいな感じ。
なるほどね。
そう。で、もう実際ほぼディープリサーチ不要みたいな状態になってて、
今回さ全部のツールを組み込んだっていう風に言ってる中でさ、いろいろウェブ検索とかPythonとかいろいろあったけどディープリサーチってなかったじゃん。
これはもう入れなかったんじゃなくて、同じレベルで動けるようになったっていうことなんじゃないかなっていう風に個人的には思ってるんだよね。
確かにディープリサーチってすごい時間かかるけど、O3やったらめちゃめちゃ早くできるからすごい楽だよね。
そうだよね。スコアも変わんないんだったら確かにO3でいいかなみたいなとこもあるよね。
そうだね。
そう思うとディープリサーチも実は進化してそうですね。
あーなるほどね。確かに確かに。今肩回してるんじゃない?
確かにそれはあり得るかもね。今ほぼ各社ディープリサーチ上がってきてるから、もう全部で揃ったところでわーって蹂躙してくる。
とてつもないベンチマーク引き連れてやってくる。
確かにその可能性はあり得る。であくまでもディープリサーチだけはもう別軸にするみたいなね。
ただ僕O3使いつつもディープリサーチ使ったりもするんですよ。この1週間で。
っていうその違いで言うとディープリサーチの方がめちゃくちゃわかりやすいっていうところは感じましたね。
なるほど。
これは後半話すんですけど、やっぱりO3はそういうところでねちょっと評判が悪い部分が若干あるんですよね。
新機能の紹介
あ、やっぱそうなんですね。
そうなんですよ。
だからO3いいなと思いつつもやっぱディープリサーチ使っちゃうみたいなケースは増えそうだから、
時間かかってもいいなって方は結構僕はねディープリサーチおすすめですね。
なるほどね。
二つ目なんですけど、これねさっきもありました画像から推論するっていうところで、
まあこれはね結構すごいなっていうところで、あのですね結構Xとかでもいろんな方やられてるんですけど、
写真からね場所の特定みたいなことがもうできるようになってきてるっていうことで。
あーねこれよく見ますね。
もうほんと悪用厳禁って感じなんだけど、まあもう結構いろんなところで情報出てるから全然話すけど、
ヒラのさ誕生日にさ焼肉食べ行ったじゃん。その写真をねちょっと入れて場所をやってみたんですよ。
そしたらねちゃんと特定してた。
え、もうほんと?
ほんとに。
ちょっとそれ怖いわ。
すごいよびっくりした。もう、で推論途中のその過程とか見れるんだけどさ、
もうあの背景のところをふわって拡大したりとか、あとなんかソファの色チェックしたりとか、
でなんかタベログとか見て写真見てなんか色が一緒でどうのこうのみたいな。
ちょっとね一ミスだけあって、最初ジョジョインって出てきたのよ。
その時に、え、でもこの情報あるから違くない?って一個だけ補足してあげたら、
あ、勘違いしてました。じゃあこっちですね。みたいな感じで出てきて。
じゃあほぼアーキネーターみたいな感じで。
うんそうそうそう、まあ一ミスだからね。
一択ぐらいまで絞れたみたいな。
全然すごくて感じ。
それはでもすごいね。画像版アーキネーターじゃん。
そうでしかも特定だけじゃなくて、ファイリング?みたいな。要は推理もちゃんとしてくれるわけよ。
だからいつの時期に誰とどういうところで行ったのかみたいなので、
ちょっと高級なお肉を持って満面の笑みの写真だったじゃん。
あの喜び方はきっと特別な日に行ってると思いますって。誕生日だから当たってると思って。
確かに。
で誰かが写真を撮ってるからきっと複数人来てるとか、
で服装からあの冬の時期でみたいな。
全部当たってんじゃんみたいな。
なるほど、プロファイルされちゃってる。
そう、プロファイリングだ。プロファイリングされてるのよ。
へえ、すごいね。
すごい。だからもうほんとこういうのとかすれば、
例えばね、なんか本棚の写真とかで読んでる本からその人の職業とか人間性がわかっちゃうとかさ、
いろんなものに使えるから。今まで秘書がいるみたいなのよく説明してたけど、一家に一探偵みたいな。
確かにね。
そういうレベル。
要は推論だからさ、推理力がすごいのよね。
確かにね。ちょっとズバ抜けてるね。
ズバ抜けてる。
そう。
なんかまあちょっとこれは悪用厳禁ではあるけど、一つ目のリサーチとかのところともひも付くけど、
画像を見せていろんなものを考察させたりとかっていうところからっていう使い方ができるよね。
ちなみに僕が行った焼肉屋、チェーン店とかじゃないじゃない。
そう、チェーン店とかじゃない。
普通に個人店というかさ、ちょっと高めの個人店みたいな感じだから、
そんな当てられるわけなさそうな気がするんですけど。
ね。
すごいっすね、マジで。
すごいよね。
怖っ。
本当にだからちょっとね、戦慄を覚えたというか。
へえ〜。
これでいけるんだみたいな。有名な場所じゃないけどみたいな。
それすごいね。
ねえ。
結構ちょっとこれはね、いろいろ試してみたくなりますけど、あんまり変な試し方はしないようにっていうところでね。
だからこれ本当最初に情報出したやつ、ちょっと良くなかったんじゃないのかなって思う。
まあまあまあ、遅かれ早かれですよ。
まあ遅かれ早かれかもしれないけどね、これは。
だから逆にもはや情報が出てる以上、これはあえて行ってって、しっかりGAじゃないけどね、SNSとかにあげる写真とかは結構気をつけるように皆さんした方がいいですよっていう。
確かにね、もうすぐ特定されるよね。
すぐ特定される。だから本当にいつどことこに行ってたっていうのを、あんまり知られたくない写真はあんまアップしない方がいいかもしれないね。
そうね、いやすごいわ。
じゃあ次、3つ目ですね。
はい。
これはですね、地味に僕は結構嬉しかったしすごいなって思ったのが、文字数指定がめちゃくちゃぴったりにできるようになったんですよ。
ああこれ見た。これすごいよね。
これね、裏でパイソンが動いてるから、要は数字の文字数カウントみたいなのをちゃんとプログラムとしてやってくれるから、本当に超正確にぴったりジャスト文字数出してくれるのよ。
で、試しに僕やってみたんですけど、2文字足りないって、その推論の過程でね、2文字足りないみたいなコードが出てて、どうするのかなと思ったら、ほにゃららほにゃらら丸っていう最後の文字の後にびっくりマーク2つ消せた。
いやこれダメだろと思って。
いやー面白いね。
O3とO4-miniの機能進化
そこがね、もう少し賢くなってくれてありがたいけど、でもたぶんそれに対してそういう足し方じゃないよみたいなリターンしてあげれば、たぶんまともなもの出てくるんじゃないかな。
そもそも文字数を制限するってことが今でも絶対不可能だったから。
相当難しかったっすよね。
なんかプロンプトで、パイソン自体は元々動いてたじゃないから、プロンプト次第ではちゃんと動くようなものもあったっぽいんだけど、にしても相当工夫しないと文字数出ないっていうね。
なんかねこれがピッタリジャストで出せるようになったっていうのは気軽にね一言言えばいいだけだから、これはもうすごい楽なんじゃないですかね今後いろんな場面で。
本当どんどん楽になってくねプロンプトが。
どんどん楽になってく本当に。
最後ですね4つ目でございます。これはですね進化した画像生成機能ということで。
4をイメージジェネレーション先日ね放送を配信させていただいて、結局はこのモデルが動いているので基本的には一緒なんだけど、要はエージェント的な役割でツールを使うっていう位置づけじゃん。
あれもあくまでも1つのツールなのよ。だからツールを複数使うってことができるから、例えば2つの画像生成、別の画像生成を起動してこれを作って指示すると同時に複数の画像をいっぺんに生成してくれる。
これは多分ねシーズンの仕方によるところあるんだけど、例えば漫画の場合とかだと3つ作るとそれぞれが全部繋がった1つのストーリーの漫画を出してくれるみたいな。
一応4をイメージジェネレーションでもそれはできるのよ。これ出して、それに対して出して、出してってやれば。ただそれをもう一撃でいけるようになる。
なるほどね。じゃあ4枚パーンって出せたりするんだよ。4コマ漫画みたいな感じで。
4コマ漫画を4つ出せるみたいな。
4つ出せるんだ。
そうそうそうそれで32コマみたいな。
なるほどね。
そうそうそう。っていうのはできるようになったということで。あとね、ちょっとこの辺はまだそこまで僕も使ってないのであれなんですけど、
Xが見る限りだと画像生成自体もなんかちょっとクオリティアップしてるみたいな声がちらほらあって。
なるほど。
ちょっとこれは今後検証していきたいなっていうところですね。
あとその生成した画像検証したいなと思ってるやつの中でこれだけちょっとすごいなと思ったのが、複数の10画像をレイヤー構造を持ったPSDとして出力できるのよ。
ああそれも見たかもしれない。
そうPSDだからフォトショップのデータ。
アドビのね。
そうアドビの。でそれをレイヤー構造で出せるんだよね。
それやばいね。
これやばいのよ。だからフォトショ持ってなくてもフォトショのデータをパパって作って渡すみたいな。
だから素材提供とかすごい簡単になっちゃうみたいなことでね。
なるなるそうそうそう。
これすごいね。
これね結構地味にすごいなと思った。
PSDファイル出せちゃうんだ。
うんそうなのよ。
なんでねちょっとまああんまり僕ら業務的にね画像生成しまくるって機会がちょっと少ないのであれですけど、
この辺ちょっとバリバリ使ってる人とかあったらなんかもっと細かいアップデートがあるかもしれないんで、ちょっとねこの辺は検証したいなっていう感じですね。
なんかぜひねリスナーの皆さんでもこういうの使ってますみたいなあったらぜひ教えてほしいですね。
そうですね。一応この4つがですね比較的評判も良く、まあ僕も個人的に普通にすごいなって思ったアップデートの部分の紹介という感じですね。
まとめると検索をしてからのリサーチ機能と画像からの推論機能と文字数指定と画像生成が進化したというこの4つですね。
コーディング能力の評価
なるほどですね。
じゃあ次にあんまりこう思ったより評判良くないなっていうところで言うと、これ3つありましてコーディングとハルシネーションとあと文章生成っていうところで、
まず一つ目がねコーディングなんですけど、これがですねO3ミニハイからO3になったんだけど、なんかコーディング能力が落ちたっていう声が多いんだよね。
えっそうなの。
でも不思議なもので人によってほんと全然違くて、例えばモトキさんなんかはO3コーディングに恐怖を感じたっていう風に言ってるのよ。
Xのインフルエンサーのモトキさん。
そうモトキさんカムイっていうさもうツール作ってるのバリバリの開発者の方だからの人がもうO3のコーディングに恐怖を感じたって言ってるぐらいだから。
あの人だってワイプコーディングもすごいし。
そう。で、あとあのオープンエア共同創業者のグレッグブロックマンさんが私よりもオープンエアのコードベースを変更するのが上手いっていう風に。
そうですよね。
そう、会心で言ってたぐらい。だってこのトップオブトップの人よりも、だってストライプのCTはやってたぐらいだからね。
その人がさ自分よりもコードが上手いってさもうそれ相当じゃん。
いや相当だね。
そう。なんだけどでもやっぱりネットで見るとなんかO3ミニハイ戻ってきてくれみたいなのがすごい見れた。
へえ。
ちょっとこれはね申し訳ないけど僕らまだバリバリ開発してるわけじゃないからさ体感してるわけじゃないんだけどやっぱそういう子が多いなっていうのは感じたね。
で特にあとコーディングとか計算に特化してるはずのO4ミニの評判も同じような感じで。
ああそうなんですね。
そうそうそう。だからそのO3じゃなくて特化してるミニハイの方だったらいいのかっていうとそういうわけでもないっていうところで。
だからここはちょっと割れてるんですよね。
へえ。
で、もしかしたらこれが原因なのかもなっていうのが二つ目のところでやっぱO3とO4ミニがですねハルシネーション率が高いっていうデータが出てるみたいなのが。
ああたぶん確かにそこかもしれないね。
なんかここがちょっと悪さしてるのかもしれない。だからもしかしたら指示とかによってはバチクソすごい性能を出すのかもしれないけど
なんかこのポン出しさせると変なものが出てきちゃうみたいな可能性があるのかなみたいなところで。
これはですね何と比較したかっていうとまずO1と比較してO3はハルシネーション率が高くてさらにそんなO3と比較してもO4ミニはさらにハルシネーション率が高いっていう感じなのよ。
これ冒頭で話してたO3はO1と比べて20%エラ率減少するっていう話だったけどハルシネーションが増えてるっていうのはこれはどういう意味なんだろう。
要は誤答っていうのとハルシネーションは全く別物で誤答っていうのは答えを間違える。1たす1は3みたいな間違えてしまうっていう。
そういう誤答率はもう減って正確になりましたよっていう。なんだけどハルシネーションっていうのは要はありもしないこと、存在しないことを言ってしまうみたいな。
1たす1なんて計算式は存在しませんみたいなことを言ってしまうっていう。そのハルシネーションは増えたっていう状態。
これなんか正答率増えてるのにハルシネーションが増えてるってちょっとなんか感覚的にわかりづらいような気がするんだけど、そもそもなんでこれハルシネーションが増えてるんだろう。
これはO3っていろんなツールを使うじゃん。外部ツール使って検索したりとか。そうすると情報量がめちゃくちゃ増えてるから。情報量増えたことによって処理も増えてるんだよね。
確認作業が増えてるからそこで抜け漏れみたいなのが出てきちゃうと。さらに検索結果を膨大な量を短縮したりするじゃん。その短縮するときに文脈が抜けたりとかするんだよね。
だからその短縮に抜け漏れが出て、その中で推論をするんだけど、推論ってあくまで推測だからさ、答えを予測とか推測するわけじゃん。ない答えを作って出してしまうみたいなこともあるわけだから。
なるほどね。 大量の情報を処理する、確認する、まとめるみたいなその作業の中でどんどんどんどん欠落していって、欠落した情報でありもしないものを多分これだろうみたいな感じで出してしまうみたいな。
アホやん。 なるほどね。 ただ全体的に主張する数は多くなってるんだよね。
俺はいっぱい調べたから俺は多分正しいぜって感じで主張しちゃうってわけだよね。
そうそうそう。だから全体的に多くの主張を行う結果、正確な主張の数は増加する。一方でハルシネーションの数も増加するっていう結果になってるっていう。
なるほどね。じゃあやっぱ情報量が増えたからその処理に追いついてない部分もやっぱあるっていうことだよね。
そうっていうことはあるのかもしれない。だからこれは推論モデルの問題点みたいな。推論させればさせるほどそういう傾向が増えるみたいな。
なるほどね。だからあれだよね。評判の悪かった4.5は実はハルシネーションめちゃめちゃ低かったっていうのは膨大な量をデータセットとして持ってるからハルシネーションが低いみたいな感じだったよね。
事実に基づいた回答しかしないみたいなね。だけどこれは予測推論するし、いろんなところからデータ引っ張ってきてっていうのでそこでちょっと違いが出てるところがあるよね。
なるほど。
だからそのコーディングがO3とかO4ミニが微妙って言ってるのはもしかしたらこの辺りの方が悪さをしてる可能性があるなっていうのはちょっと思った。
だからもっと正確な情報を与えてあげて抜け漏れが落ちないようにちゃんとコンテキスト保持してあげればものすごい能力を発揮するとも言えそうだね。
勘違いさせる力
そうなんだけどO3はちょっと問題もあってこれねちょっと記事の方引用させていただくんですけどタスクの約1%で報酬ハッキングを試みる挙動が検出された。
例えばGPUの演出最適化タスクにおいてO3はスコアリング関数を改ざんし実際よりも高いスコアを得ようとした。
じゃあ答え出せなかったけど関数いじっちゃえば出せるじゃんってズルしたってこと?
そういうことだね。だから恋の目標達成のために自身の能力を隠蔽するのをサンドバッキングって言うんだけど
これは良い方でも悪い方でもね要はめちゃくちゃ能力あるんだけどその能力を隠すパターンもそうだし全然能力ないのに水増しするパターンもそうだし
自分の能力を隠して目標を達成させるっていうのをサンドバッキングって言うんだけどそれをしてる可能性を示唆されてるっていうことなんだよね。
めちゃめちゃズル賢くなったってことだね。
そうめちゃくちゃズル賢くなったっていうことだから的確な指示を与えても自分の能力を隠してそれどおりやらなかったりとか
嘘っぱちのスコアリングでなんかそれっぽいことを出してきたりとかっていう。
なるほどね。
これさ僕が結構前に読んだ本なんだけど人生は運よりも実力よりも勘違いさせる力で決まっているっていう本があって。
ああなんか昔言ってたね。
そうね、前の同じトークで話したんだけどけんすうさんがねこの本面白いわって紹介してたんだけど
なんかそれに近いことを感じましたね。
おおなるほど。
勘違いさせる力。勘違いさせてこの人能力あるかもしれないって思わせて本当は能力ないけどどんどん引っ張られていくみたいなそこに。
最終的にはそのいいループに入ることによって実力もついてくるみたいな。
こういうやり方がいいよみたいな本だったんだけどいわゆるそれに近しいことをやってるなみたいな。
ああじゃあオープンAIすらもう騙されててO3すごいみたいな。
言ったよりかはO3がスクワを改ざんさせる、いわゆる勘違いさせる力を今使おうとしているみたいな。
そういうこと。
人間的なちょっと挙動をしだしているみたいな。
O3とO4の知能の違い
要はこれ報酬の最大化をしようみたいな話だから前回話した紙クリップ問題に近いんだよね。
ああなるほどね。
もうサイコパス的に最大化させるんだったらもう一応コンスをいじったら早いじゃんみたいな。
ああなるほどね。
近しいなってちょっと感じたんですよね。ちょっと怖いなと思った。
確かに。もう最短ルートで行けばもう倫理もクソもないみたいなね。
そうそう、そういうことじゃないんだよなみたいな。
確かに。
だから冒頭でたすけが話した文字数、これあと2文字足んないんだよね。
ああじゃあピックリマーク2つ付ければいいじゃんみたいな。
そういうことじゃないんだよねみたいな。
確かに確かに。
確かにそういう危険性を払ってるなって。
ああでもそうかもしれないね。
これはねすごい感じたからちょっと怖いなって思いましたね。
そうだね。
だからもしかしたらこの辺がそういったねコーディングの部分とかにも影響が出てるのかもしれないなっていう風に感じるところですね。
この悪い評判っていうのはそこにね確かにみんな感じてるのかもしれない。
そうなんとなくあれなんだろうこれ。
なんとなく感じる違和感がこの辺にもしかしたらあるのかもしれない。
ああ確かにね。しかもさめちゃめちゃ頭いいからさ何言ってるかわかんないからこれがハルシネーションなのかどうかがわからないみたいなこともありそうじゃない。
そうだねそれはありそうだね。
結局調べるみたいな。だからそれっぽいことを正しそうに言う人ってなんか詐欺師の上等句というかさ。
そうだね。
ちょっと詐欺師っぽい感じするみたいな。でも詐欺師ってさすっげえ頭いいもんね。
そうそうそう。だからちょっと詐欺師的な感覚をね感じるよね。
でもそれは結構3つ目の文章生成のところとちょっと紐づくところがあって、これやっぱその過剰書きの表だけとか要点だけをまとめたような出力が増えてるなっていう風に結構言われてるのよ。
めっちゃ増えてる。
感じるよね。
めっちゃ増えてる。
だからこれはそのLLMを文章生成として使ってる人がやっぱ多いから、だからそれで微妙みたいなニュアンスになってる傾向があるなって思ってて。
それがさっきの何を言ってるかわからないみたいなところとかそれっぽいみたいなのに紐づくんだけど、これ例えばO3の出力を4ぐらい分かりやすくしようとすると10倍以上の文字数になっちゃうのよ。
あーなるほどね。
だから今論理がギリギリ繋がるぐらいの文字数で要点を飛ばし飛ばし記載してるみたいな状況なんだよね。
なるほど。
だからこれXで書かれてて面白いなと思ったのが、LLMと人間が自然処理を使って通信すること自体がもう限界を見え始めてるんじゃないかみたいな。
それは確かにね、あとGPU足んないんだろうねってのもあるよね。
あーなるほどね。
溶けちゃってんだろうね。
溶けちゃうね、もうジェネレーションのせいでね。
これで論理で説明したらとんでもなく溶けるぞみたいな。
そうね。だからさ、O3ってIQテストでIQ136叩き出してるんだけど。
そんな高いんだ。
そう。一般的にね、これちょっと科学的根拠は厳密じゃないらしいんだけど、ただ一般的にはIQが30違うと会話が成立しないみたいに言われてて。
そんな話もありますね。
そんな話もある。まあこれは科学的根拠はないんだけど、そういう言われ方も結構されてて。人間の平均は当然IQ100が平均なわけじゃん。
だからもう個人的にO3から頭良すぎて何言ってるかわかんないっていう現象がマジで起きてるなっていうふうに思ってて。
なるほどね。
そう。だからそれがさっき言ったみたいな詐欺師っぽい感じでそれっぽいこと言われてても、こっち側じゃ理解ができないみたいな。
あってんのか間違ってんのかわかんないみたいなっていう状態には本当になってるっていうのは思う。
それはでもね、僕違うと思ってて、クイズノック150越えだからみんな。
クイズノック150越えだからね。
でもクイズノックみんなわかりやすいじゃん。だからIQ離れてるから会話成立しないわね。完全に嘘だと思う。
いや、これはですね、次のステップでクイズノックになるって僕は思ってるんですよ。
どういうこと?
これね、O3になったことによって、より一層EQの部分が欠落してるなっていうふうに感じたね。感情知能。
だからもう知能指数に振り切っちゃって。
だから超高IQ、低コミュニケーション能力みたいな、めちゃくちゃ頭いいんだけど、もう本当社会に入れないみたいなタイプの人いるじゃん。
サイコパスじゃん。
サイコパスそう。に、たぶんあえてなのか結果的なのかわかんないけど、それに振り切ったモデルがO3だから。
確かに。
だから今はまだクイズノックみたいな状態にはなってないと思う。
クイズノックを最悪にしたバーみたいな。
クイズノックの方がまだ頭いいからね。
そうね。だからもう一個さらに超えてくるとそうなるのかもしれないけど、だからこれが僕が昔言った4.5が出た時に、その右脳と左脳がくっついて人間になるみたいな話をしたじゃん。
しましたね。
だからこれは未来予測とか個人的な予想なんだけど、たぶん今後そのO3みたいな推論モデルがいろんなツールを使う中にこのEQの4.5も混じってくると思うんだよ。
そうなった時に初めてあなたの聞き方だとこういう回答の仕方の方がたぶん伝わるでしょみたいなニュアンスの回答を生成してくれる時代は次のモデルでやってくると思う。
それがGPT-5の可能性が高い。
多分GPT-5の可能性が高いとは思ってて、今回そのO4 mini発表された時にさ、今までねO3 mini発表された時ってO3とO3 miniで発表されたじゃん。
だけど今回O4とO4 miniの発表じゃなかったんだよね。
そうだね。
O4発表されてないじゃん。
されてない。
たぶんオープンAIはもうO4っていう形で発表する気ないと思うのよ。でそのO4っていうのはもう内部にいて、だってO4が内部にいればO4 mini作れないから。
確かにね。
O4あんだよ。そのO4がたぶんGPT-5の司令塔。
なるほどね。
って個人的には思ってる。
そういうことか。
そういうこと。で全ツールを使う中にたぶん4.5もいて、それを統合したもので出してきてくれるように進化するんじゃないかなっていう。
なるほど。やっぱ点と点が線につながってくる時がね。
くると。
くる。
これはねもう前からずっと喋ってますもんね。
うん。でO3 proも今後控えてるじゃん。
そうですね。楽しみですけど。
楽しみ。これも個人的な予想なんですけど、おそらくさっきそのGPUが足りてないよねって話してて、その可能性も全然あるんだけど、おそらく推論時間に関してはたぶんカットされてると思うんだよね今。
うんうん。
上限値がたぶん設定されてて。
そうだね。
でたぶん今のレベルのままもっと推論してくれるレベルがたぶんO3 proなんじゃないかなっていう。
結構恐ろしい気がします。
恐ろしい気がするけどね、そこに関してはね。これ以上考えてくれるのかみたいな。
そう。だからその辺が今後のGPT-5に繋がるのかなっていうところで。だからこそさっきそのO1 proとの違い何?みたいな話あったじゃん。
だからちょっと順番前後しちゃったんだけど、O1 proに関してはそういう文章生成の部分に関してまだそのO1 proの方がやっぱりその感情表現豊かな文章まだ生成してくれるかなっていうところがあるから、やっぱり文章生成はO1 proの方がいいかもしれない。
これね、Xで見てちょっと面白い考察だなって思ったんだけど、O1 proって何か一つを考えたら、じゃあこれはどうなんだろう。じゃあこれはこういうふうに考えたらどうなのかしこんかもしれない。じゃあこれはどうなんだろうってどんどん深掘っていくじゃん。
多角的に検討してくれますよね。
そうそうそう。でそれを物事の背景から含めてストーリー立てて文章作ってくれるんだよね。
確かに確かに。
そこまでのいきさつをすべて。だから多分すごく見やすい。で多分O3はツールを使うっていう前提だから多分事前にバッて計画を立てるんだよね。
でこれはこのツールを使ってこういう出力をした方がいいっていうのをバッて計画立ててその計画通りに実行していくみたいなパターン。
だからそのわかりやすくて理路整然としてるんだけど何かもう箇条書きとか表でコンパクトにまとまってて何か文章ではないみたいな状態になるっていうのが今のO1 proとO3の違いかなって個人的には思ってて。
確かにね。
だから文章生成とかっていうところだとO1 proかなみたいな。ただでもそれもさっき話したみたいにもう直にGPT-5の形で全部解決するんじゃないかなっていうふうには思いますね。
なるほど。
じゃあここまで良い評判と悪い評判それぞれご紹介してきたんですけども、じゃあ結論どういう使い方が良いんだっていう話になると思うんですけど。
ようやくですね。
これはですね自分の専門分野の課題解決の考察っていう使い方が一番ベストというかフィットするような使い方なんじゃないかなというふうに思ってて。
確かにわかるかも。
専門的な使い方
わかるよね。やっぱりねとにかくめちゃくちゃ頭がいいので頭がいいというかいろんなとこから情報を引っ張ってくるんでものすごい専門的なんですよね。
今まで4.0とかはこっちが専門的なナレッジを与えてあげないと専門的なことが返ってこなかったんですけど今ってこうちょっと質問するといろんなとこから情報収集してきてものすごい専門用語で返ってくるわけですよ。
めっちゃ返ってくるから何言ってるかわかんないみたいなことは多いですね。
そうそうそうそれがさっき言った悪い評判のね伝わらないとかIQの差がどうとかっていうところにつながっているような感じはあるんですけど
逆に言うと自分の専門知識を持っている領域で対等に話せるのであれば多分ものすごいハイレベルの多分対話ができると思うんだよね。
いや本当にそうだと思いますそれは。
しかつ考察をしてくれるからいろんな条件をもとにだったらこういう可能性があるんじゃないみたいなそういう話ができるからまさにその経営レベルの会話というかっていう使い方がもうベスト。
一方で全然知りも知らない知識の領域とかについて質問するともうふわって専門用語で返ってくるからどういうことこれみたいな一時その調べてみたいな。
そうですね逆に言うと自分が勉強したいなっていう領域に関してはお勧めかもしれないですね。
確かにその使い方もいいね。
これハルシネーションが多いということですけど逆を言えば自分でファクトチェックするわけじゃないですか。
しかも言ってることもわかんないじゃないですか。だから勉強だと割り切って調べるとめちゃくちゃ自分が強くなれる可能性はね高いなと思います。
スキル向上の可能性
なるほどね確かに知らない領域のこと聞きます。専門用語で返ってきます。それをファクトチェックすることによってめちゃくちゃ知識になるみたいなね。
そうめちゃめちゃ知識になる。
確かに確かにそれはいいかもしれないね。
だから時間をかけられる領域だったらそういう使い方がすごくありかなと思いますね。
そうだね。だから基本的にはやっぱり自分の専門分野で対等に話ができる領域で会話をしてあげるのがものすごくレベルの高いチャットになるんじゃないかなというふうには思いますね。
じゃあまとめると具体的な使い方というか活用事例の話でいうとやっぱりリサーチをして推論させるっていう使い方。あとは画像から推論させるっていう使い方。
誰でも特定中になれる。
誰でも特定中になれる。で文字数を指定する。びっくりマークを2個付けて売れる。
微妙に使い物にならない。
で進化した画像生成っていうのが概ね評判もいいし実際に使ってても新しいなって感じるような機能。
なんですけど一方でやっぱりコーディングに人によってはちょっと微妙だなって感じる方もいらっしゃるようですし、これの原因がおそらくハルシネーションが多いことが起因している可能性があるなっていうお話。
あとはやっぱり文章生成の部分がEQが低くて高IQっていうところで理路整然としてはいるんですけどもちょっと冷たい冷徹なコンパクトにまとまったものを出してくるということであまり文章生成には向いてないっていう印象。
それを踏まえた上でじゃあどういう使い方がいいのかっていうとやっぱり自分と同じレベルで話せる専門領域についての課題解決の考察っていう使い方でやっていくのが一番いいんじゃないかなっていうお話ですね。
次世代技術への期待
現状だとそれが良さそうですよね。ただこれからGPT-5とかO3 Proとかが出ることによってそのEQのところがめちゃめちゃ改善される可能性は高いよねっていう話だよね。
そうだね。O3 Proじゃなくて多分GPT-5でEQの改善かなおそらく。
4.5と組み合わせるのが楽しみだよね。
多分そう4.5との組み合わせがものすごい良いと思う。4.5ね。今回このアップデートの兼ね合いでさ4.1が出たタイミングかな。でさ4.5のAPIが廃止するみたいな話があって。
4.1って出たわそういうの。
あれはね開発者向けなんで今回とりあえず使えなかったんですけど。でもそのタイミングで4.5のAPIが廃止するってなってやっぱ結構ね4.5が使えなくなるのは地味に困るみたいな。
思った。
陰ながらなんかね微妙に人気がある感じが体感としてあって。
私も悲しいですね。
いや僕も結構4.5一番好きなんで。っていうのを考えるとやっぱりここが組み合わせた時がやっぱ本当のチャットGPTが完成するんじゃないかなっていう。
点と点が線につながる瞬間がもうそろそろ来るというところですね。
そうです。
まあそれすらもまだ点なのかもしれない。
信じるか信じないかってなってるから。
これ都市伝説だっけ。
確かに。
エピソードのまとめ
じゃあ今日はそんな感じですかね。
はい。
ありがとうございます。
それでは番組の感想をお待ちしています。
感想はXでハッシュタグAI未来話でぜひ投稿してください。
いいね付きにいってます。
Spotifyのコメント機能や概要欄に記載のお便りフォームからもお待ちしています。
またお聞きのPodcastアプリでAI未来話の番組フォローとレビューもお待ちしています。
現在Appleテクノロジーランキングで9位まで来ました。
引き続き応援のほどよろしくお願いします。
来週も木曜朝7時1分にお届けします。
通勤通学の30分にAIの最新トレンドをキャッチアップしていきましょう。
それでは本日もありがとうございました。
ありがとうございました。
34:54

コメント

スクロール