2024-05-14 13:55

GPT-4oのリリースから妄想する未来

サマリー

GPT-4oは、言語モデルの向上、大規模データトレーニング、応答速度の向上、マルチモーダル機能、カスタマイズオプションなどの新機能を持っています。ウェアラブルデバイスを開発することによって、アイトラッキングができるようになると、GPT-4oのマルチモーダルな利用が可能になります。

00:09
皆さま、こんにちは。TRY-CATCH FMです。このポッドキャストは、それぞれの企業で働くソフトウェアエンジニアと、
プロダクトマネージャーの2人が、テック、キャリア、ライフスタイルなどのテーマに、 雑談形式でお送りする番組です。
では、やっていきましょう。
はい、よろしくお願いします。
最近、これ今どのくらい続いてるんだろうな。
5月入ってからぐらいに、知り合いのツイッターで見かけたんだけど、
Zencastっていうラジオみたいな、Zenがやってるラジオなのかな、の中で、
毎朝10分、Zenのキスストレート音声で、っていうタイトルで、AIラジオをやってるチャンネルというか。
あれね、Zenがやってるわけじゃないんですよ、あれ確か。
これZenのプラットフォームとかではないの、Zencastって。
確かね、そうだったって。ちょっと待って確認させてください。
なるほどね、これ別にプラットフォームとかじゃなくて、ZencastWebっていう。
非公式のサービスですって書いてあるから、 多分第三者がZenのデータをAPIで取ってまとめてるっていう感じですね、これ。
そうだとは思ってたんだけど、Zencastっていうのがプラットフォームだと思ってたんだけど、
これはZencastっていうドメイン化なんかを取ってあって、 この人は個人にやってるやつなのね、っていうところを勘違いしてた。
何かっていうと、毎日Zenのトレンド記事をAIでまとめて、 AIの音声が読み上げてラジオを作ってるっていうやつなんだよね。
結構内容も自然というか、そんな感じが強いし、 読み上げもだいぶここまで来てるんだっていうぐらいの自然さがある。
本当に人間と間違えるレベルではまださすがにないんだけど、 音声読み上げ系を人間がある程度頑張って調整して、
いい感じの音声作りました、みたいなところまで来てるから、 もうこのレベルがある程度自動にって言ったらあれだけど、作れるところまで来てるんだなっていうね。
ですよね。
うん。
それをそうしたいかどうかは置いといて、いずれ僕らも一部AI音声でやってみるか、 みたいな時が来たりするのか、みんなしもらってほしい。
確かに。これってテキスト2スピーチは何でやってるんだろうか。
何でやってるんだろうね。
これは公開されてなかったね。この開発者の人のツイッター見てるんだけど、
特にこういう技術スタックで作りました、みたいなのがなかったから、大気になる。
この辺をそのうち出してくれたりするのかな。 一応ChatGPTをタグに入れて、こんなウェブサービス作りましたっていうツイートをしてるので、
一定ChatGPTでやってる可能性があるけど、 でも音声どこまでできるんだっけ。ChatGPTでっていうのはちょっとあれだね。
でもあるのか。日本語の場合どうなんだろうな。日本語でできるのか。
ただね、この制度ではできなかった気がする。ただこの後、本編で話すけど、またアップデートが来たから、 このレベルがChatGPTでできるようになるかもね、みたいなところはあるかもしれないけど。
毎日技術トレンドを上げてくれているラジオになっているので、気になる方は聞いてみたらいいんじゃないかなと思います。
じゃあ本題いきましょう。 本題がまさに今日の深夜、
リリースされた、今日ですね。 GPT-4-Oっていうのかな。読み方は?
Oだね。オムニーっていう英単語の頭文字。 全てとか、〇〇とか全〇〇みたいなのをオムニーだね。
要はあれだね。マルチュモーダルっていう意味合いなのかな。
そうだね。いろんな音声もできるし、テキストもできるし、画像もできるしみたいな、そういうオムニーなんだろうね。
4-Oがリリースされたわけですけど、ちょっと2人でざっと何が新しいんだろうねとか、実際に使ってみつつ、
GPT-4oの新機能
いろいろ話してみますかという回なんですけど、 何が新しくなったかというと、これ自体を4-Oに聞いてみたんですけど、
まず言語モデルが向上しましたと、より自然で流暢な文字作成が可能になりました。
あと大規模データトレーニング、大量のデータセットを使用してトレーニングされており、広範囲な知識ベースを持っています。
あと応答速度向上、これが結構すごいっていう声が多かった気がしますね。
レベルの最適化により応答速度が向上し、リアルタイムの対話がスムーズになっています。
あとマルチモーダル機能、テキストだけじゃなくて、画像や音声の入力も処理できるようになりました。
あと、カスタマイズオプション、ユーザーがモデルの応答スタイルや
トーンをカスタマイズできる機能が追加されました。前もあった気がするけどな。
あとプライバシーでとかセキュリティが強化されたとか、インテグレーションが強化されたとか、そんなあたりですね。
この中で気になるやつあります?
実際に僕がこの4.0を使ったのって、普段テキストで使ってるから、それが使えるようになったんだぐらいの気分で、いつも通りテキストを使ってたぐらいなんだけど、
速度は結構体感わかるぐらい速くなってる。
そうだよね。
前だと、一瞬待った後、またちょっと待って、みたいなスピードで出てきたのが、結構ババババッと一変に回答が出てくるようになってる気がする。
割と待ち時間みたいなのがなくなったかなっていうのと、これマルチモーダルと合わせると、今までと違って何だろうな、音声会話が人間と会話するのと同じレベルの速度でできるようになってるらしくて。
それがちょっと気になってるね。
デモ動画とか見ると、まさに映画派の世界だよなっていう感じですよね。
そうだね。視覚障害者の方用のアプリ、Be My Eyesっていうのがあるんだけど、
それって結構画像とかで写しているものをボランティアの人というか、アプリの目が見える人がいろいろ説明してくれるみたいなことをやってるアプリだったと思うんだけど、
これをGPT-40でやってみたみたいなのがあって、会話でポンポン今の見えてる景色を説明してくれて、
タクシーにも一人で乗れるみたいな映像が出たりするんだけど、これ会話しながらどんどんできると、
障害者の方にもいいし、別に僕らもこうやって映しながら、あれって何?とかいろいろ解説を聞きながらやれるから、オーディオガイドが常にあるみたいな、そういう状態になる。
そうっすね。
今まで、このマルチモーダルで音速度がめっちゃ速くなるっていう状況が実現できると、
かなりカメラで、カメラ使って、スマホとかのカメラ使って、インプットを与えるっていう人が多くなってくるじゃないですか。
そうなると、なんか結構、
Vision Proがやろうとしてることにかなり近くなってるなっていうのがちょっと一個思いましたね。
そうだね、これはもう協力しに行くのか競合しに行くのかみたいなところもあるよね。
Vision Proっていうのは今までね、スマホでのアクションというかデータしかトラッキングできてなかったけど、
ウェアラブルデバイスの利用とGoogleマップ
ウェアラブルデバイスを開発することによって、日常生活とかも含めて全部トラッキングできるというか、アイトラッキングができるようになってるわけじゃないですか。
このマルチモーダルでのGPT-40も、
例えばだけど、ちょっとできるようになるかわかんないけど、
Googleマップで手使い方もできるかもっていう話だよね。常に街の雰囲気を見せておいて、
ここにあってくださいとか。 そうだね、それは結構、地図情報とともにインプットしてあげたらできそうだなっていうのはあるね。
より学習データが増えるっていう話だよね。
これ見といてみたいなのが割とできるようになると思うんだよね。
漢字みたいな?
ポンと置いといて、これ鍋拭いたら教えてとか、誰々通ったら教えてとか、そのレベルのことができるようになるような気がする。
確かに。
もう何ならさ、子供、もうちょっとどんどん信頼性上がっていったら、子供を見といてって言って、何かあったら教えて、の精度がめっちゃ上がるみたいなね。
確かになー、それね、子育て世代めっちゃ嬉しいでしょうね。
そういうのがどんどん、今までって結構、それこそあれも2年前ぐらいの近い過去だったと思うんだけど、
ラズパイとかカメラとかをいろいろくっつけて、機械学習のモデルとかもいろいろつけて、そのペットが何かを加えてやってきたのか、本体だけでやってきたのかみたいな、
ペットがヘビとか虫とかを加えてやってくるのが嫌だから、ネズミを加えてやってくるのが嫌だから、加えてやってきたら開けないようにみたいなことを機械学習でやった人がいて、
すごいなって思ったんだけど、あれがもはやそんな、自分でモデル作って頑張らなくてもできるようになっちゃうのか。
一瞬でできるっていう話だよね。スマートキーとかと連携させておいて、そういう命令が一瞬でできるってことだよね。
そうそう、っていうのは結構リアルタイムでできるようになるんじゃないかなっていうのがあったりするし、
どんどんコンシルジ的な、一人に1コンシルジAIみたいな話が、もっとリアルタイムの会話もできるし、見せながらこれどう思うみたいなのもできるから、かなり近くなってきたなっていう感じが。
いやー、もうあっという間に、その時生まれたスタートアップがデザイン化されるというか。
ああね、それも含めての、なんか嗅覚とか、ビジネスモデルとかになっていくよね。
何作ればいいんだろう、みたいな。
OCRの精度もめちゃめちゃ上がったらしいんだよね。まだ試してないから、体感はしてないんだけど。
ってなると、OCR頑張ってる系のやつの中で、一部のジャンルは置き換えられてっちゃうかもね、みたいな話が出てくるかもしれないね。
スタートアップの課題とAI研究
確かに。そうだね、ちょっとこういう状況の中でスタートアップってどういう方針でやっていけばいいのかって、すごい気になりますので調べてみようかな。
そうだね、AI系の研究者、人を一部フォローしてたりするんだけど、その中でやっぱこういうのでちょっとオープンAIをこれ出してきて研究辛くなったみたいな、研究今までしてたのがあれみたいなことを言ってる人と、
オープンAI社の発表によってその自分の研究がきつくなるっていうのは、そもそも研究のテーマ選びみたいなところが間違ってるかもしれない話を言ってる人が両方いて、
そういうスタートアップだけじゃなくて、AI研究もそういうこともあるんだろうなあ。
勝手にこの世界でも。
フレークスルーぼんぼんくるから、そのテーマ選びの秒みたいなのがあるんだなあっていう感じがある。
そういうことか。
はい、ちょっとこれから多分いろいろ使い方は出てきそうですよね。まだ今日発表されたばっかりなんで、みんなちょっとどういうことができそうかみたいな感じではあると思うんですけど。
ちなみにこれ無料モデル、無料ユーザーの人もアクセスできるようになってるらしくて、
有料ユーザーの人の方が5倍ぐらいの制限量でできるけど、無料の人も使えるみたいな感じになってるんで、もし課金してない人も興味があったら使ってみたらいいんじゃないかな。
そうですね。はい、じゃあ終わりましょうか。
はいはい。
はい、ではこんな感じで週2回のペースで配信しているので、もし面白いと思っていただけたらXのフォロー、Podcastのレビューなどお願いします。
では今回も聞いていただきありがとうございました。
ありがとうございました。
And now, a short commercial break.
現在、エンジニアの採用にお困りではないですか。
交付所とのマッチ率を高めたい、時帯率を下げたいという課題がある場合、Podcastの活用がおすすめです。
音声だからこそ伝えられる深い情報で、交付者の興味関心を高めることができます。
株式会社ピトパでは、事業の採用工法に役立つPodcast作りをサポートしています。
気になる方はカタカナでピトパと検索し、Xまたはホームページのお問い合わせよりご連絡ください。
13:55

コメント

スクロール