1. 聴くだけフリーランス講座
  2. ChatGPT4に画像認識の追加機能..
2023-10-01 09:03

ChatGPT4に画像認識の追加機能!早速チェック!

https://twitter.com/kei31/status/1708248073988931699


▼ 過去放送をVoicyで探す

https://r.voicy.jp/0pvmbkvZ9eA


▼ 人気NFT「LLAC」やアマギフがもらえるフリ校紹介キャンペーン

https://bit.ly/3ZD6rN3

00:01
こんにちは、フリーランスプログラマーのけいすけです。
毎週日曜日は緩く楽しく聴くだけで、AI、ブロックチェーン、NFTなどの最新のテクノロジーに
何となく追いつける音声をお届けします。
はい、皆さんおはようございます。
今日のテーマなんですが、ChatGPTがアップデートしたんですね。
ChatGPTの4ですね。GPT4というものがアップデートしましたので、これを見ていきたいと思います。
まず、そもそもChatGPTというのは、テキストを入力して、それでテキストが返ってくるというプログラムなんですね。
なので、何かアイディアを出してとか、この文章を修正してとか、そういったお願いができるわけです。
そこで新しく、最近機能が追加されたんですが、これがマルチモーダルというものなんですね。
これは何かというと、テキストだけじゃなくて、音声とか画像とか、そういったことがテキストだけじゃなくて、いろんなものが使えるようになるという、そういうアップデートです。
で、これはいつかな、2、3日前ぐらいにアップデートされたんですが、これ全員が使えるようになっているわけではなくて、ごく一部の方向けにまずは機能が徐々に開放されているという、そういった状況らしいですね。
で、僕はですね、実は残念ながら使えてません、まだ。
なので、Twitter上でですね、こんな使い方をしてみたよという、そういう投稿をですね、見ていきたいと思っています。
なんですけどね、このChatGPT4の新機能、これChatGPT4Vっていって、ビジョンのVみたいですね。
ChatGPT4Vなんですけれども、2週間ぐらいでアップデートするよということを言っているので、おそらく近いうちに誰でも使えるようになるかなと思います。
誰でも使えるようになるとはいつつ、おそらく課金ユーザーですね、月20ドル払っている方におそらく優先的に開放されると思いますので、気になる方は使ってみるといいと思います。
で、何ができるかなんですが、ざっくり言うとですね、画像を認識してそれに対していろいろ受け答えをしたりすることができるようになっています。
それからですね、音声合成などの機能も追加されているみたいですね。
これはアプリパンかな、iPhoneのアプリではそういったものも追加されているみたいです。
今このチャプターにリンクを貼っておきますので、これでどんなことができるのかザーッと見ていくとわかるかなというところです。
見てみるんですけれども、まずはですね、やっぱり画像の分析というか、それを読み込んでくれるわけですよね。
なので、例えばですね、論文とか何か記事にあるようなちょっと複雑な図でありますよね。
そういった図を読み込んでもらって、これは何ですかと説明してください。
わかりやすく説明してくださいんですね。
そういった使い方がまずできるみたいですね。
03:02
で、わからないものがあったときにパシャッと写真を撮って、これは何ですかと聞いちゃう。
これがかなりシンプルな使い方ですね。
オープンAIが出している、このChatGPT4を開発しているオープンAIのデモの動画では自転車の写真を撮って、
この自転車のサドルを下げたいんだけどどうしたらいいの?ってそういう質問をしたりする、
そんなやり取りが動画に入っていました。
それから、食べ物の写真を撮る、そんなアイデアがありましたね。
食べ物の写真を撮って、それでこのカロリーいくつとか、あるいは作り方を聞いてみるとか、
この料理何ですか、そんな使い方もできるみたいですね。
確かにカロリーが分かったら便利と言えば便利ですよね。
あと、見たことないもの。
これは料理に限らずですが、見たことないものを写真を撮って、これは何ですかというのは、
これはChatGPTならではですね、自分のすぐ隣に頭のいい、というか物知りの友人が常にいるみたいな、そんなところです。
はい、どんどん行きましょう。
Twitterにインクに貼ってあるので、ぜひ見てください。
もう一つはですね、ページが遷移する図を読み込ませてページを作ってもらう。
ちょっとすいませんし、しゃべるとなかなか伝わりにくいんですが、
例えばですね、アプリでこのボタンを押すと次にこんなページに行きますよ。
で、じゃあ戻るボタンを押すと戻りますよとか。
そんなページの遷移ってありますよね、ウェブサイトとかで。
そういった図を作ってですね、それをホワイトボードに書いて、パシャって写真撮って、
チャットGPTにこれ作ってって言うと、
なんとですね、このボタンを押したら次のページに行くとか、そんなこともできます。
これって今までは仕様として文章に書かなければいけませんでしたよね。
チャットGPTとやり取りするときは文章しか使えなかったので、
最初のページがあってこのボタンを押すと次のページに行って、
っていうのがこれが図でできるようになるわけです。
ページを書いてこのボタンを押したら次のページに行く。
こんなプログラムもね、もともとチャットGPTやってくれるので、
それを図から起こしてくれるというのはこれは面白い。
あとは、これはシンプルなんですけど、おしゃべりをするという話ですね。
これはスマホ版だけなのかもしれませんが、すいません。
僕はですね、まだこれ機能開放されていないので使い切れてないんですが、
スマホ版でですね、お話をする機能が追加されて、
自分が喋ったのをギリギリ、かなりリアルタイムに近いぐらいで、
チャットGPTが返答してくれるものがあります。
この紹介している方ですと、大阪弁で喋ってとか、
そんなこともいろいろ喋れるみたいです。
これ語学の学習にはもしかしたらいいかもしれませんよね。
何を自分が喋ったとしても英語で返してとか、あるいはちゃんと解説をしながら英語で返すとか、
06:00
そういった使い方としては意外といいんじゃないでしょうかと思っています。
それからもう一つ、これもプログラミング関連なんですけれども、
画像を見せて、この画像を再現するソースコードを作ってくださいということがあるみたいです。
例えばウェブサイトのスクリーンショットを貼るとか、
あとは電卓アプリを作っている方もいましたね。
電卓アプリとかのスクリーンショットを送って、
このアプリ作ってくださいとか、このページを再現してくださいというと、
ザーッとソースコードで書いてくれるみたいですね。
見た目はわかるんだけど、それどうやってソースコードにしたらいいんだろうって、
やっぱり悩むときあるんですよね、エンジニアとして。
そんなときにもヒントになるかなというところですね。
あとはちょっと次は、お遊びというわけじゃないんですが、
ウォーリーを探してもらうというのもありましたね。
ウォーリーを探すの画像でウォーリーを探す。
たまにダメなときもあるけど、結構いいよというそんなところでした。
こんな形で画像が見えることによって結構いろいろできることになるんですけど、
これはまだ序の口といえば序の口のような気がします。
これ一番何がすごいかというと、コンピューターが視覚を手に入れたわけですね。
視覚って目ですね。視覚、聴覚、嗅覚とかの視覚です。
今までっていうのはテキストだけだったので、
テキストだけっていうのは文字のやり取りはできたわけなんですけれども、
それに画像が入ってくると、さらに音声も入ってくるとなると、
あと、嗅覚と触覚はないんですけれども、
聴覚とか視覚、味覚もないかななんですけれども、
そうすると、これロボットに搭載するとかなり動けるようになってきますよね。
そういうのはまだないのかな。部分的にはあるかもしれませんが、
これはどんどん人間に近づいていくわけです。
というかですね、ロボットというよりは皆さんZoomとかでやり取りする画面の向こうに人間がいるっていう状況、
この状況とほぼ変わりがなくなってくるわけですよね。
だって画面の向こうにいる人に、嗅覚で何か伝えようと思ったら伝わらないし、
画面の向こうの人に、触覚で何か伝えようとしても無理なわけですよ。
ということは、画面の向こうの人には、聴覚とか視覚ですよね。
味覚も味も伝わらないけれども、視覚と聴覚さえ伝わってしまえば、
それでも画面の向こうにいる人間と何ら変わらない、そんなことがチャットGPTはできるようになってきました。
今、2023年ですけれども、おそらく来年ぐらいには本気でAIが人間の仕事を奪いにくるという、
そういう世界になるんじゃないかなと僕は思っています。
そういう時にどういう働き方をするのか分かりませんが、僕はどちらかというとワクワクする方なので楽しみにしています。
それでは今日はここまでで終わりにしたいと思います。最後までありがとうございました。
09:03

コメント

スクロール