1. rel.ax
  2. #10 画像、音声、そして未来の..
2023-09-30 15:58

#10 画像、音声、そして未来のデバイス:AIの進化が加速する

bbz
bbz
Host

ポッドキャスト第10回目の紹介 ## 1. AIによる画像認識の進化- オープンAIのChatGPTに対して、画像認識機能が追加された。
- これにより、画像をテキスト情報とともに解析し、チャットGPTが回答することが可能になった。
- 例えば、レシートの画像を撮影し、その内容を問い合わせると、チャットGPTが解析して回答してくれる。
- これまでは、画像の説明をするだけでなく、画像に含まれる文字情報も解析し、回答してくれる。
- これにより、手書きのメモの内容を問い合わせる際に、OCRで文字列に変換する必要がなくなった。
- 画像とテキストのマルチモーダルな機能により、チャットGPTの利用範囲が広がった。## 2. ChatGPTと音声会話の進化- ChatGPTとの対話が音声で行えるようになった。
- スマートフォン向けのアプリで、チャットモードや会話モードを選択することで、音声での対話が可能。
- ユーザーが発音すると、チャットGPTがきれいな日本語で回答してくれる。
- ワイヤレスのヘッドセットを使用し、24時間アプリを立ち上げておくことで、常にAIとの会話が可能。
- 本を読んでいる最中に疑問が生じた場合、口頭で質問すると、チャットGPTが回答してくれる。
- 音声を通じてAIとの対話ができることで、自身の能力が拡張された。## 3. ダリースリーと新しいデバイス開発- オープンAIのサム・アルトマン氏と、デザイナーのジョナサン・アイブ氏がAIのハードウェア開発に取り組む可能性があるとの噂が広まっている。
- この話はまだ確定的な情報ではなく、業界の話題として注目されている。## 4. AmazonのAIへの出資- Amazonがアンソロピックという会社に対して約5900億円の出資を行い、生成AIの強化を図ることを発表した。
- AmazonがAIの生成に本格的に取り組む姿勢を示している。## 5. プリファード・ネットワークスの大規模言語モデル- プリファード・ネットワークスが、高性能な大規模言語モデルを発表した。
- プラモという名前のモデルは、日本的な名前付けがされており、注目を集めている。

※ タイトルや概要は AI にて生成させています。

放送で紹介されたニュースへのリンク

https://ainewsdev.substack.com/weekly-ai-news-10


放送の最初と最後の音声は https://elevenlabs.io/ で作成しました。

サマリー

今週のポッドキャストでは、Chat GPTによる画像認識機能と音声会話機能が開放されている話題です。GPT-4やChat GPT V4の能力の高さに驚いており、AI技術の進化とその可能性を考察しています。また、画像生成の技術も進化し、Dally 3がリリースされました。Dally 3では、画像を入力として受け取り、その画像からテキストを出力し、さらにそのテキストから新たな画像を生成することが可能です。

GPT-4とChat GPTの画像認識機能
この放送、リラックスは、1週間でよくネットに流れているAI関連の話題を、AIが自動でピックアップし、
bbzこと私、ババゾノートセコンことタテノがつらつらと話すポッドキャストです。
AXで暮らしにひらめきようをビジョンに、サビス体験や組織づくりを行っている、工夫AIスタジオの提供で行っています。
はい、というわけで、いつもの通りなんですけども、ちょっと今回も機械音声で始めてみました。
ちなみに、今回使ってたのはですね、前回と同じ11 Labというところなんですけど、声のモデルを変えてます。
ということで、私、bbzとセコンさんでやってきますので、よろしくお願いします。
よろしくお願いします。
はい、今週もニュース盛り沢山あるんですけれども、早速喋っていきたいんですけども、
今週はとにかくやばかったなっていうことがですね、個人的に意見を、感想を述べたいなと思ったので、
ちょっと感想コメントを機械に、AIに喋らせますので、ちょっとお待ちください。
ちょっとGPT-4Bが、やばい。
めちゃくちゃなんかこれ、エセ外人みたいな感じの、エセ外人が日本語を喋ったみたいな感じのコンセプト面白いですね。
そうですね、思った以上にいい感じの声になってくれて、ちょっと嬉しいんですが、今から触れるんですけれども、
今週も全てを重なっていったと言っても過言じゃないと個人的には思っているんですけれども、
Chat GPTですね、これが2つの機能を限定的に開放しましたよっていうのがものすごく大きなニュースで、
そのうちの1つですね、Chat GPTに対して今までテキストしか入力できなかったのが、画像を認識するようになりましたと。
ステータスとしては現状、課金をしているユーザーさんに順次開放っていうステータスなので、まだ全員が全員使えるわけではないんですけれども、
とにかくこの機能がすごいというのが今週のトップトピックでございましたね。
GPT-4V VisionっていうGPTで画像に対して投稿するっていうものが今週出たっていうので、
まだ僕自身は使えてなくて、馬場殿さんはもう使っていろいろ楽しんでるんですけど、
やっぱり自分自身、このGPT-4V、画像をGPTで扱えるっていうのが出る前までのイメージだと、
実際に使ってみるまでのイメージだと、こんなもんなのかなっていうふうな、
そこまですごいことができるんじゃないんだろうなって正直、鷹をくくっていたところがあったんですよね。
ただ出てみると、自分の2段上を行くぐらいのクオリティの精度で、何もかもがかなりの部分をできてしまうっていうところで、
めちゃくちゃ驚きのこの機能だったなという感じでしたね。
そうですね。出たとき、僕が結構早めに使えるようになったので、
セコンさんと一緒に見てたんですけど、すごすぎても語彙がなくなって、
やばいやばいしか言えなくなったみたいな。
みんなそのときの一緒にデモしながら見ていたチャット欄は、
大体やばいやばい、すごいやばいみたいなもので詰まっていて、
本当にできることが広がったなっていう感じしますよね、これでまた。
そうですね。今までも画像の説明をしてくれるっていうものはあったんですけど、
例えばリンゴの画像とかだったら、テーブルの上にリンゴが載ってますねとか、
そういう説明をしてくれるっていうところにとどまってたと思うんですけど、
例えばレシートの画像を写真でパシャって撮ってあげて、
そこから書いてる内容を全部拾ってきてよって言ったら表示してくれるとか。
ただ、映像画像のものを判断するだけじゃなくて、
そこに含まれる文字情報とかいうのも含めて、
さらにChatGPTの能力で答えてくれるっていうのがもうすごいですね。
本当に例えば手書きのノートにメモを書いておいて、
そのメモを写真撮って、この内容について何とかしてみたいに聞くと、
それだけで答えてくれるとか、今までだとそれをデジタルにOCRで変換して、
文字列にしてChatGPTに加わせてみたいなものを、
ChatGPTが持つ裏側の広大な言語能力とともに、
その画像を見ながら様々なことを解析してくれるこの強さみたいなところを
目の当たりにすると、めちゃくちゃできること広がっていくなみたいなところを感じましたし、
本当にこの辺の技術の進化って圧倒的に早いなみたいなところがあって、
こういうテキストとビジョンをつなぐマルチモーダルっていうような機能のところで、
クリップとかビリップとか、今までいろんな論文とかから手法っていうのが出ていて、
それらをうまく組み合わせたっていうところはあるんでしょうけど、
それを持ってしても、圧倒的に性能が高くて、めちゃくちゃすごいなって、
本当にすごいっていう声がどんどんなくなっていくようなことで、
ラジオだとあんまり伝えるのが難しかったりするんですけど、
青園さんのブログとかそういうところでもこんなことできるよみたいなのを確か書いていたり、
探すと本当に今回のChat GPT V4でできることっていう事例っていうのがもうリリースされてから、
一部の人しか使えないってまだ3日ぐらいしか経っていないにも関わらず、
山ほど事例は上がってるんで、ぜひとも皆さんそういう事例を見てみたりだとか、
あとは実際にGPT4にお金を払ってる人は、あと2週間以内には提供されるという話なので、
実際に降りてきたらいろんな使い方をしてみて、
ぜひこんなこともAI通すといろんなことできるんだみたいなことをやってもらえたらすごく面白いと思いますね。
Chat GPTの音声会話機能
そうですね。もう本当に聞くより見る方が早いと思うので、
ぜひPodcastとかにリンクとかを貼ったりするので、
こういうことができるんだとかは見てもらえたらいいなってものがまず一つのニュースでしたと。
大きな2つの発表のうちの1つが画像を読み込めるようになったっていうところなんですけど、
もう1つ実は発表があって、同じく使える人はお金を払っている課金ユーザーで、
ユーザーに対して段階的に2週間以内で開放していく機能なんですけど、
Chat GPT と音声会話だけでやりとりが成立するようになったっていうのが、
個人的にめちゃくちゃすごいなっていうところなんですよね。
そうなんですよね。このビジョンっていうところがどうしてもね、
例えばソーシャルネットワークを通してもすぐ見て、
こんなことできるんだってわかるんですけど、
今回だと音声でChat GPT と対話できるっていうところも、
馬場園さんは早速いろいろ使ってみていて、
今は1日中AIと会話をしているという噂を聞いているので。
そうなんですよ。めちゃくちゃよくてですね。
どういうものかっていうと、Chat GPT のスマートフォン向けのアプリがあるんですけど、
そこでチャットモード、会話モードっていうのを選択すると、
Chat GPT が裏ではテキストで出力しているんですけど、
音声でしゃべっていてくれるんですね。
そこに対して自分がちゃんと発音すると、
日本語使えないと思ったんだけど、
ちゃんときれいな日本語で返してくれるんですよね。
何がいいかっていうと、
僕が今やっていることって、
ワイヤレスのヘッドセットをずっとつけていて、
スマートフォンアプリを24時間、
24時間言い過ぎですけど、ずっと立ち上げっぱなしにしていますと。
本とかを読んでいます。これ何だろう、どういう意味だろう、
教えてって口でピッて言ったら、
Chat GPT がそれはこういう意味ですよって教えてくれるんですよね。
すごいですよね。
リアルとの接点が、今までだとどうしても、
AI技術の進化と可能性
例えば本を読んでいて、
専門用語で何か標準偏差みたいな言葉が出てきて、
標準偏差って何だって思ったら、
スマートフォンとかPC立ち上げて標準偏差でとか、
Chat GPT でそれに聞くみたいなひと手間が入ったのが、
本当に音声を通すと、
馬場殿さんが今言った通り、
自分の頭で疑問に思ったらそれを口に出すと、
Chat GPT が答えて、しかも音声で返してくれるみたいな感じなので、
本当に目と手を使っているような状態でも、
自由自在にChat GPT と対話をして、
情報を引き出したりできるっていうのは、
そういう使い方が嬉しいという人にとっては、
めちゃくちゃ自分自身の能力が拡張されたみたいなところが、
得られるのかなと思っていて、
馬場殿さんの使い方を聞いていて、
なるほどなって思うところがありましたね。
たぶん今後、日本語の制度とかもちろん、
いろいろあったりとか、嘘をつかれたりっていうことがあったりするので、
全部が全部そこで完結するかっていうと、
そうじゃないと思うんですけど、
今後のサービス設計とかもそうだし、
大きく世界を変えたなっていうのが、
音声でのChat GPT の会話かなっていうふうに思っておりますね。
そうですね。なので今回大きく開放された、
2つのビジョンっていうところと音声っていうところ、
映像と音声っていうところは、
Dally 3の画像生成技術の進化
本当に至るところで今話題になっていますよね。
そうですね。ニュースとしては、
これ1つ大きな括りで終わるんですけど、
先週もチラッと話したんですけど、
10月から、これもオープンエアの話なんですけど、
Dally 3 っていう画像生成してくれるものが
リリースされますよと。個人的にはこれも
すごい期待していて、なぜ先週も話したのに
今週も話すかというと、今回画像の入力を
受け付けることができるようになったということは、
このDally を使って画像を生成して、
それを読み込ませることでより何かできるんじゃないか
みたいなことを考えているんですよね。
これってまたすごいなって思っていて、逆にその
画像からテキストを出して、
そのテキストからまた画像を作って、
そのループとかもできるなと思っていて、
すごい全般的にやってるんだなって思いましたね、
オープンエアでは。
なるほど。本当に画像もそう、音声もそう、
みたいなところも全部そうですし、
今の話だと本当に画像を出力して、その画像を元にまた
入力してやれる。要するに、チャットGPTが対話した頃、
よくAI同士で会話させたらどうかな、みたいなものが
画像同士での対話、みたいなこともできたりも
するでしょうし、あとは僕自身、
先週よりもこのDally 3のワクワク感の期待値
っていうのが、今回出たDPT4Vのビジョンを扱える
っていうところの性能の高さに驚いたので、
もしその性能の高さが反映されているとすると、
自分自身想像する以上にチャットGPTからの
画像生成の使い方っていうのが変わるというか、
今までなかったんで変わるもないんですけど、
いろんな使い方が生まれていきそうで、
またさらに定性AIでできることっていうのが
すごい広がりそうだなというのは感じていますね。
オープンAIの新デバイス開発の可能性
おだしょー 言うても10月になるんですけど、
すごく楽しみだなっていうところで、
これ2つ目のニュースでしたと。
3つ目じゃあ次何なんだっていうと、
またオープンAIの話なんですけど、
これは噂なのかな、本当なんかちょっとまだ
実際わかんないですけど、
オープンAIのサム・アルトマンさんと、
もともとAppleとかで有名なデザイナーの方ですかね、
ジョナサン・アイブさん、あとソン・マサヨシさんかな、
みたいなところで集まってAIのハードウェアを
開発するのではなかろうかっていう話が
ちょっと大きいところでしたね。
おだしょー そうですね、本当にこれはどちらかというと
業界よもやま話っぽい感じで、
ひょっとしたらこういうこと起きるかもねみたいな話なので、
実際どこまで信憑性があるかっていうのはわからないんですけど、
オープンAIがiPhoneのデザイナーと一緒になって、
そういう新しいデバイス開発されたらめっちゃワクワクするよね、
みたいなところでもあると思うので、
なかなかちょっと話題になってましたね。
おだしょー そうですね、多分出たら絶対に会うなっていう風に、
今の僕は思っているんですけど、すごい期待が
高まるところですね。
ここについては以上ですかね。
今まで話した内容がちょっと強すぎて霞んでしまいがちなんですが、
他にもいろいろ出ていまして、
Amazonですね、有名なECサイトのAmazonが、
アンソロピックっていう会社ですね、
AI系の会社なんですけど、
だいたい5900億円ぐらいかな、
40億ドルを出資して、
生成AIを強化していくぞっていうのがちょっと発表としては
ありましたね。
おだしょー そうですね、他のニュースがでかすぎるっていうのはあるんですけど、
普通に6000億円の出資ってなかなかですからね、
Amazonも本気でここの部分の
生成AI系に取り組んでいくぞっていうところの
現れだと思うので、
これもまたこの先どうなっていくか楽しみですよね。
このお金でどんどん生成AIが加速されるっていうのは間違いないんで。
三沢 そうですね、やっぱり今だと
オープンAI、マイクロソフト、Googleっていうところが
結構目立ちがち、メタとかもそうなんですけど、
がAmazonっていうところで、
新しいのができてくると嬉しいなっていうようなところですね。
新しいというか、アンソロピックのモデルですけども。
あともう一つ、
今度は日本の話題というか、
プリファードネットワークスという会社さんがですね、
かなりレベルの高い
大規模言語モデルを出したというのも
今週話題となってましたね。
おだしょー そうですね、PFAのプリファードネットワークスは
日本の中ではユニコーンの中では
トップレベルっていうので、すごく有名な
いわゆる機械学習、深層学習をずっと昔からやっている企業なんですけど、
そこが出したこの新しいモデル、
その性能もすごくいろんなテクニカルなことをやっていて、
高いというところもあるんですけど、
個人的には名前がプラモっていうね、
名前が日本的でいいなと感じましたね。
こういう大規模言語モデルって
名前の付け方が今まで南米系の名前が多かったんですよね。
ヤマとかアルパカとかクーリンとか、
南米の生き物たちをモチーフにしている
言語モデルの名前がオープンソースだと多かったんですけど、
日本の企業が付ける中で結構その
PFNっぽい感じの名前というか、このプラモっていう名前が
なかなか面白いなと思って、
技術の話というより結構名前付けの話で
なかなかひねりが効いてていいなという風に感じました。
そうですね。技術的にも
発表されているブログとか見ると結構読み方のあるものなので、
気になる方は読んでいただけるといいと思うんですけども、
そんな感じで日本も頑張ってるぞっていうところで
ニュースとしては取り上げられておりますと。
今週は他にもあったんですけども、
大体もう今言ったのが大きなところなので、
今週ニュースはこのぐらいで終わりたいと思います。
また来週もお会いしましょう。
それでは次回の放送お楽しみに。バイバイ。
15:58

コメント

スクロール