何を話すかも決めずに収録開始した時点で、しょーまさんがZoomの新機能の要約機能を走らせてくれた
もう既にそこから話が始まってしまい、今後のAIがどうなっていくか
それについての2人の捉え方みたいな話に…
収録日:10月16日
シュウの個人Podcast:シュウの放すラジオ( https://anchor.fm/sakashushu )
しょーまの個人Podcast:父のたわごと( https://anchor.fm/82933 )
「シュウとショウの未知の理への道のり」への感想・ご質問等はこちらへ
Gmail : shu.sho.michinori@gmail.com
LINE OPENCHAT「シュウの放すラジオ兼シュウとショウの未知の理への道のり」
サマリー
シュウとショウが未知の理を探す番組です。チャットGPTの進化により、自然言語でのプログラミングやマルチモーダルなデータの処理が可能になります。映像のデータを活用してAIの出力を高めるためには、声質やスピードなどのマルチモーダルな情報を統合する必要があります。これによって、AIの返答の正確性と妥当性が向上する可能性があります。
番組の紹介
シュウとショウの未知の理への道のり
この番組は、5時通り、シュウとショウの気が向いた時に、
適当に好きなことを話しながら、
まだ知らないことはあり、つまり、
未知の理を探していく道のりを描く番組です。
下手をしたら、2人のムチっぷりを探すだけの気のままな旅、
ゆるーくお付き合いいただけたら、嬉しいです。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございました。
ご視聴ありがとうございます。
とかっていうののこのレベル次第ではこう 素人さんというか別にそこの
なんか画像処理扱う人からすればもう大してあんまり意味ないかもしれないですけど 自分でやった方が早いぐらいの
とか実際目で見て確認できるし 画像処理がどういうのを指しているのか あんまりまだちょっとわかってないかもしれない
インチキ構成以外は なんかその実際的にニーズがあるかどうかっていうのはあの
チャットGPTの進化
わかんないんですけど置いておいて
例えばそのデータサイズをちっちゃくしたりとか解像度を落としたりとか そういうのとかも例えば言えば
いやそれを実行したデータをダウンロードしてくれる する状態で戻してくれるとか
なるほど あとQRコードとかも作れちゃうんじゃないかなもしかすると へーすごい
そこはわかんないですよ試してないんですけど そこのどういう風なのか僕も詳しく知らないんでQRコードのその
そういうのはフリーのありますもんね あーわかんないあるんですか
QRコードのサービスはフリーであるから簡単に作れませんですけど 簡単そうなイメージはありますね
なんか静止画をアップロードしてGIFにしてほしいとか そういうのとかもなんかできそうかな
まあそういったところも色々試行錯誤の部分はあると思うんですけど
プログラムプログラミング基本的にこうソフトウェアで GUIでマウスで色々いじったりなんだりするのって基本的に裏はプログラムじゃないですか
GUI GUIっていうの
僕らがマウスカーソルとかクリックとかでいじって画像処理をするので 結局裏ではその01の世界でプログラムが動いてるわけじゃないですか
まあ全部がそれってイメージですね僕の中で全部裏裏で 基本的にそういう状態なので
何かしらその データを扱いたい何かデータに対して処理をしたいっていうことは
基本的に理論上は全部でき得るはずですよね ただそのどこまでチャットGPTがそれを
学習しているかっていうところに依存するのと その今裏で実行できる環境がどれだけあるかっていうのにはよりますけど
人間側に今度はあれですね 人間側じゃないのかその頭の中にあるイメージを
チャットGPTにどれだけ 正確に伝えられるかの世界になっていくってことですよね
なんかその自然言語でプログラミングできるような時代になってきて そのプログラミングっていうよりもその直接プログラミングは
GPT側が担うから そこをどれだけ自然言語で
的確に伝えられるかみたいなところですね だからそこがいわゆるプロンプトエンジニアリングと言われる領域になるところだと思うんですけど
なんでそのチャットGPTにどういう指示を出したら
うまく動くかっていうその指示の仕方のその技術を磨くというか
なんかそんなまあそういう ところの需要というのもなんか増えてるみたいですね
プロンプトエンジニアって言われるのかな 海外とかでは結構
毎月場もんかもしれないですけど 結構な年収とかでそういう人材がこう
求められてたりとかっていう 記事とか見たりしましたけど
ちょっと間違えてるかもしれないですけど今のその3.5から4への進化を見てると 3.5ではこういうふうにやらないと理解してくれなかったっていうその
AI側が進化してるから そのプロンプトエンジニアリングもどんどん廃れていきそうな
あの古い情報は 進化をむしろ求められるっていうかそのプロンプトエンジニアは
自然言語プログラミングとマルチモーダルデータの処理
そうですね なんか基本的にそうですねその
思うばかりというか文脈を
文脈に沿った 本来的に理解はしてない
と思うんですけど理解とは何ぞやみたいな話にもちょっとなってくるかもしれないですけど
もうなりますか? だいぶ手前で言ったなと思って
文脈を
どこまでこう鑑みで出力できるかっていうところがその 精度が高くなっていくんでその
プロンプトエンジニアっていうかエンジニアリングっていうのが結局そんなのが別にできなくても誰でもできてきちゃうっていう話ですよね
なんとなくその例えば今は自然言語を読み取って動いてる ちゃっとGPTとかAIが
もう声を認識するようになったり 身振り手振りを勝手に向こうからカメラで見てそれで
言いたいことを捉えてくれるようになったりしそうだなと思ったんですよ今の話の 延長ってずっとさっきは
マルチモータル的に そこらへんのその例えば今の話からすると声とかっていうのは音声入力ができるのであるんですけど
今おっしゃってたのはコア色とかの話ですよね だからそういうコア色とか身振り手振りとかっていうのはそういう
映像とかコア色のデータに対して
どういう状態かみたいなのを 予測する必要があるので
それは理論上はそこの学習それに紐づく学習をすればいいんですけどテキストは簡単なわけですよ
でもそこはテキストは膨大にあってそれをその この次に来るのが何かっていうのであるからいいので
マルチモーダルな情報の統合
だから映像をその同じような構造で
データで学習することができれば意味合い的には あり得るんだと思うんですけど
ただ このコア色だからこのコア色になるとかって一義的に決まんないじゃないですか
その話の文脈にもよるし
でその身振り手振りにしてもだからそれってどういう意味合いかっていうのが やっぱり人間がすごい経験の中でどういう
どういう意図があるとかなんかこうハイコンテクストにこう掴んでる ところがあるからそれをどう
学習させるか みたいなところかなり難しいところだった思うんですけどね
もうズーム社はその膨大なデータを取ってるような気がしてますけどね
うーんズーム社は
勝手に 今こうやって喋ってるのも全部こうデータとして取られてる可能性があるとか思ってる
これ批判した意味じゃないでしょ可能性の話をしたいだけで
なんかそういったところでそのデータを集めてでそれをうまく この場合はやっぱ教師データとして扱うのか
ですけどそこはこう人間がこういう身振り手振りだったら これはこういう状況だよみたいなのをタグ付けして教えるのか
あるいはまあいろんな今後 そこも含めて新しい考え方とかアルゴリズムが出てくるかもしれないんですけど
でもなんかまあなんか想像されているようなことはまあ往々にして あり得るような形にはなってくるんでしょうね
なんかチャットGPT 僕は多分しょうばさんから最初聞いたと思うんですけど
チャットGPTのその仕組みがただ その
こういう変こういう質問が来た時に一番可能性の高い返事をしてるだけみたいな
それでいうとズームで会話をしているのを散々 教師データとしてまあ
テキストに比べたら膨大な量なんでしょうけど動画っていうのは
そこでどこでどういうふうにここは話が通じてるとかいうのって
全然学べるような感覚がありますね
理屈上はなんでそこは人間がその膨大な経験でそういうデータを学んでいってると思うんで
理屈上は全然できるとは思うんですけど
例えばその今の話だったらテキスト全部テキストに落とし込めばその
一緒ですよねじゃあ今までのチャットGPTと
なんかその喋ってるっていうよりも喋りのその文脈を吹く文脈前提でその
喋ってる速度とか声色とかそれを踏まえた時のその 喋りのスピードとか間とか
っていうのがすごく結構滝に渡るじゃないですかだからそこ そこを
どれだけ その
確率だけでこう 出そうと思ったらまあ使う時にどう使うのかなみたいなのがあって
例えばその そのこういう文脈でこういう声色で話しかけた時に
その じゃあその
その文脈に対する回答としてこういう声色でこういうスピードで答えたら 答える可能性が一番高いからっていうなんか
形でこう 出力
するっていう ところが
可能性 出現可能性
だけでそれをした時に何の意味があるかなっていうのがあって 何の意味があるかな難しいな
うん もう文脈だったらそのテキストベースだとその
言葉の意味 受け答えの意味とかそこの
ところしかないからそのこの分の次に 一番可能性の高い奴が何かっていうのを推測してこう出し出してくる
はいっていうだけなら受け答えがこう 大にしてできるだろうなっていう風なで今現にそういう状態にあるんですけど
この 入力の時にそのテキストに伴ってこの声色をこのスピードをこの間
みたいな入力があった時にでまぁそういった喋ってる膨大なデータから じゃあそう喋った時にその次にその
返す応答としてその この声色でこの間でこのスピードでっていうところの
可能性が高いみたいなところは だからその全体
いろんな膨大なデータのその一番 マジョリティ
ですよね可能性が高いというところだから だからそこが
なんかどういうシチュエーションなのかわかんないですけどその
AIの返答の正確性と妥当性の向上
そもそもそこの声色とかスピード間とかっていうかいろんなシチュエーションによる じゃないですか
はい だからその
そこで出力するところに声色とか間とか スピード感みたいなものがこう
一番可能性が高いものみたいなので
入れることに どういう意味があるかなっていうのはちょっと思って
入れることに 入力側がってことですかね 出力側がですね
ちょっとイメージがぶっ飛びすぎてる先までぶっ飛んで想像しすぎてるのかむしろ ちょっとしょうもさんより想像が足りてないのかどっちかまだわかってないんですけど
とりあえずはそのプログラミングをあんまり間違えないという文脈からの話として僕はまだイメージしていって一旦は
でだからそのテキストだけでは間違えてしまうようなものを保管する材料として 声質だったりマーだったり表情だったりミブリテブリっていうのが
あればより正確な返答ができるかなっていうふうに思って今一旦そういうふうに喋ったっていう 感覚なんですよ
一旦は 確かにね
ただその先にはもうなんか何でも 人間が意識を持つかみたいな話とちょっとほぼ近いのかもしれないですけど
人間がじゃねえAIが 人間みたいな意識にまあ人間の意識かはわかんないけど少なくとも応答っていう意味では
例えばその
マーとか文脈とかそのしょうもさんがさっき言われた シチュエーションによるって言ったシチュエーションじゃないって言ったっけ
なんかちょっと表現忘れましたけど その場合によるとかそういうのを
判断つかないときには聞き返してくるぐらい本当に人のコワイロで人のアバターで えっどういう意味とか聞き返してくるAIとか余裕でできてくるだろうなって
いうとこまで発想はいっちゃってるんですけど なるほど面白いな
でもそうかもしれないですね確かにその補完っていう意味はそうですね完全にそのマルチモーダルというか
ごめんなさいマルチモーダルがまたわかった
テキストだけじゃなくて人間が全部読み取ってるじゃないですかコワイロとかマとか 海ぶり手ぶりとかってその情報を統合して
学んでいった先にはそのだから実際そこで 人間に対しての返答として一番妥当性のあるものっていうものが
返せるっていうのはそうだと思いますね そこで
僕はちょっとなんか変な感じがしましたけど コワイロとかスピードとかそういったところでその出力
をさせるというよりもそこを全部統合した形で その返ってくるテキストベースだけでもですね
そこが質が高くなるっていうのはあると思います だからそれを踏まえた全てのデータが統合された状態での
インプットというかそのデータが膨大にあるわけですね インプットした時とその出てくる時がどういう形かっていうのが
あれば そうですね
AI…何の話からAIの話になったんでしたっけ シューとショーの道のりへの道のり始まっておりまーす
これどっから使ってるかなと思って
でも全然面白い
次回へ続く
30:41
コメント
スクロール