シュウとショウの未知の理への道のり
要約機能を走らせて#1～今後の..

要約機能を走らせて#1～今後のAIの挙動を予想？

2023-11-07 30:41

要約機能を走らせて#1～今後のAIの挙動を予想？

spotify

apple_podcasts

シュウ（坂元修一）

シュウ（坂元修一）

Host

何を話すかも決めずに収録開始した時点で、しょーまさんがZoomの新機能の要約機能を走らせてくれた

もう既にそこから話が始まってしまい、今後のAIがどうなっていくか

それについての2人の捉え方みたいな話に…

収録日：10月16日

#シュウとショウの未知の理への道のり

シュウの個人Podcast：シュウの放すラジオ（ https://anchor.fm/sakashushu ）

しょーまの個人Podcast：父のたわごと（ https://anchor.fm/82933 ）

「シュウとショウの未知の理への道のり」への感想・ご質問等はこちらへ

Gmail : shu.sho.michinori@gmail.com

LINE OPENCHAT「シュウの放すラジオ兼シュウとショウの未知の理への道のり」

https://line.me/ti/g2/VBOnBhMbZAOklkBPoPN03Q

サマリー

シュウとショウが未知の理を探す番組です。チャットGPTの進化により、自然言語でのプログラミングやマルチモーダルなデータの処理が可能になります。映像のデータを活用してAIの出力を高めるためには、声質やスピードなどのマルチモーダルな情報を統合する必要があります。これによって、AIの返答の正確性と妥当性が向上する可能性があります。

番組の紹介

チャットGPTの進化

自然言語プログラミングとマルチモーダルデータの処理

マルチモーダルな情報の統合

AIの返答の正確性と妥当性の向上

番組の紹介

シュウとショウの未知の理への道のり

この番組は、5時通り、シュウとショウの気が向いた時に、

適当に好きなことを話しながら、

まだ知らないことはあり、つまり、

未知の理を探していく道のりを描く番組です。

下手をしたら、2人のムチっぷりを探すだけの気のままな旅、

ゆるーくお付き合いいただけたら、嬉しいです。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございました。

ご視聴ありがとうございます。

とかっていうののこのレベル次第ではこう素人さんというか別にそこの

なんか画像処理扱う人からすればもう大してあんまり意味ないかもしれないですけど自分でやった方が早いぐらいの

とか実際目で見て確認できるし画像処理がどういうのを指しているのかあんまりまだちょっとわかってないかもしれない

インチキ構成以外はなんかその実際的にニーズがあるかどうかっていうのはあの

チャットGPTの進化

わかんないんですけど置いておいて

例えばそのデータサイズをちっちゃくしたりとか解像度を落としたりとかそういうのとかも例えば言えば

いやそれを実行したデータをダウンロードしてくれるする状態で戻してくれるとか

なるほどあとQRコードとかも作れちゃうんじゃないかなもしかするとへーすごい

そこはわかんないですよ試してないんですけどそこのどういう風なのか僕も詳しく知らないんでQRコードのその

そういうのはフリーのありますもんねあーわかんないあるんですか

QRコードのサービスはフリーであるから簡単に作れませんですけど簡単そうなイメージはありますね

なんか静止画をアップロードしてGIFにしてほしいとかそういうのとかもなんかできそうかな

まあそういったところも色々試行錯誤の部分はあると思うんですけど

プログラムプログラミング基本的にこうソフトウェアで GUIでマウスで色々いじったりなんだりするのって基本的に裏はプログラムじゃないですか

GUI GUIっていうの

僕らがマウスカーソルとかクリックとかでいじって画像処理をするので結局裏ではその01の世界でプログラムが動いてるわけじゃないですか

まあ全部がそれってイメージですね僕の中で全部裏裏で基本的にそういう状態なので

何かしらそのデータを扱いたい何かデータに対して処理をしたいっていうことは

基本的に理論上は全部でき得るはずですよねただそのどこまでチャットGPTがそれを

学習しているかっていうところに依存するのとその今裏で実行できる環境がどれだけあるかっていうのにはよりますけど

人間側に今度はあれですね人間側じゃないのかその頭の中にあるイメージを

チャットGPTにどれだけ正確に伝えられるかの世界になっていくってことですよね

なんかその自然言語でプログラミングできるような時代になってきてそのプログラミングっていうよりもその直接プログラミングは

GPT側が担うからそこをどれだけ自然言語で

的確に伝えられるかみたいなところですねだからそこがいわゆるプロンプトエンジニアリングと言われる領域になるところだと思うんですけど

なんでそのチャットGPTにどういう指示を出したら

うまく動くかっていうその指示の仕方のその技術を磨くというか

なんかそんなまあそういうところの需要というのもなんか増えてるみたいですね

プロンプトエンジニアって言われるのかな海外とかでは結構

毎月場もんかもしれないですけど結構な年収とかでそういう人材がこう

求められてたりとかっていう記事とか見たりしましたけど

ちょっと間違えてるかもしれないですけど今のその3.5から4への進化を見てると 3.5ではこういうふうにやらないと理解してくれなかったっていうその

AI側が進化してるからそのプロンプトエンジニアリングもどんどん廃れていきそうな

あの古い情報は進化をむしろ求められるっていうかそのプロンプトエンジニアは

自然言語プログラミングとマルチモーダルデータの処理

そうですねなんか基本的にそうですねその

思うばかりというか文脈を

文脈に沿った本来的に理解はしてない

と思うんですけど理解とは何ぞやみたいな話にもちょっとなってくるかもしれないですけど

もうなりますか? だいぶ手前で言ったなと思って

文脈を

どこまでこう鑑みで出力できるかっていうところがその精度が高くなっていくんでその

プロンプトエンジニアっていうかエンジニアリングっていうのが結局そんなのが別にできなくても誰でもできてきちゃうっていう話ですよね

なんとなくその例えば今は自然言語を読み取って動いてるちゃっとGPTとかAIが

もう声を認識するようになったり身振り手振りを勝手に向こうからカメラで見てそれで

言いたいことを捉えてくれるようになったりしそうだなと思ったんですよ今の話の延長ってずっとさっきは

マルチモータル的にそこらへんのその例えば今の話からすると声とかっていうのは音声入力ができるのであるんですけど

今おっしゃってたのはコア色とかの話ですよねだからそういうコア色とか身振り手振りとかっていうのはそういう

映像とかコア色のデータに対して

どういう状態かみたいなのを予測する必要があるので

それは理論上はそこの学習それに紐づく学習をすればいいんですけどテキストは簡単なわけですよ

でもそこはテキストは膨大にあってそれをそのこの次に来るのが何かっていうのであるからいいので

マルチモーダルな情報の統合

だから映像をその同じような構造で

データで学習することができれば意味合い的にはあり得るんだと思うんですけど

ただこのコア色だからこのコア色になるとかって一義的に決まんないじゃないですか

その話の文脈にもよるし

でその身振り手振りにしてもだからそれってどういう意味合いかっていうのがやっぱり人間がすごい経験の中でどういう

どういう意図があるとかなんかこうハイコンテクストにこう掴んでるところがあるからそれをどう

学習させるかみたいなところかなり難しいところだった思うんですけどね

もうズーム社はその膨大なデータを取ってるような気がしてますけどね

うーんズーム社は

勝手に今こうやって喋ってるのも全部こうデータとして取られてる可能性があるとか思ってる

これ批判した意味じゃないでしょ可能性の話をしたいだけで

なんかそういったところでそのデータを集めてでそれをうまくこの場合はやっぱ教師データとして扱うのか

ですけどそこはこう人間がこういう身振り手振りだったらこれはこういう状況だよみたいなのをタグ付けして教えるのか

あるいはまあいろんな今後そこも含めて新しい考え方とかアルゴリズムが出てくるかもしれないんですけど

でもなんかまあなんか想像されているようなことはまあ往々にしてあり得るような形にはなってくるんでしょうね

なんかチャットGPT 僕は多分しょうばさんから最初聞いたと思うんですけど

チャットGPTのその仕組みがただその

こういう変こういう質問が来た時に一番可能性の高い返事をしてるだけみたいな

それでいうとズームで会話をしているのを散々教師データとしてまあ

テキストに比べたら膨大な量なんでしょうけど動画っていうのは

そこでどこでどういうふうにここは話が通じてるとかいうのって

全然学べるような感覚がありますね

理屈上はなんでそこは人間がその膨大な経験でそういうデータを学んでいってると思うんで

理屈上は全然できるとは思うんですけど

例えばその今の話だったらテキスト全部テキストに落とし込めばその

一緒ですよねじゃあ今までのチャットGPTと

なんかその喋ってるっていうよりも喋りのその文脈を吹く文脈前提でその

喋ってる速度とか声色とかそれを踏まえた時のその喋りのスピードとか間とか

っていうのがすごく結構滝に渡るじゃないですかだからそこそこを

どれだけその

確率だけでこう出そうと思ったらまあ使う時にどう使うのかなみたいなのがあって

例えばそのそのこういう文脈でこういう声色で話しかけた時に

そのじゃあその

その文脈に対する回答としてこういう声色でこういうスピードで答えたら答える可能性が一番高いからっていうなんか

形でこう出力

するっていうところが

可能性出現可能性

だけでそれをした時に何の意味があるかなっていうのがあって何の意味があるかな難しいな

うんもう文脈だったらそのテキストベースだとその

言葉の意味受け答えの意味とかそこの

ところしかないからそのこの分の次に一番可能性の高い奴が何かっていうのを推測してこう出し出してくる

はいっていうだけなら受け答えがこう大にしてできるだろうなっていう風なで今現にそういう状態にあるんですけど

この入力の時にそのテキストに伴ってこの声色をこのスピードをこの間

みたいな入力があった時にでまぁそういった喋ってる膨大なデータからじゃあそう喋った時にその次にその

返す応答としてそのこの声色でこの間でこのスピードでっていうところの

可能性が高いみたいなところはだからその全体

いろんな膨大なデータのその一番マジョリティ

ですよね可能性が高いというところだからだからそこが

なんかどういうシチュエーションなのかわかんないですけどその

AIの返答の正確性と妥当性の向上

そもそもそこの声色とかスピード間とかっていうかいろんなシチュエーションによるじゃないですか

はいだからその

そこで出力するところに声色とか間とかスピード感みたいなものがこう

一番可能性が高いものみたいなので

入れることにどういう意味があるかなっていうのはちょっと思って

入れることに入力側がってことですかね出力側がですね

ちょっとイメージがぶっ飛びすぎてる先までぶっ飛んで想像しすぎてるのかむしろちょっとしょうもさんより想像が足りてないのかどっちかまだわかってないんですけど

とりあえずはそのプログラミングをあんまり間違えないという文脈からの話として僕はまだイメージしていって一旦は

でだからそのテキストだけでは間違えてしまうようなものを保管する材料として声質だったりマーだったり表情だったりミブリテブリっていうのが

あればより正確な返答ができるかなっていうふうに思って今一旦そういうふうに喋ったっていう感覚なんですよ

一旦は確かにね

ただその先にはもうなんか何でも人間が意識を持つかみたいな話とちょっとほぼ近いのかもしれないですけど

人間がじゃねえAIが人間みたいな意識にまあ人間の意識かはわかんないけど少なくとも応答っていう意味では

例えばその

マーとか文脈とかそのしょうもさんがさっき言われたシチュエーションによるって言ったシチュエーションじゃないって言ったっけ

なんかちょっと表現忘れましたけどその場合によるとかそういうのを

判断つかないときには聞き返してくるぐらい本当に人のコワイロで人のアバターでえっどういう意味とか聞き返してくるAIとか余裕でできてくるだろうなって

いうとこまで発想はいっちゃってるんですけどなるほど面白いな

でもそうかもしれないですね確かにその補完っていう意味はそうですね完全にそのマルチモーダルというか

ごめんなさいマルチモーダルがまたわかった

テキストだけじゃなくて人間が全部読み取ってるじゃないですかコワイロとかマとか海ぶり手ぶりとかってその情報を統合して

学んでいった先にはそのだから実際そこで人間に対しての返答として一番妥当性のあるものっていうものが

返せるっていうのはそうだと思いますねそこで

僕はちょっとなんか変な感じがしましたけどコワイロとかスピードとかそういったところでその出力

をさせるというよりもそこを全部統合した形でその返ってくるテキストベースだけでもですね

そこが質が高くなるっていうのはあると思いますだからそれを踏まえた全てのデータが統合された状態での

インプットというかそのデータが膨大にあるわけですねインプットした時とその出てくる時がどういう形かっていうのが

あればそうですね

AI…何の話からAIの話になったんでしたっけシューとショーの道のりへの道のり始まっておりまーす

これどっから使ってるかなと思って

でも全然面白い

次回へ続く

30:41

ギフトを贈る

ギフトを贈ると、手数料を除いた金額が相手に送られます。ギフトで配信者を応援しましょう。

気持ち

Mini Heart

ミニハート

200円

Pink Heart

ピンクのハート

200円

Red Heart

赤いハート

200円

Party Popper

くす玉

1000円

花

Flower

花

300円

Sunflower

ひまわり

300円

Rose

バラ

300円

Tulip

チューリップ

300円

Bouquet of Tulips

チューリップの束

5000円

Bouquet of Roses

バラの束

10000円

飲み物

Beer

ビール

500円

Orange Juice

オレンジジュース

500円

Cream Soda

クリームソーダ

500円

Cheers with Beer

ビールで乾杯

1000円

Sake

日本酒

1000円

Wine

ワイン

1000円

Cheers with Wine

ワインで乾杯

2000円

Cheers with Champagne

シャンパンで乾杯

3000円

食品

Candy 1

キャンディー1

50円

Candy 2

キャンディー2

50円

Macaron 1

マカロン1

300円

Macaron 2

マカロン2

300円

Macaron 3

マカロン3

300円

Macaron 4

マカロン4

300円

Cake

ケーキ

500円

Mentaiko

明太子

500円

Soft Cream 1

ソフトクリーム1

500円

Soft Cream 2

ソフトクリーム2

500円

Sushi Ikura

いくら寿司

500円

Sushi Maguro

まぐろ寿司

500円

Sushi Otoro

大トロ寿司

500円

Sushi Salmon

サーモン寿司

500円

Sushi Uni

うに寿司

500円

Tamagoyaki

卵焼き

500円

Gyoza

餃子

600円

Takoyaki

たこ焼き

600円

Ramen

ラーメン

1000円

Steak

ステーキ

2000円

Whole Cake

ホールケーキ

3500円

顔

Smiling Face

笑顔

100円

Questioning Face

はてな顔

100円

Sad Face

悲しい顔

100円

Troubled Face

困った顔

100円

Grinning Face

にこにこ顔

100円

Surprised Face

驚いた顔

100円

Angry Face

怒った顔

100円

Overwhelmed Face

おわた顔

100円

Laughing Face

ウケる顔

100円

動物

Hedgehog

ハリネズミ

900円

Chick

ひよこ

900円

Dog

犬

900円

Otter

カワウソ

900円

Cat

猫

900円

Rabbit

うさぎ

900円

Frog

カエル

900円

Dog Smile 1

笑顔の犬1

1000円

Dog Smile 2

笑顔の犬2

1000円

Cat Smile 1

笑顔の猫1

1000円

Cat Smile 2

笑顔の猫2

1000円

コメント

こちらもおすすめ

AIに仕事を奪われる？仕事の意味を深く自分の頭で考えること

シュウとショウの未知の理への道のり

002 AI/Chat GPTの可能性

Engineerforce Podcast

178:頭が良いとはなんぞや？AIの知能と感情が面倒くさい話

Base Side Farmポッドキャスト

AIは上手く使う、ではなく、とにかく使う。が大事。

あるやうむ「NFTからはじまる地方創生ラジオ」チャンネル

#141 着地の見えない光る戦士

Image Cast - 技術・デザイン・制作・表現の雑談

#14-2 人間るは恥だが役に立つ？ AIに仕事を奪われる我々の未来予想図

白米FM (仮) ~ より良く生きるために自分の認知をハックする