1. にゃおのリテラシーを考えるラジオ
  2. #1180 【技術】衝撃的!AIと自..
2025-01-29 06:17

#1180 【技術】衝撃的!AIと自然なおしゃべり・アマゾン注文・リアルタイムに実況中継

spotify apple_podcasts youtube
この一週間のうちにAIによってユーザインタフェースが劇的に変わりそうな話題がいくつも出てきて驚いている。
という話。

にゃおの考える現代の基礎的なリテラシーは、ITをきちんと使えることが含まれます。
そのためにどのような問題があり、どう解決していったらよいか考えてみるPodcastです。

J-Moshi
https://nu-dialogue.github.io/j-moshi/

ChatGPT Operatorを使ってアマゾンからポテチを買った - X GOROman
https://x.com/GOROman/status/1883642023581999614

Gemini Multimodal Live APIを使って実況中継 - X 安東竜平|Link AI
https://x.com/airunner_linkai/status/1882652636731826588

YouTube
https://www.youtube.com/@nchiba

LISTEN版にゃおのリテラシーを考えるラジオ
https://listen.style/p/nchiba

配信書き起こし
https://note.com/nchiba

twitter @nchiba
https://twitter.com/nchiba

「読書と編集」の活動は、
https://www.nyaos.net/

ストアカの「読書と編集のITリテラシー教室」は、
https://www.street-academy.com/steachers/468576?conversion_name=direct_message&tracking_code=62e788e6ff484f6d2952151bb9c955b4
をご覧ください。

#読書と編集 #DX #IT #AI #ITリテラシー #リテラシー #podcast #YouTube #Gemini #ChatGPT #J-Moshi
00:06
にゃおのリテラシーを考えるラジオ、読書と編集の千葉直樹です。
このチャンネルでは、読書とIT時代のリテラシーを中心に、好きなものの話をしています。
今回お話しするのは、
衝撃的、AIと自然なおしゃべり、アマゾン注文、リアルタイムに実況中継、というものです。
今回は、ITに関する話をしようと思います。
この1週間ほどの間に、AIに関して興味深い話題がいくつか出てきました。
どれも僕にとってはかなり衝撃的で、もうここまで来ているのかと思いました。
その中から、面白かった話題を3つ紹介しますね。
1つ目は、名古屋大学が開発しているJMOSHというAIモデルです。
自然な会話ができるモデルなのですが、ポイントは聞きながら話せるということです。
当たり前じゃないと思うかもしれませんが、これまでのチャットAIは文字での会話を前提としていたので、
フロントを入力して送信したら、AIから回答が送られて、それがすべて表示されたら次の質問を入力できるという感じでしたよね。
これを音声の会話に置き換えてみると、昔の無線通信みたいな感じになっているわけですね。
こちらが喋ってから、どうぞと言って、相手が喋る、みたいな。
普通の会話は聞きながら合図値を打つこともあるし、話の途中で口を挟んだりもするじゃないですか。
まあ、これはやりすぎるとウザい感じになりますが、自然な会話ではよくあることなんですよね。
JMOSHはそういうことができるようです。
Xに投稿された会話例を聞いてみてください。
よく聞くと不自然さがありますが、それはリアルな人と話しているときに感じることがあるものとあまり変わらないみたいです。
お願いします。
よろしくお願いします。
早速なんですけど、今日はどういった研究をされていらっしゃいますか?
研究ですか。
自分はAIの研究をしていて。
AIですね。
はい、そうなんです。
どういうことをやっていらっしゃるんですか?
音声で話せる会話型AIを作っていて、結構面白いですね。
おしゃべりをするみたいな感じですか?
そうですね。おしゃべりをするAIですね。
なるほど。ご質問とかされてますか?
ユーザーインターフェースがこうなったら、AIを使うのがものすごく自然になりそうですよね。
2つ目はChatGPTのオペレーターです。
簡単に言うとコンピューターの操作ができる機能ですね。
分かりやすい例で言うと、ブラウザを介してウェブページの操作ができます。
誰々さんに今日の日報をメールしておいてって感じで指示をすると、
Gmailのページにアクセスしてメールを作って送ってくれるみたいな感じです。
03:03
ハードもソフトもいじりまくる天才エンジニアのゴローマンさんという方が、
これを使ってAmazonでポテチを注文したと投稿していました。
ちゃんと届いたそうです。
箱買いになっちゃったそうですが。
こういうのができるようになったら、ちまちま画面操作をしているのが面倒になってきちゃいますね。
いろいろ問題起きるでしょうけど、もうこれくらいはできちゃうってことですね。
3つ目、GeminiのマルチモーダルライブAPI。
この名前を聞いただけでは何ができるのかピンとこないかと思います。
たぶん事例を見た方が早いかもしれません。
安藤隆平さんというAIの研究家がささっと作ってみたアプリケーションの事例をXに投稿しています。
何が起きているのかというと、動画の内容をAIが読み取ってリアルタイムで実況しているんですね。
たぶん話す部分は別の機能を使っているのだと思いますが、
こんな風にテキストだけでなく、映像や音声の中身もリアルタイムに参照できるようなAPIがあって、
その使用例のソースコードが公式に公開されているというところが衝撃的なのですね。
これらを使った面白いアプリケーションがどんどん出てきそうです。
いずれはAPIの使用に課金が必要になるでしょうけどね。
いかがでしょう。人間とコミュニケーションするのと同じようにITシステムが使える時代が目の前に来ています。
去年はAIが一般化した年でしたが、
今年はAIによってユーザーインターフェースが劇的に変わる年になりそうです。
そんなシステムが普通になったら便利ですけど、ひょっとしたらあなたが今やっている仕事はなくなっちゃうかもしれません。
困らないためには磨かなければならない能力があります。
自分が動くのではなく、誰かにやらせるための能力です。
そのためには、やるべきことを見極めて、具体的に指示ができなければなりません。
さて、今あなたはそういう働き方をしているでしょうか。
今回のAIの事例をよく見て、これからどうするかぜひ考えてみてくださいね。
このラジオはYouTubeでも配信しています。
音声では表現しきれないものを映像で補う場合があります。
ぜひチャンネル登録をお願いします。
今回は衝撃的、AIと自然なおしゃべり、Amazon注文、リアルタイムに実況中継という話をしました。
今日はここまで。
読書と編集ではITを特別なものではなく、常識的なリテラシーとして広める活動をしています。
ストア化でITリテラシーの基礎を学べるオンライン講座をやっています。
詳しい内容については概要欄のリンクから見に行くことができます。
コメントはYouTubeで、文字で読みたい方はノートをどうぞ。
どちらも概要欄にリンクがありますので、フォローいただけると嬉しいです。
今日もワクワクする日でありますように。千葉直樹でした。
ではまた。
06:17

コメント

スクロール