1. にゃおのリテラシーを考えるラジオ
  2. #767 【技術】マルチモー..

GoogleからマルチモーダルなAIの発表がありました。

このハンズオンがなかなか刺激的だったのでその話をしてみます。


にゃおの考える現代の基礎的なリテラシーは、ITをきちんと使えることが含まれます。

そのためにどのような問題があり、どう解決していったらよいか考えてみるPodcastです。


「Hans-n with Gemini: interactiong with multimodal AI」

https://youtu.be/UIZAiXYceBI?si=mKBRIJ-pCG0Kb7Ry



LISTEN版にゃおのリテラシーを考えるラジオ

⁠⁠⁠⁠⁠⁠⁠⁠https://listen.style/p/nchiba⁠⁠⁠⁠⁠⁠⁠⁠


配信書き起こし⁠⁠⁠⁠⁠⁠⁠⁠https://note.com/nchiba⁠⁠⁠⁠⁠⁠⁠⁠

twitter @nchiba

YouTube⁠⁠⁠⁠⁠⁠⁠⁠https://www.youtube.com/@nyaos⁠⁠⁠⁠⁠⁠⁠⁠

「読書と編集」の活動は、⁠⁠⁠⁠⁠⁠⁠⁠https://www.nyaos.net/⁠⁠⁠⁠⁠⁠⁠⁠

ストアカの「読書と編集のITリテラシー教室」は、⁠⁠⁠⁠⁠⁠⁠⁠https://www.street-academy.com/steachers/468576?conversion_name=direct_message&tracking_code=62e788e6ff484f6d2952151bb9c955b4 ⁠⁠⁠⁠⁠⁠⁠⁠

をご覧ください。

#読書と編集 #DX #IT #ITリテラシー #リテラシー #AI #UI #UX

サマリー

AIの進化とその限界、そしてマルチモーダルなAIの衝撃について話し、Googleのジェミニについて紹介しています。

AIの進化と限界
水曜日は、ITを中心とした技術的な話をしています。 今話題になっているAI、使ってみていますか?
バリバリ使っているという人もいれば、どう使ったらいいか分からないという人もいるでしょう。
自分には関係がないと思っている人も結構いると思います。
この1年のAIをめぐる変化はとても大きいものですが、まだピンとこないというのも偽らざる気持ちです。
僕自身は、10代の頃からAIに興味を持っていて、たまに出てくるAI的なバズワードに幻滅することを何度か繰り返してきたのですが、
数年前からのディープラーニングによるモノやコトの分類・判別はかなり実用性が高く、やっとAIらしくなってきたなと思うようになってきたところでした。
そして、今年は大規模言語モデルを使って、ついにコンピューターと会話ができるというレベルに達してきた感じがしています。
ただ、実際にチャットAIを使ってみると、そのぎこちなさの方が気になります。
技術の進歩は、
その限界をはっきりさせることでもあるのです。
人の認知の多様性に気づかされることでもあるわけですね。
チャットAIを使ってみた人は感じていると思いますが、
すべてを言葉で表現するのは難しいというか、まあ無理があるのですよね。
流行りのチャットAIは、生成AIと呼ばれています。
Googleのジェミニ
文章や映像を作り出せるところに、一種の知性を感じるものですが、
何かを作り出させるためのプロンプトを適切な言葉で表現しなければならないところが、案外大変なのですよね。
で、次に取り組まれているのが、与えられた映像を解釈できるようにすることでした。
簡単に言うと、写真や動画の中身について話せるようになることです。
文章だけでなく、写真や映像なども読み書きできるようにすることを、マルチモーダル化というのです。
ただ、こうやって言葉で言ってみても、うーんという感じですよね。
それが腑に落ちるものが、先週Googleから発表されました。
ジェミニーというAIです。
どんなことができるかを表現した動画があるのですが、僕はそれを見て結構驚きました。
そして、近いうちにそれが使えるようになるということにワクワクしました。
ジェミニーには、目と耳があるという感じ。
何かを人に説明するとき、文章だけでは難しいと思うときに、簡単な図を書いて見せたりしますよね。
ジェミニーには、そういう図のようなものを解釈する能力があります。
プレゼンなどで、ホワイトボードに図を書きながら話すことがあると思いますが、そういうものをジェミニーはきちんと解釈して会話をすることができます。
その会話をもとに、生成側の機能で何かを作ることができます。
生成側の機能で何かを作り出すこともできます。
Googleのジェミニーハンズオンの動画では、そういうことを実際にやってみているのです。
これは、かなり知性的に感じます。
なぜ知性的に感じるのかというと、実際に人と話しているように感じられるからです。
それもかなり賢い人と。
反面で、これは上手に使うのが結構大変だなぁとも感じました。
その大変さは、人とのコミュニケーションの効果です。
人とのコミュニケーションの効果です。
人とのコミュニケーションの大変さによく似ているのです。
人とのコミュニケーションの大変さによく似ているのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
何かを人に上手に説明できるという、結構難しいスキルを要求されるのです。
ということです。
事務処理のかなりの部分がAIに代替されることは、ある程度予想がつくと思いますが、
例えば、学校の先生の教えるという部分のかなりの部分も、AIに代替されるわけですね。
ということは、人間はもっと高度なことをやる必要があるということですよね。
そして、それに気づいた人から、どんどん先に進んでしまいます。
この変化は急速です
変化を嫌う人には辛い時代になるかもしれません
Googleのジェミニのハンズオン動画へのリンクを概要欄に置いておきます
書き起こしのノートの方にはワンプリックで見ることができるようにしておきますので
ぜひそちらも見てくださいね
ポッドキャストもノートもぜひフォローお願いします
今回はマルチモーダルなAIは衝撃的だった
Googleのジェミニという話をしました
今日はここまで
読書と編集ではITを特別なものではなく
常識的なリテラシーとして広める活動をしています
トワカでITリテラシーの基礎を学べるオンライン講座をやっています
詳しい内容については概要欄のリンクから見に行くことができます
コメントはリッスンで
文字で読みたい方はノートをどうぞ
どちらも概要欄にリンクがありますのでフォローいただけると嬉しいです
今日もワクワクする日でありますように
千葉直樹でした
ではまた
06:22

コメント

スクロール