1. なんでも楽しむ理系3児パパの頭の中ラジオ
  2. 5分_ AIは画像で文書を認識し..
2024-11-06 05:39

5分_ AIは画像で文書を認識しているっぽい 🖼️

AIは画像で文書を認識しているっぽい

・G検定の勉強。ChatGPTさんとRNNとトランスフォーマーについて教えてもらう
・NDIVIAはCPUでなく、GPUで儲かってる。グラフィック
・A4の紙いっぱいの文字列をイメージすると、重要度の濃淡や文字同士の繋がりが見えてるのかなーとAIが認識している世界を視覚化できないかな?

#画像認識 #chatgpt
---
stand.fmでは、この放送にいいね・コメント・レター送信ができます。
https://stand.fm/channels/6431f3839afdfc28ca2998ae
00:04
おはようございます、ずっきーです。 楽しんでたらなんとかなった理系3児パパの頭の中ラジオ、
今日もやっていきたいと思います。 今日お話しする内容は、AIは画像で文章を認識しているっぽいというお話ですね。
何のこっちゃな題名かもしれないですが、 最近AIの勉強ですね、G検定って言って、
Generative AI検定だったかな、AIの勉強をしてて、 いろんなよくわかんない言葉があるんですけど、
RNN、Recurrent Neural Network、 あと大切そうな言葉で、トランスフォーマーですね、
チャットGPTのT、チャットジェネレイティブプリトレーニングトランスフォーマー、
GPTのTがそのトランスフォーマーなんですけど、 そのトランスフォーマーって何なの?っていうね、結構ちゃんとした技術があるんですけど、
そういうのも勉強したり、 あとは、AIって文章を直線で見てるんじゃなくて画像?
2次元の画像で認識してるんだなーって感覚がつかめたのを お話をしていきたいと思います。
何かちょっと面白いなって思っていただければ嬉しいですね。
まず大切な技術で、今のチャットGPTとかAIがどばーって広がったのって、
2017年ぐらいにGoogleがAttention is all we needっていう論文を出して、
それがすごい面白くて、その論文が出る前っていうのは、 AIの文章理解っていうのは過去、昔から今につながって直線的、
過去にこういう文章あったから、次の文章でこういう繋がりがあって、 次にはこういうのが大切になるだろうって過去から未来みたいな直線的にやってたんですけど、
そういうのを、そのAttention is all we needかな? それではもう省いて、今だけに注目するようにした。
5文字ぐらいの文章。
I like… I like…Tとか。
短い。そういう文章あったら重要なのはこことかね。 ここは小さいとかね。
その重要度を10%、60%、30%みたいな風にパーセント分けして、 過去情報、繋がりはなくした。
繋がりは一応あるんですね。 今のその文章の重要度っていうのが、
過去からどういう繋がりがあるかとか、 繋がりはあるんだけど、繋げないで、線で繋げないで、
今だけに注目したっていうのが、 そのAttention is all、Attentionみたいな考え方で、
それをすることによって何が変わったかって、 すごい早くなんですね、計算が。
昔からずっとたどっては大変だけど、 今だけの文章に注目すると、すごく早くなる。
しかもものすごくいっぱい読み込ませられる。 となるとパラメータいっぱい、パラメータも増えて、
03:03
今のGPT-2が200億、GPT-4が2000億、 今GPT-4、GPT-4は超かな?
いろいろそのAttentionを今だけにすることで、 なんかTransformerのパラメータがものすごく大きくなってるみたいですね。
そこに繋がってきたのがNDeviatorですね。
今、GPUはグラフィック、すみません、出てこないです。
CPUってあれはコアプロセスユニットかな? 計算する頭のとこなんですけど、
GPUは画像で処理するんですね。 2次元の画像でバッと処理する。将棋ですね。
将棋のAIもすごく強くなったのは画像認識。 画像でコマの配置とかの相関とか取ったらすごく強くなったってあるんですけど、
文章も将棋と似たような感じで、 直線的に過去からどうなってとか繋げるんじゃなくて、
この今現実の情報ってですね、そういうのを一気に読み込ませて、 どういう相関の場所関係がいいかとか、
そういうのいっぱい読み込ませたら強くなったみたいですね。 なので文章とか過去からの繋がりとかそういうので、
勉強させてたコンピューターのやり方を、 目を持たせたって感じなのかな?
文章があったとしてA4の紙いっぱいの文字列があって、 それをそのまま丸々画像として読み込ませると、
おそらくAIさんは単語の濃淡ですね。 ここは重要、ここは重要じゃないとか、
こことここ繋がりあるなとか、 そんな感じで処理してると思いますね。
これって一回可視化してみたいなーって思いましたね。 例えば本の一冊の本の見開きのページあって、
どういうふうにAIさんって認識するのかなーっていうのを知りたいなーと思ったので、 ちょっと詳しい人に投げてみようかなーなんて思いました。
今日はAIは画像で文章を認識しているっぽいって話ですね。
GPTの技術も過去からの繋がりで理解するってわけじゃなくて、
パッと見た感じ、今のこの情報だけをすごい大切にしてるっていうのが1点目で、 2点目はNDBはCPUじゃなくてGPUで上手いことやってるなーっていう話。
3点目はAIってどういうふうに認識しているのかな? 可視化というかないのかな?みたいなーなんて思いました。
今日はこんなところですね。お聞きいただきどうもありがとうございました。 良い一日を!
05:39

コメント

スクロール