2025-03-10 47:51

#36-1 超生命体トランスフォーマー!生成AIと機械学習について考える

spotify apple_podcasts youtube

生成AIについて考える(その1)です。サイバトロン vs デストロン vs パーセプトロン vs ネオコグニトロン


【今回の内容】

香港再訪/親子3世代/香港ディズニーランド/アナと雪の女王/キャストの熱意/広州サファリ/食は広州にあり/めっちゃ疲れた/ChatGPT使えない/生成AIについて考える/構造を理解したい/大規模言語モデル(LLM)と拡散モデル/4つの学習方法/教師ありなし学習/強化学習は試行錯誤/ディープラーニングだけ特別/ニューラルネットワークの仕組み/ChatGPT vs DeepSeek/Generative Pre-trained Transformer/ファインチューニング/Reinforcement Learning from Human Feedback/学習の3段階


◆ゼロからわかるITほんき入門+マンガ 生成AIのなかみ

https://amzn.asia/d/2BfKKzC


◆生成AIのしくみ 〈流れ〉が画像・音声・動画をつくる

https://amzn.asia/d/ff5paiQ


【パーソナリティ】

とよだ:日本のIT企業で働くビジネス哲学芸人。

ショーン:シリコンバレーのテック企業で働くデータの魔術師。


【番組へのお便りはコチラへどうぞ!】

https://forms.gle/zGGArQTnfGuKY6Pj9


※このラジオは、個人の見解に基づくものであり、所属組織を代表するものではございません。


#白米FM #哲学 #生成AI #機械学習 #香港

サマリー

香港ディズニーランドを訪れた体験を語る中で、東京ディズニーランドとの雰囲気やアトラクションの数の違いを考察しています。さらに、広州の美味しい料理と香港のホテルや食事の違いにも触れています。このエピソードでは、生成AIの技術と機械学習について詳しく解説しています。特に、言語処理に関するLLMと画像生成のための拡散モデルなど、生成AIの2つの主要なカテゴリーについて考察しています。また、機械学習における教師あり学習、教師なし学習、強化学習の違いを探求し、ディープラーニングの基礎としてのニューラルネットワークについても論じています。さらに、最新のTransformer技術やChatGPTの構造と運用方法についても触れています。このエピソードでは、生成AIにおけるTransformer技術とその学習メカニズム、特に教師なし学習、教師あり学習、そしてヒューマンフィードバックによる強化学習について詳しく議論されています。AIの開発過程を理解することで、より豊かなアウトプットを得るための調整手法の重要性が示されています。

香港ディズニーランドの訪問
そう、じゃあ3週間経ったけど、どうだった?なんか、旅行に行ってくるって話だったと思うけど。
そうですね、先週まで香港にまた行ってきまして。
おー、いいね、香港。
なんかまあ1年ぐらい前にも香港行ったっていう話をこの…
うん、行ってたね。すごい狭かったとかいう話をしてくれた気がするんだけど。
そうだね、その時は香港行って、その後、珠海のなんか水族館みたいな、デーマパークに行ったみたいな話をして、
で、今回また香港行ってきて、前回行ったのは奥さんと2人で行ったんだけど、
今回は子どもも連れて行ったのと、あと僕の両親も一緒に行って、親子3世代で参ってきたみたいな感じ。
で、ございまして。
どうだった?
一番のメインがね、香港ディズニーランドに行くっていうのが。
おー、なるほどね。
一番のミッションだったんですよ。
うん。
だいたい毎年この冬の時期にディズニーランド、東京ディズニーランドになんか行くっていうのが恒例行事になってまして。
うーん、なるほどね。
で、今年は香港に行ってみようかみたいな話になって、行ったっていう感じで。
うーん。
なんかうちの母親はね、結構ディズニーランド好きで。
うん。
あ、そうなんだ。
僕が小さい頃も物心つく前からなんか結構連れて行ってて。
あ、そうなんだ。
うん。
そんなにでも家にディズニーのグッズとかって置いてあったっけ?
うん。
結構でも好きだね。なんか小さい頃からなんかディズニーアニメのビデオとかを大量に見せられていた記憶がある。
英才教育。
で、もう僕の子供、つまりうちの両親からすると孫になるんだけど。
うんうん。
と、ディズニーランドに行くっていうのが結構楽しみにしてるイベントらしくてですね。
うんうん。
で、香港ディズニー行こうという話になって、香港ディズニーに行くというのがメインでしたから。
そういう背景だったね。
うん。
東京以外のディズニーランドって今回初めて行ったんだけど。
あ、そうなんだ。
うんうんうん。
なんだろうな、まあ良かったというか。
うん。
あの雰囲気はまあ東京と似たような感じ。
うんうんうん。
なんだけど、東京ディズニーランドより一回りか二回りぐらいちょっと小さい感じの。
あ、小さいんだ。
うん、こじんまりとした感じだったね。
うんうんうんうん。
でもあの。
小さいっていうのは、あのアトラクションの数も少ないしスペースも少ないのか、アトラクションは数は一緒なんだけど。
うん。
なんか間のスペースがもう詰まってるみたいな感じなのかな。
なんかね多分全体的に縮小した感じでサイズも多分敷地も狭いというか。
うん。
狭くって、でアトラクションの数もね多分そんなに多くはないんじゃないかなと思うね。
うん。
東京と比べて。
うん。
まあでも一日あればあのまあ回れるぐらいのちょうどいいサイズっていうか。
うんうんうんうん。
感じで良くて。
で東京とかだとさ、そのアトラクションに並ぶだけで100分待ちとか。
うんうん。
1時間以上とかなんかそういうのが残るんだけど。
うん。
香港はねなんか10分とか20分とか。
えっ短い。
うん。
そんくらいのやつばっかりでなんかちょうどいい混み具合というか。
あそうなんだ。
うん。
アトラクションもいっぱい乗れてねすごい満足度高かった東京より。
あいいね10分20分ぐらいはちょうどいい。
香港結構いいなと思っておすすめだなと思ったね。
香港ディズニーなんだ。
うん。
人がいないだけでこんなに快適なんだっていう感じがした。
広州の旅行体験
何乗ったの?
乗ったのはねあのまず最初にあれだよねアナと雪の女王のさエリアみたいのが新しくできていて。
うんうんうん。
で日本にもできたんだよね確かちょっと前の。
あそうなんだ。
日本のディズニーにも。
でその日本のディズニーできるちょっと前に香港の方で先にできてて。
うんうんうん。
で前回その香港に行った時にちょうどそのアナと雪の女王のエリアができたばっかりの時期で。
うんうんうん。
なんか香港駅とかでなんかすごい宣伝してたんだよね。
うんうんうん。
で今回満を持してそのエリアに行って。
うん。
で多分東京のディズニーとかだとすごい待たされるんだと思うんだけど。
そうだね新しいやつはね。
今回もやっぱ15分ぐらいかな。
でまあ乗れて。
うんうんうん。
でよかったすごい楽しく乗れたね。
えそれってどんなアトラクション?
ジェットコースター?
ジェットコースターじゃないけどなんか船みたいなやつに。
うん。
なんかみんなで乗ってそれでその先に進んでなんかいろいろお話を追体験するみたいな。
うんうんうん。
そういう系。
うんうんうん。
だったね。
まあでもそのくらいかな。
ディズニーランド。
なんかスタッフの違いとかさ雰囲気がかもし出すものとか。
なんか僕がアメリカと日本の違いみたいなのを話したと思うけどさ。
そんな感じでなんか違いは他になかったのか。
やっぱねあのクオリティはディズニークオリティでまあなんだ綺麗でいい感じの雰囲気なんだけど。
やっぱあのスタッフの人のその笑顔とか雰囲気はやっぱ違う。
うん。
違ってやっぱ東京がやっぱ異常というか。
うん。
あんなに愛想よくはなくて。
うん。
まあ普通にあのまあ労働者みたいな。
働いてますよみたいな雰囲気。
みんなねやってるから。
まあやっぱこれが普通なんだろうなって思ったね。
そうだよね。
東京ディズニーランドのあの没入感というか徹底具合っていうかね。
隅々まで教育というかトレーニングが行き渡ってて。
ね。
スタッフもねみんなその気になんか。
すごいよね。
すごいやる気に満ち溢れてるというかさ。
うん。
そう。でもなんかねそれがすごいやっぱ雰囲気をいい雰囲気にやっぱしてるんだなと思ったね東京。
うん。すごいよね。
あとなんかね食べ物とかあのよくパークの中でもの食べ物とか売ってるじゃないポップコーンとか。
うんうん。
東京ディズニーとかだとさいろんなところにいろんな味のポップコーンとかがあの確か売ってた気がするんだけど。
うん。
香港の方はねあのキャラメル味。
うん。
のポップコーンしかなくて味が一つしかなくて全部の場所で同じ味のポップコーン売ってたりとか。
うん。
なんか売ってるものもねあんまりバリエーションが少ないというか。
うんうんうんうん。
うん。
お土産屋さんとかはあのまあよくあるいろんなものが売ってるんだけど。
うん。
なんかね細かいところがやっぱ東京は違うんだなと。
うーんなるほどね。
思ったね。
なんか日本、英語はやっぱ喋れないと楽しめなそうな感じよね。
いや全然そんなことないよ。
言葉は全く喋らなかった気がするけどね。
注文するときくらいかな食べ物を。
うんうんうん。
でもそれもあの番号が振ってあるから。
あそっかそっか。
じゃあ数字さえ言えば。
とか言えば。
うーん。
全然。
じゃあ別にお父さんお母さんも普通に楽しめるというか。
そうだね。
そうそうそうそう。
別に全然困った風はなくて。
うんうんうんうん。
うん。
来てる層はどうなの?どんな人が来てるの?
ファミリーなのかね。
うんうんうん。
飛行機乗ってる、香港に行く飛行機にもその香港ディズニー行くであろう日本人の家族とか。
うんうん。
結構周りにいて。
うんうん。
あ、みんな行くんだと思って。
見当たるとやっぱり香港にいる人たちの比率でそのままって感じ?その中華系の人が基本メイン。
もう中国人も香港人も日本人も見分けつかないというか。
しゃべらないと本当に。
アジア人。
うん。違いが分かんないんだよね。
だから全然海外にいるっていうことなんか忘れてるような感じだったかもしんないね。
面白いね。
そうね。
あんまり海外...東京ディズニーランドにいるみたいな雰囲気だったような気もするな。
あんまり海外にいるっていう感じはしなかった。
今の時期って香港はどんな感じ?過ごしやすいの?
気候的にはね、そんなに寒くないよね。日本とかと比べると全然寒くなくて。
うんうん。
18度とか19度ぐらいかな。
おーいいね。
うん。だからちょっと上着というかちょっと羽織るものがあればいいかなぐらいな感じで過ごしやすい。気候的には過ごしやすい。
こんな感じかな。
あとそうだ、その後ディズニーに行って、香港のいろんな有名な観光地とかを回って、その後また中国本土に行ったんだよね。
で、今度は広州、広い州と書く広州の方に行って。
で、前珠海に香港から行ったって言ったけど、その時あの水族館か、水族館みたいなテーマパーク行ったところの同じ系列のサファリパークみたいなテーマパークがまたあって、そこに行ってきてですね、広州の方で。
それはそれでまた面白くて。
ジープか何かで回るみたいな感じのサファリパークって。
普通の日本の動物園みたいに歩いて動物を見るようなエリアと、乗り物に乗って動物の近くまで行けるようなエリアがあって、両方とも乗って行った感じかな。
なんか香港ってすごい狭いみたいなこと言ってたから、そういうのがある、ディズニーランドとかサファリパークがあるっていうのがなんかちょっと想像しづらいけど、普通にまあ広い土地はあるんでね、それをやる。
ディズニーランドは中心地からだいぶ離れてて、空港の近く。
で、もう郊外っていうかもう本当に外れというか、都市からはちょっと離れたエリアにあって。
で、広州は香港の外にあるので、まあ土地はだいぶあるんだよね。
で、広州はやっぱすごいホテルとかも香港の3倍ぐらい広くて。
香港と広州の違い
全然違うけど。
泊まったのは広州の方?
香港にも泊まったし、広州にも泊まったんだけど、やっぱ香港の方のホテルはやっぱ高いし、狭いし、なんか古いし、飯もそんなうまくないし。
え、そうなの?香港美味しくないの?ご飯。
あんまり美味しくないよ、そんなに言うほど。
あ、そうなんだ。
で、広州はね、逆にね、うまいのよ、めっちゃ。
あ、そうなんだ。
なんでこんなに近いのになんか違うんだろうっていうのがね、面白いんだけど。
広州は本当にご飯美味しいのよ、なぜか知らないが。
似ているタイプなの?そのご飯の系統としては。
広東料理だから系統としては一緒だと思うんだけど、香港の真っすぐ隣にある深圳も別にそんな美味しいわけではなくて。
この前行った珠海もね、別に普通というか、そこまでじゃないんだけど、
広州だけちょっとなんか特異点なんだよね、あそこだけ。
そんなに街単位で違うんだ。
前、10年ぐらい前に広州行ったことあるんだけど、その時も全然飯がうまいっていうことだけやけに覚えてたね。
だから中国で暮らすんだったら広州が僕は一番なんか住みやすそうだなって思うね。
どんな料理?広州の料理って。
えーなんだろう。
なんかあの四川料理はこう、なんだっけ辛いんだっけ酸っぱいんだっけなんかとかあるじゃん。
こう系統が揚げ物が多いとかさ。
生成AIと機械学習の基礎
あとは酸っぱい辛いとかなんかそういう全体的な傾向としてはどうなんだろう。
広東料理は多分ね、甘い系じゃないかな。甘い系というかそんなにもう辛いやつじゃなくて甘辛系というか。
甘辛系。
うん。じゃないかなと思うね。有名な料理言うとあの飲茶。
うんうんうん。
飲茶とかは広東料理かな。
あ、そうなの?じゃああのいっぱい竹籠みたいなやつを頼んでみたいな。
うん。シュウマイとか。
うんうん。
ワンタンとか。
うん。
肉まんとか。
うんうんうん。
そういう系かな。
あ、そうなんだ。知らなかった広東料理の系だって。
なんかあの前の旅行の時なんかチケットなくしたりとかさ、こういろいろチャレンジがあったじゃん。
うん。
今回はそういうのはなかったの?
そうね、そういうトラブルみたいなのは明確なのはなかったけど、めっちゃ疲れたね。
生成AIのメカニズム
子供も守りつつ、自分の両親もそんなに海外に行ったことがあるわけじゃないから、そっちにも気を使いつつ。
うんうん。
だから自分がその全体をリードしないと、どこにまず行くのかも決まらず。
そうだね。
Googleマップを見ながら、こっち行くんだみたいなのをこう扇動しつつ、全体をこうケアしつつみたいな。
結構大変。
そっかそっか。
まああれだよね、とよだくんのご両親だからとよだくん側ってことだよね。
あ、そうそうそうそう。
義理の家族じゃなくて、義理の両親じゃないから。
実の両親ね。
まあでもいい経験というか、だからこの僕が海外でどういうふうに動いてるのかみたいなの、たぶん僕の両親を初めて見たんだと思うんだけど、結構頼もしく見えたんじゃないかなと。
おーなるほどね。英語喋って、いろいろやりとりして、手配してみたいな。
まあね。そういう姿を見せられたのは良かったのではないかなと。
で、なんかね意外だったのがね、香港でね、ChatGPT使えなかったんだよね。
あ、そうなんだ。
うん。なんか中国本土では使えないだろうなと思ってたんだけど、香港でも使えなくて。
そうなんだ。
あ、そうなんだと思って。
あれかな、もうでもネットワークは中国ネットワークになっちゃってるのかな、香港も。
いやいや、香港はね、違うんだよ。あのー、遮断されてなくて、Googleも使えるし、Twitterとかも使えるし、LINEとかも使えるから、使えるだろうなと思って行ったんだけど。
えーそうなんだ。
なんかね、調べた話によると、なんかAIがさ、中国共産党に不利な、不都合な発言とかしちゃうと政治的にいろいろめんどくさいことになるから、
OpenAIが自主的になんか提供してないっぽくて、遮断されてるわけじゃないんだけど。
なるほど。DeepSeekとかはね、当然使える?
それは全然使えるんだろうね。
うん。
でもやっぱその普通に旅行してる感じだとそんなに、なに、生成AIの影響みたいのはやっぱそんなにわかんないよね。
表面的に見るだけだとね。
うんうんうん。
っていう感じかな。
うんうんうん。
はい、じゃあ本題行きますか。
はい、行きますか。今日のテーマは?
今日のテーマは、えー、生成AIについて考えると。
はい、生成AIについて。どう?読んだ?
読んだよ。
僕が言った本は。2つとも?
うん、しおくんが紹介してくれた漫画のやつと、岡野原さんのやつを2つ読みましたと。
で、漫画のやつはね、最初こうバカにしたというか、こんなのこんなのみたいな感じを持ちたけど、
意外と最初に読むには整理されるというか、自分の頭の中がこういうキーワードがあるんだねっていうことを、
最初の入門としては結構いい本だったような気がしていて、それは良かったなと。
良かった良かった。
思った。
意外とバカにできないなと思ってたんだよ。
しっかり書いてるじゃんって思って。
うん。で、今回それに書いてあった色んなキーワードをですね、僕が色々メモってるので、
その辺りで通うできたらいいなというのもあるし、
もう1個の岡野原さんの画像とか音声とかの生成AIの仕組みを説明する本は、
なんかね、最初の方はすごい平易な感じで書いていたんだが、途中からなんか急に難しい感じになって。
思った。
なんかね、途中からよくわかんなくなってね。
うんうんうん。
ちょっと最後まで読みきれなくて。
うんうん。
でも結局は言ってることは、その画像とかにノイズを加えて、一旦画像をぼやかして、
そのぼやかしたのを逆再生することによって、画像を生成しているんだっていうことは理解した。
うんうんうんうん。
けどその彼が言ってる流れっていうのがね、ちょっとあんまりピンとこなかったなっていうのが、あの本の感想かな。
うん。なるほどなるほど。
って感じですね。読んだ本は。
うんうんうん。
なんかそもそもでも前回話したときに、説明できるようになりたいみたいな感じで説明、うん言ってたと思うんだよね。
この人に説明できない、なんかこれがもっと理解したいみたいな感じで言ってたと思うんだけど。
うんうんうん。
これはなんかどういう時にさ、説明したいなとか思うんだろうねっていうのが。
なんかねそれを説明、そのまま説明したいというよりは、これが一体どういう構造でどういう仕組みなのかっていうことがわかると、
別のものと例えば類似点を見つけたりとか、
うん。
例え話に使ったりとか、
うん。
同じ構造のものを別の、別のもので同じ構造だっていうことを見つけられるとかその、
パターンを見つけるとか共通点を見つけるとかっていうことをやると、
うん。
より世界が理解できる感じがするので、
うんうんうんうん。
それをやりたいっていう感じかな。
なるほどね。
うん。
機械学習の手法
今は中身がわからなすぎて、その共通項を見つけることができない感じがしたから、
そうだね。
ってことね。
そうだね、うん。
なるほど。
今でもだいぶ最近いろいろ勉強をして、
なんとなく世界観はわかってきたような気がするけどね。
なるほどね。
うん。
どんなパターンが生成AIの中にあるの?
いったんね、僕がまず理解したのは今回、
うん。
言葉を扱う生成AIと画像とかを扱ってる生成AIは違うもんなんだっていうことを初めて理解したんですよ。
うんうんうんうん。
で、言語とかChatGPTとか言葉を操ってるのはLLMと呼ばれるラージランゲージモデルですよね。
うんうんうん。
で、あれはGoogleのTransformerベースで、
単語の次にどういう言葉が来るのかっていうのを確率を統計的に予測をして、
言葉を生成しているんだ。
まず一つ目にそれがあるんだっていうことと、
あとさっきの画像の岡野原さんの本とかで説明していた画像とかは、
拡散モデル?
うん。
Diffusion、Stable Diffusionとかの。
Diffusionモデル。
うんうんうん。
で、さっき言ったノイズを加えて、
もともとあるデータにノイズを加えてなんかぼやかしたことをぼやかして、
そのぼやかしを逆再生することによって、
画を生成するんだっていう。
大きく二つあるんだっていうことを理解した、まず。
うん。
それは合ってますかね、意識としては。
合ってると思います。
そこがね、僕の中での生成AIってもう一つのカテゴリーになっていたのが、
まあ大きく二つ分かれるんだってことがまあ一つの学びですね。
うん。
で、あとね、俺よく分かんなかったのがその機械学習とか。
うん。
よくまあ言うじゃん、機械学習とか強化学習とかディープラーニングとか。
うん。
その辺りのその関係性があんまりよく分かってなかったんだよね。
あーなるほどね。
うん。
そこもね、さっきの漫画の方を見て、ちょっと分かったかなっていう感じ。
うんうんうんうん。
なんですよ。
この辺はどうなってんだっけ、関係って。
僕の理解だと、まず機械学習っていうのが大きいカテゴリーとしてありますと。
うん。
まあマシンラーニングって言われるやつですね。
うんうんうんうん。
機械学習って何かっていうと、大量のデータからパターンをAIが見つけて、そのパターンを学習することによって、学習するようなもののことを機械学習と言うと理解していますと。
うんうんうん。
で、その機械学習っていう概念の下に何個かぶら下がってて、あの本に書いてあったのは大きく4つかな。
教師あり学習と、教師なし学習と、強化学習と、あとはディープラーニング、深層学習と。
うんうんうん。
この4つがあるんだっていうことを理解したんですけど。
うん。
これ合ってますか?
そうね、なんかディープラーニングは1個のカテゴリーなのかっていうのはちょっと思ったけど、まあ教師あり教師なし強化学習って言って、でさらに深層学習って言ったっけ。
うんそうそうそう。
深層学習は機械学習のタイプかって言われるとちょっと違うような気もするけど。
あーそうなんだ。これちょっと毛色が違うんだこいつだけ。
うん、あの手法みたいな感じかなどっちかっていうと。
Howの部分を、あまりにも大きくなった、トピックとして大きくなってきたから、なんかカテゴリーとして認知してる感じはするけど。
そうだね、ディープラーニングだけちょっとなんかよく聞くというか、なんかちょっとこいつだけ特別感あるなっていう感じが。
そこが大きくなっていろんなことができるようになったり、研究がさらに進んでるから、そういうふうに分けたくなるのも分かるけどみたいな感じかな。
だからここで俺がよく分かんなかったのが、その教師あり学習、教師なし学習とあと強化学習っていう分類で、
教師あり学習っていうのは正解データみたいのがあって、AIが出した答えがその正解と合ってるかどうかを判定して、
合ってればいいし、間違ってたらその誤差を修正するみたいな。
そういうのを繰り返すのが教師あり学習だと理解しましたと。
教師なし学習はそういった正解データなしに、とにかくAIがいろんな大量のデータを読み込んで、そこからパターンを認識していくやり方ですと。
で、強化学習が本に書いてあったのが、AIが望ましい行動に報酬を与えて、その望ましい行動ができたらその報酬がもらえるから、
その行動を強化して、強化することによって学習していくやつだと理解したんだけど、
なんかこの分類がなんか、抽象度がちょっとずれてるような気がして、
強化学習だけなんかちょっと違くないって思ったんだけど、それはどうなんだろうか。これは3つ並列なのかな。
まあ言わんとする感覚はわからなくもないけど、
学習方法が違うとか、学習してることが違うっていう意味では同じレイヤーなのかな。
しおくんはどういうふうに理解してるの?この辺りの。
そうね、どういうふうに理解してるか。教師ありは、なんか正解のデータがあって、
で、なんかタスクがすごい明確な感じ。このスパムメールだとか判定してとかさ、
この顔は誰誰とか人だとかを判定してっていうのが、もうやるべきことがすごいはっきりしてる感じ。
答えが明確になってるやつってことよね。
答えとその答えを導き出すための入力データ、他のその他のデータのセットを与える、
機械学習の基本概念
なんかそのペアがすごい大事で、その結びつけ方は機械学習のモデルに任せる。
ブラックボックスかもしれないし、わかりやすいモデルかもしれないしみたいな感じで。
教師なしは、なんか入力データしかないっていう感じで、
何をしたいかもうちょっと曖昧、曖昧というか、なんかパターンがあったらいいなみたいな、
なんかそういう感じかな。
今のでちょっと今俺が思い浮かんだのは、例えば教師あり学習っていうのは、
受験勉強みたいなテストがあって、そのテストにいかに点数を取るかみたいな世界は、
教師あり学習ですかね。
問題を解いて答えと合ってるかどうかを見て、合ってればいいし間違ってたら、
間違ってるのを修正して勉強し直すみたいな。
で、教師なし学習は、例えば我々が今やってるこの白米FMみたいなのが、
教師なし学習なのかなと思ったけど。
白米みたいなのってどこらへんを。
特に目的、何か明確な目的があるわけではなく、とりあえずなんか目の前のものを処理することによって、
なんか気づきとかパターンとかを構造とかを導き出そうとしてるみたいな。
はいはいはい、近いかもしれないね。
そういう目的かな。
目的がないって言うとちょっと語弊があるかなと思ったけど、一応目的はあって、この中から、
山を2つぐらい見つけてこいとか、塊を見つけてこいとか、
これを10個ぐらいの山に分けてほしいとかね。
そういうパターンを見つけてこいみたいな目的はあるんだけど、
なんかテストの点数を取るみたいな目標じゃないって感じかな。
何が正解かは、なんかちょっと曖昧になる感じ。
一意に正解が決まるわけではないような問題ってことね。
そうね。
で、その上でさ、その強化学習っていうのこれよくわかんなくて、
教師ありと教師なしは割とイメージしやすいんだけど、強化学習って何よって。
そうね。だから強化学習は、最後のこれがゴールだよっていうのだけを教えて、
それに至る過程とか、何を使うかみたいな部分は割と自由にさせるみたいな感じの。
とか、なんか試行錯誤をはらんでるイメージ、強化学習は。
なんかあのシミュレーションの中で、世界の中で何回も何回もこうある、
エージェントというかコンピューターが試してみて、なんか壁、
シミュレーションの中の世界の中の壁を登れるようになるとか歩けるようになるみたいなやつとか、
あとは囲碁とか将棋の世界でも最後に勝つっていうのを目標とするんだけど、
その間にどうやって手を打つかとか、なんかどういう考えのもと、戦略のもとに手を打つかみたいなのは、
逐一別に教えないみたいな。とりあえずやって学べみたいな、そういうスタイル。
あ、わかったわかった。ちょっと今イメージがわかったわ。
なんかあの繰り返し、繰り返し同じ行動をすることによって、ちょっとずつちょっとずつこう変えて、
何かこうゴールに近づこうとする動きみたいな感じ?
そうね、なんか試行錯誤を伴ってる感じかな。
さっきの教師なし学習と強化学習の違いがあんまり俺よくわかってなかったんだけど。
ん?教師なしと?
教師なし学習と強化学習かな?
強化学習、うん。
教師なしの方は、試行錯誤するというよりは大量のデータから、
もう静的ななんかパターンみたいのを導き出す。
うん、そんな感じ、一発で。
一発、一応最適化する過程では色々ぐるぐる回すけど、
ほぼ人間からすると一発で出してるみたいに見える感じかな。
強化学習はもうちょっとこう動きがあるというか、
やってみて失敗し、やってみて失敗しみたいなちょっとずつちょっとずつ微修正して、
何か望ましい行動を導き出すみたいな感じ?
とか、もうちょっと言い方変えると、
なんか考え方みたいな、ストラテジー、戦略みたいなものを学ばしていて、
それ自体、何だろう、一個一個の、何ていうのかな、
一挙手一投足を学ばせてるというよりは、
関連、流れとして目標が達成できるにはどうしたらいいかを学んでもらってるって感じ。
はいはいはいはい。
抽象化してるんだね、多分。
そうそうそう。そんな感じはする。
それを聞いたら、人生とは強化学習なのではないかって思ったね。
我々が普段やってるのは強化学習だよね。
まあとりあえず。
まあでも、どれもあるから。あるけど、強化学習は確かに。
時系列が伴ってるっていうのはあるかもしれない。
まあでもそうか、全部関わってるのか。
受験勉強だってだって、テストを受けて失敗したら、
じゃあ何がいけなかったんだみたいなのを考えて、
自分の行動みたいなのを変えて、もう一回トライして、みたいなのを繰り返すわけだから。
そうだね。
まあ全部そうか。
そう、なんか喜びとか痛みとかともなってると、それが報酬で何かを強化するわけじゃん。
その行動が良かったとか悪かったとか。
あの旅行して楽しかったからもう一回やるとかさ。
まあそういうのも強化学習といえば強化学習だよね。
ディープラーニングの理解
だからこの我々の白米FMこれ、もうすぐ2年目になるんですけど、
強化学習してるんだよね、たぶんね。
そうだね。
同じこと繰り返して。
そう、学びを最適化、最大化するためにやってると。
で、その度に、やる度に何か学んでているとかね。
うん。はいはい。
いやこのね、教師あり教師なしと強化学習はだいぶちょっとイメージがわかるようになってきたんですけど、
そのディープラーニングですよね。
こいつがね、やっぱちょっと厄介というか、ちょっとこいつだけなんか毛色違うぞっていう感じがしてですね。
で、僕が理解したのはこのディープラーニングはそのニューラルネットワークっていうのを使って学習するんだっていう話。
で、ニューラルネットワークって何かっていうと、
人間の頭の中の構造を模したやつで、
入力層と中間層と出力層の3層構造になっており、
その入力層から入ってきたデータを中間層で何かいろんなノードが多分いろんなルートで繋がることによって複雑な思考みたいなのができて、
出力層にその結果が出てくるみたいな。
なんかそんなイメージはわかったんだけど、
それがつまり何なんだっていうところがいまいちまだちゃんとピンときてない感じがあるね。
これはディープラーニングをしおくん的に説明するとどういう説明なのこれ。
でも今言ったので間違いはない気はするけどね。
基本的にはそのニューラルネットワークの真ん中がすごく深くなってるもの。
多層になっててすごいレイヤーの数があると、
よくわかんないけどすごい結果が出るっていうのが、
もうそうとしか理解ができないっていう感じはあるよね。
中はブラックボックスみたいな感じ。
なるほどね、ブラックボックスなのか。
それはブラックボックスなんだけど、こういうことをすればその中間層がより高度になるっていうか精度が高くなるみたいなのはわかってるんだ。
どうやったらその中間層がより良くなるのかっていうの。
特性があってどういうふうに繋いだらこういう特性が出るとかはいろいろ研究がされてて、
それはあるね、いろいろ。
画像に強くなるとか、情報を圧縮している層とか、
言語モデルだったら過去の文脈で大事なところを見分けるような機構にするとか。
パーツみたいなのは揃ってる感じ。
いろいろこういうふうなコンポーネントみたいなのを持ってくるとこうなるみたいな。
それがさっき言ったTransformerになるのか。
で、それを特定の組み立て方にしていくと、Transformerになるみたいなのはある。
その中間層をどういうふうにやるといいよ、みたいな方法論がTransformerなのかな。
そうね。ある特定の形にしてやるととてつもないパフォーマンスを出すっていうのがTransformer。
なるほど。なんかChatGPTとかは教師あり学習かな。
教師あり学習でトレーニングをしたっていうふうに言っていて。
この本でそういうふうに言ってたっけ。
この本では言ってなかったと思う。なんか別のところで。
教師あり学習とか教師なし学習を調べたときに、
ChatGPTは教師あり学習でやったんだけど、そのDeepSeekが出てきたときに、
DeepSeekはそれのやり方じゃなくて、その教師なし学習の強化学習を繰り返すことによって、
なんか推論能力を手に入れたみたいな。
そこがそのChatGPTとは違う方法論でやって、すごかったからあれだけ話題になったみたいなことをどっかで読んだんですよ。
これどっちもディープラーニングのニューラルネットワークは使ってるんだよね、たぶん。
Transformer技術の詳細
そのニューラルネットワークの訓練の仕方が、
さっきの教師あり学習とか教師なし学習とか強化学習とかいろんな組み合わせがあるっていう理解であってるのかな。
なんかね、その最初のでも一言目っていうかね、
GPTが教師がありでDeepSeekがそうじゃないみたいな分け方っていうのがちょっと合ってるのかなみたいなのはあったけどね。
なんかGPTってさ、そもそも何の略だったかって知ってる?
Generative Pre-Trainingだっけ?
うん、Pre-training Transformer。
あ、Pre-training Transformerか。
うん、Pre-trained Transformerなんで。
で、最初のステップで、
プリトレーニングっていうのも、この意味がわかると、
なんかさっき言ってることと矛盾してるなっていう感じが受けるかなと思うんだけど、
イメージはわかる、プリトレーニング。
事前に学習してるってことじゃないの?
そうそうそうそう、事前に何を学習してるか。
何を学習してるの?
何を学習してるんでしょうか。
え?
だからこういう順番で言葉を並べると、
なんかいい感じの文章が作れるよみたいなことを学習してるんではないか。
うんうんうん、そう。
それってどっちだと思う?教師がありか教師なしか。
え?
あー、え、教師ありじゃない?
教師あり。
なんかその、教師、あ、教師ありっていうのは多分、
これまで人間がこう作ってきた大量のテキストデータみたいのがあって、
それを一応正解として、
なんかAIが出してきた文章と見比べて、
なんか合ってるか間違ってるかみたいな、
の誤差を修正しているのではないかと思ったが。
そうね、あの、確かに教師、
なんか僕の中ではあんまり教師ありっぽくなくて、
なんか別に何を正解かを示してあげてる感じじゃないっていうのかな。
はい。
で、なんかその大量の文章があったら、
なんか適当にその中を虫食いにして、
で、それを予測できるようにして、
ああ、こうやって文章って作るんだっていうのを学んでもらってるから、
なんか特定のこう、
ラベルと判別できるようにトレーニングしてるわけじゃない、
なんかのタスクはできるように。
はい。
だから何でもこう、万能になるようなトレーニングの仕方っていうか、
まだ準備運動というか、なんか、
あの、例えば小学生の頃にこう社会について広く学ぼうみたいな、
特定の目的はないんだけど、
受験勉強とかもね、考えずに、
とにかく世界について学びましょうと。
だから社会見学もするし、算数も役に立つか分かんないけどやるし、
音楽もやるしみたいな、なんかそういうイメージなんだよね。
生成AIの学習メカニズム
はいはいはい。あ、分かった。
今ちょっとね、調べて分かったのが、
えっとね、プリトレーニングとファインチューニングの2段階あるんだと、学習に。
GPTの。
で、多分プリトレーニングの段階が、さっき言った教師なし。
で、大量のデータみたいな文章みたいのを見て、パターンみたいのを学ぶ段階。
で、ここで多分Transformerが使われてるんだろうなと。
で、その後にファインチューニングで、
あの、望ましい言葉の出し方とか、
多分その丁寧な言い方とか、
なんかあんまりよろしくない言葉とか。
そういうのを、多分教師あり学習的なので補正してるんじゃないかなと。
うん。
そのこと言ってる。
なんかあの、そこのプリトレーニングの後にも2つのまだ学習があって、
なんかファインチューニングはもうあるんだけど、
もう1個、強化学習もやってるはずなんだよね。
ほうほうほうほう。
ちなみにファインチューニングってどんなことやってるかわかる?
え、わかんない。
これ、この本で書いてたっけ?
ファインチューニング。
これが教師あり学習をしてるイメージで、なんかこう正解を与えて、
で、ちゃんとそれにどんくらいの精度で答えれるか。
そうだねそうだね。
だから、あの、簡単な文章でさ、
今大統領の、アメリカの大統領は誰ですかっていう問題に対して、
なんか答えは誰誰って答えて、それが合ってるかみたいな。
そうすると、なんか社会の問題は何点みたいな。
数学の問題も1+1=2みたいなのをいっぱい用意してあげて、
ちゃんと2って答えれたら精度が上がった。
っていうのをファインチューニング、正解とインプットみたいなのを用意してあげて、
教えてあげてる感じするじゃん。
もう1個最後にあるのが、なんか、
ヒューマン、なんだっけな。
強化学習、ヒューマン、人間のフィードバックあり強化学習。
はいはい。
で、
R、なんだっけ。
RLHF。
はいはいはい。
Reinforcement Learning with Human Feedbackみたいな感じで。
それは、なんかさっきとよだくんがちょっと言った、この望ましいアウトプットをしてるかどうかみたいな。
なんか2つアウトプットを出させて、どっちの方がいいって聞いて、うんこっちの方が良さそうみたいな。
たまに、今最近あんまり見ないかもしれないけど、GPTとか使ってる時にさ、
なんか左と右に答え出たりするのとか見たことある?
あるねあるね。
あれみたいなイメージで、2つどっちが良いって言って。
で、ちゃんとそれはユーザーに聞くんじゃなくてテスターっていうのかな。
なんかその、ちゃんとした専門家とかに聞いて、こっちの方が良いとかね。
ヒューマンフィードバックをもらって、より良さそうな回答をするみたいな。
これってさチャットだったりするとさ、また一連のこう流れだったりするじゃん。
だから最後の答えがいくら良くても間の過程がこう悪かったりとかすると、
まあチャットボットとしては自然じゃないなみたいな。
とかさ、体験が良くないなみたいな。なんかあると思うんだけど。
そういうのも含めて、全体的にこっちの方が良いよみたいな。
そういう調整ができるみたいな感じで。
分かった。じゃあ今のだと3段階あるってことね。
ヒューマンフィードバックと強化学習
そうそうそうそう。
まず最初に教師なし学習で大量のテキストみたいのを読み込ませて、
大体の世界モデルを作りつつ、その上に教師あり学習でファインチューニングして、
アメリカの大統領が誰誰だみたいな答えが明確になるやつを覚えさせて、
で、答えられるようにして、最終的にさっき言った強化学習で、
より望ましいというか、流れを出せるように学習して、で出来上がるみたいな。
そういう感じだと僕は理解してる。
でもだいぶ今ので分かってきたな。どうやって作られてるのか。なるほどね。
だから最初に戻ると、GPTは教師あり学習でって言われると、
なるほどね。分かった分かった。
ちょっと違うかもなって思ったってことね。
はいはいはい。でもそうだね。今のでだいぶ分かったわ。
なるほど。
だからそのDeepSeekは、教師あり学習みたいのをそんなに多分やらないで、
教師なし学習と強化学習を繰り返して、結構すごい推論能力を手に入れたっていう風に言っており、
昨日かな、出たChatGPT4.5。一番新しいやつはその方法論で何か作ったって言っているんだよね。
だからそれを教師なし学習と強化学習をとことんまで突き詰めて、最終的に教師あり学習で調整するのかな。
分かんねえ。
まあでもなんとなく分かってきたよ構造が。
次回へ続く。
47:51

コメント

スクロール