1. となりのデータ分析屋さん
  2. 79. 【前編】強化学習はAIの未..
2024-08-28 26:20

79. 【前編】強化学習はAIの未来!ドラえもん時代にのび太というソリューションを【生成AI】【子育て】

番組の感想や、質問はXから「⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠#となりの分析屋⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠」もしくは、以下おたよりフォームからお寄せください! ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠https://forms.gle/1Qq3cfqYgVXgs5Qr6⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠


=========================

▼書籍の購入はこちらから 超入門 はじめてのAI・データサイエンス(培風館)⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠https://amzn.to/3R3aI9g⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠


=========================

▼りょっち 第3回Japan Podcast Awards受賞Podcast「⁠⁠⁠⁠⁠佐々木亮の宇宙ばなし⁠⁠⁠⁠⁠」はこちら! X (⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠@_ryo_astro⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠) Instagram (⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠@ryo_astro⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠)

▼たっちゃん X (⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠@⁠⁠⁠⁠⁠tatsuki_2022⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠)

00:03
未来は暗いよ。人間らしさって何ですか。パパ、AIに全てを飲み込まれる未来しか想像できない。乏しい想像力のパパがお届けする強化学習編。
そんな暗かったかなぁ。いや全然。でもなんか、最近頭の中で考えてることを初めて喋ったような気もするし、そもそもやっぱ強化学習めっちゃおもろいんだなっていうのは思ったな。
可能性感じました?激伸びでしょ、だって。スマホの成長率よりも激伸びなわけでしょ。全然ですね。
今後10年は強化学習なわけでしょ。はい。 そんなんやんなきゃダメじゃない。俺はもう来週から強化学習の勉強を始めます。
いや素晴らしい、96。明るいな、未来は。本当、未来は明るいよ。俺の未来は明るいけど、子供の未来が心配だよ。いいよ、文化的な生活を送ればいいんだよ。
本当に、のび太くんの生活がすべて。とりあえず一緒に編み物するわ、射撃するわ。
AIの社会実装の未来の主軸になりそうな強化学習についてガッツリ喋ってるんで、ぜひ最後までお付き合いください。どうぞ。
隣のデータ分析屋さん。
この番組は隣の席に知らないことを気軽に聞けるデータ分析屋さんがいたらいいなぁ を叶えるポッドキャストチャンネルです。
データアナリストのりょっちです。 データサイエンティストのたっちゃんです。
強化学習、ですよね。
です。 久しぶりに聞いたよ。
強化学習っていうなんかワードを単体で。 もう落ち目なのかなぁ。
いやー別にそんなことはないんじゃない。 そうでしょ。大学の授業の小テストの答え入りをしてるよ、俺。
あーやっぱり。で、だいたいデータサイエンス学ぶときって最後の方の章に出てきて、もう体力なくて、さらっと読んで終わりません?
そう。しかもなんか使うか?みたいな。 そうなんだよねー。人が作ったやつは使うかもしれないけど、自分で全部これ組むか?みたいな。
いやそうでしょ。EGOに買った強化学習のモデルとかが出てきて、あーそんなあんだっていうね。
まさにでもその話を今日は改めて掘り返していこうと思っていて。 なぜ今なんすか。
これがですね、最近自分の仕事の中で強化学習を使った方がいいんじゃないかっていう話があってですね、改めて学び直しをしていて。
03:02
で、そう学んでる中で、あーやっぱ面白いし、使えるし。 で、ちょっと調べてみると全然落ち目じゃなくて、これからこれ絶対流行っていくよなっていうのが見えてきたんで。
ちょっと自分の中のホットトピックとして話したいなっていう、そんなモチベーションです。 われわれの仕事で
強化学習使うとか、なんか他の画像分類のモデル使うとか、そういうのってこう
何も考えずに、このタスクにはこのモデルが合うんじゃないかって直感的にわかるじゃないですか。 まあなんとなくは。
意外とそこの、こんな風にやればいいAIモデル作れるよっていうのを提案するのも仕事のうちだったりしません? まあまあまあそうね、そこの手数というか、なんかこういう手札があるよみたいな。
そうなんですよ。 で、
ちょっとクイズ出したくて。 はい。
今の文脈の中で、例えばですけど、道路の渋滞を予測する AIモデルを作ってくださいって言ったら、どういう風にモデル作ります?
道路の渋滞? はい。
どういうモデル?そうだなぁ。 めっちゃシンプルなのだったら、なんかその
道路、 セグメントに分けて、そのセグメントごとの、なんか時間
タイムスタンプついているデータとその時間帯の交通量の、なんかこれは過去1年とか2年とかの情報とか
そういうの、あと休日、平日とかなんかフラグつけて時系列のデータで処理して、そのその区域がその時間
この条件だったら 渋滞起こるかも、みたいなのを
予測する。 まあそうですよね。回帰モデルとして将来の渋滞を
時間ごとで予測するっていうモデル、たぶん自分もそうすると思います。 最初はなんかそう、それをイメージするかな。できるかどうかはなんか
ゴブゴブな気もするけど。でも多分一般的なんじゃないですかね。 うん。じゃあもう少し似たような話で
たぶん自動運転を今流行ってますよってなった時に道路標識あるじゃないですか。止まるとか。
それを自動運転の車につけたカメラが認識する。そんなモデルもあると思うんですけど、どう作っていきます?
えーと、物体検知のプログラムを
まあなんか一旦クラウドとかにあるやつを引っ張ってきて
例えば道路運転中だったら、まあなんか
ある断面のなんかスクリーンショットみたいなやつを連続でバシバシとっておいて、一枚一枚の画像に食わすとか。
06:01
動画に対する処理のイメージが俺の中ではあんまないから、静止画に落としてやるみたいな方を提案するかな。
あー、やっぱそうっすね。自分もそうだな。 まあ画像の
画像ごとにそれを分類するようなモデルを過去のデータとか学習データいっぱい準備して賢いモデル作るっていうイメージですよね。
そうそう、あの黄色い枠みたいなのが出るようにする。はいはい、間違いない。
じゃあ最後の問題ですよ。運転する時に基本的にそのレーンの中で運転が進んでいくと思うんですけど、
その白線を超えないように車が運転できるようなモデル等を作ります?
えー、どうやって作るかな。えー、まあカメラ使うかな。
カメラ使いますね。カメラ使う。でまあ、なるべくカメラの個数を最小にするんだったら真ん中についているカメラで、
まあこの車幅と、あのなんだ白線、そういうことさっきみたいに白線をずっと認識するようなものにして、はいはい。
まあ中心からこれぐらいずれたら白線超えるよみたいなところでアラートを出して、アラート出て出そうになったら
ハンドル逆切るみたいな。 ああ、ハンドル逆切るっていう操作って難しいですよね。
ハンドル逆、まあまあまあでもその右側の、右側のディテクションと左側のディテクションで調整するのかな。
もちろん目の前に人いて引くかどうかはまた別だけど、トロッコ問題みたいなのはいったん無視して。
いやそうっすよね。これでもまさに最初の2つの問題と最後の問題って、なんか
分けて考えることができて。最初の問題って、まあ将来の渋滞予測だったり
画像を識別するっていう予測なんで、まあなんか過去にあるデータをわーっといっぱい準備すれば
その将来のポイントとか新しい画像を予測することは比較的できると思うんですね。
でも道路の白線の中を車がずっと維持しながら運転するって、まず道路の白線を認識しなきゃいけないのと
車の制御をかけるっていう問題があったりとか、あとは白線って言いましたけど
そこに人がいるそのトロッコ問題みたいなところで、なんかこう 特別なケースがあったりとか片方の白線がないとか
結構いろんな要素が絡んで、考慮する量が膨大に多くなってくるんですね。
まあ確かに。実運転するってなったら。
で、そういう複雑に絡んだ条件とかリアルタイム性を要して、その状況がどんどん時間で変わっていくような
そういう問題に今回の強化学習が当てはまるっていう、そういうオチなんですけど。
09:02
ま、まとめると環境と言われるその外の状況がリアルタイムに変わるよっていうところと、考慮する条件がめちゃめちゃ多いっていう。
あーなるほど。
そういう時に合うモデルとして強化学習があるっていうのが、まあ広い考え方というか。
うーん、ちょっと面白そうだなそれは。
なんか強化学習、強化学習の事例とかで言うと、なんかそういう話し方よりは、なんか行動が起こったらそれに対して
あの、こっちの行動が良かったうんぬんみたいなのが返ってきて、でそれがまた次の意思決定に使われてみたいな
なんかそうやってどんどん積み上げられていく、なんかまるで人間の経験を貯めていくかのようにみたいな話の仕方で例が出されることが多い気はするんだけど
今みたいなもうちょっと汎用性の高い説明をされると、なんかすげー使えそうな気もするし
むずそうな気もするし、みたいな。
いやでも、教科書的に書かれるのは、今どっちが言ってくれた、AIのモデルをどんどんPDCA回しながら強化していくっていう、どんどん賢くしていくっていう
サイキー学習みたいなやつだね。
そうですね。AIが起こした行動と、それによってAIの外の環境が変わった状態と、それが良い方に転んだのか悪い方に転んだのかっていう
評価をして、AIにそれをポイントとして、報酬としてインプットするっていう、このサイクルを回すっていう話ですよね。
うんうん、そうそうそうそう。
そう、この概念がめちゃめちゃ自分は分かりにくいなと思っていて、いやまあずっと分かりにくいなとは思ってる。
いやそうですよね。
意味はかなっているしね。
ライトに使えるタイミングがなさすぎて浸透しない説も、LLMとかはあの形になったからこそみんなが使えるようになったみたいなさ、ところがあるから。
もしかしてその裏でいろいろ動いてる中に、そういう強化学習みたいなのが入ってるんだろうけど、実感しづらいし、それを使おうっていう頭を全員に向けるぐらいだったら、
すげーライトな予測とかでやったほうがなんか、ある程度の仕事はうまくいくようなイメージ。
いや間違いない。すぐ実装できるって言えば便利さと直感的な理解と、強化学習って結構広く汎用的に使えるからこそ、まだ広まってないのかなと思っていて、
これまで世にあるAIのモデルって、何かを予測する。さっき言った渋滞予測するとか、道路標識を認識する、識別するみたいな、特化型のモデルって言われるじゃないですか。
1個のタスクに適してるみたいな。強化学習もうちょっと広く使えるようになってるからこそ、一旦特化型でいいんじゃないっていう考えに陥るってこともあるのかなと思っていて、
12:10
さっきの白線の中にいるっていうのも、じゃあまずは白線を識別するだけのモデル使っちゃえばいいじゃんみたいな。
まあ確かに。そうなるよな。でもなんかもう強化学習とかをちゃんとガッツリ使うってなると、もうなんかそのシステムがサービスの根幹になってるみたいなぐらいじゃないと、作り込まないイメージ。
いや、そうですね。もうモデルとしてちゃんと機能するところまで持っていかないと使えないっていうのはまさにそうで。
なんでこの話出てきたかって話、最初に言った仕事で使いそうっていうところなんですけど、なんか具体の強化学習のタスクをちょっと説明するのはまだ会社の中の話なんで、しにくい部分があるんですけど、
似たようなものに置き換えて話すとですね、ビジネスサイトから急にこんなことできないっていう提案があってですね、これは仮のタスクに置き換えてるんですけど、なんか最近家の冷凍庫の電気代めっちゃ高いんだよねっていう。
冷凍庫として冷やしてちゃんと凍っていればいいから、今多分冷やしすぎてんだよね。だからこの電気代もう少し抑えられないみたいな、そんなざっくり質問がやってきて、
あーまあ確かになーって。冷凍してる状態を維持しつつ、その冷凍が溶けないギリギリの温度を攻める制御をかけられる、そんなAIモデル作れないかなーって始まったところで、これ強化学習合ってるよねっていう。
あーそう。だからその周りの環境と考えなきゃいけないことが多いでいうと、中に何が入ってて、中の温度がどれぐらいで、でどれぐらい冷えてるのとどれぐらい冷えてないのがあってみたいな、っていう中の特徴量とか温度設定とか電気代とかがあって、電気代は個体化。
で、電気代がそう、個体ですね。家にいる人だったり、環境?季節とか?季節、そう。とか、夏はもう少し冷やさないと外の温度の影響で上がっちゃうからとか。あーなるほどね。そう。冷凍庫ってさ、下についてるじゃん。ついてるついてる。冷凍庫って冷蔵庫の冷気使ってんだべ。
冷凍庫は冷蔵庫だって、あのね、冷蔵庫専門家じゃないからそこまで詳しくないんだけど。なんかこの間なんかそんな話聞いたんだよね。えーと思って。いやなんか冷たい空気は下に行くじゃん。はいはい。
だから例えばなんか冷凍の機能が一気に落ちたときも、全然開けなければ、その冷蔵庫からなんかこう若干冷やされる冷気も落ちてくるし、保冷性も高いから意外と冷凍庫の中身は無事みたいな。あ、そうな。まあ確かにそうなのかな。わかんないや。
15:11
いやそう、なんか言われて納得感はあったような気もするんだけど本当なのかな。じゃあ今の話だったら冷蔵庫の中の状況も加味して冷蔵庫の温度をコントロールしなきゃいけないっていう外適用意も増えましたよね。そうそうそうそう。冷蔵庫の開け閉めの回数によって冷凍庫に供給される冷気の量も変わる。
で、それをしかもリアルタイムで制御するから、そう、そんななんかもう賢いAIなんてこれまでの分類とか回帰っていう問題じゃなかなか作れなくて、ここは強化学習が合ってるんじゃないっていう。はいはいはい、イメージが湧いてきた。そう、っていうような話がビジネスサイドから来たんで、それを最近勉強してるって話なんですよ。
わかんないなでもなんか、強化学習はなんかやっぱ実装コストがめちゃめちゃ高い。そもそもさ、AIの予測とか系ってさ、足の長いプロジェクトの割にインパクトが出るか微妙だからって言って、お願いされることは意外と減ってきてるというか少なくなってると思ってた一時期より。
あーそうですね、なんか異常な期待値がないってことですよね。そうそうそう。で、そうなった時に、強化学習なんてそれのなんか最たる例というか、さらにさらに上じゃん。から、いやなんかそれの前にお前冷凍庫の中整理しろよが最大のソリューションな気もするよね。
それはそう。そう、システムで解決できる課題の方が、強化学習で解決できる課題よりシステムで解決する方が早いものの方が実は多いんじゃないかとも思うけど、逆にだから強化学習でしかできないタスクをちゃんと見極めれる人がそれをドリブンのサービス作ったらマジ強いよねっていう気もする。それは本当に素晴らしい。まさにアナリストの観点ですね。
本当にAIに頼るなっていうところはあって。うん、マジでそう。さっきはちょっと乱暴な話、語しましたけど、その強化学習を使うっていうところの方法論に至るまでにはビジネスサイドとの何度もこう議論を重ねて、それ本当にやりたいことって強化学習というか、冷凍庫の中の温度を保ちたいことなのみたいな。
いろいろヒアリングしていく中で、実は今は手動でコントロールしているところの精進化、人のコースを下げたいんだとか、もう今すでに使っているシステムのリプレイスが社内で実装できたら嬉しいよねとか、そういう別の目的がいくつかあって。
で、その中で一番コスパいい方法を取っていくっていう、そんな議論は当たり前のようにあるんですけど。相当だよね、強化学習を実装するっていうフェーズまでたどり着くのって。
18:10
そうです。もう少し話すと、実際に強化学習で成果が出るかどうかは、まだこれからで技術調査をして、ポックみたいな感じで試してみて、機能するのかっていう検証を繰り返すっていうのがまず最初のフェーズかなっていう。
なるほどね。ロボット系だよね。自動運転とかロボット以外。なんかあんのかな。社会で実装されている強化学習ですよね。ロボット分野はやっぱり馴染みがあるというか。
そうなんだよね。だから結局なんかあとは、ある程度のルールがある中での超強力な。最適化みたいなことだよね。
そうです。だからオセロとか、イゴとか将棋とか、そういうボードゲームのルールが決まった中、置く盤面が決まっている状態の中で、一番勝率の上がる。打ち手ってなんだっけみたいな、そういう中での使い方っていうのは一番イメージしやすい。
ネットフリックスのレコメンドとかは、そうか。そんな話を聞いた気がするし、今調べてもなんかちらっと出てくるからきっとそうなんだろうなと思うけど。
ネットフリックスとか、そういうのはあのレコメンドがサービスみたいなところもあるから、だからいいんだよね。
し、どうせスタートから強化学習ではなかったから絶対に。だから多分、AIタスクでそもそもAIタスクが最適だよねっていう、まず一段ステップがあって、それをさらにブラッシュアップしていく時に、もう普通の回帰とか分類じゃ無理だから、
ちょっと強化学習手入れましょうかとか、そういう話になって強化学習っていう、なんか一発目のソリューションとして出てこないのかなっていう気もする。
レコメンドとかは間違いなくそうですね。レコメンドはもう過去にあるデータ、どの商品とかどの、ネットフリックスだったら映画か、映画ドラマっていうコンテンツとユーザーのその関係性をもとに、
なんか同じような作品見てるユーザーにはこの作品を提案しようっていう、すごい古典的なアルゴリズムから始まって、そのコンテンツの提案に対してユーザーがどうレビューしたかみたいな、それをAIのスコアとしてインプットするっていう、そういうもう少し全体というか、システム全体のフィードバックをかけられる仕組みを強化学習で実現してるみたいな、そんなイメージですね。
うーん、はいはいはい。レコメンドは確かに裏で使われているけど、あんまり意識しないなっていうのはありますね。
21:02
まあそうだよね。
あとね、そうだね。
そうだね。
自分が面白いなと思ったのは、あのUberがダイナミックプライシングしてるって話あるじゃないですか。
うんうんうん。
で、そのダイナミックプライシングの精度向上に強化学習を使ってるっていうのがあって。
ほう。え、どういうことだ。
これさっきの強化学習のそのモデルの行動と状態とその報酬っていう3つの要素で整理するとわかりやすくて。
うん。
ダイナミックプライシングが出す行動っていうのは価格の提案ですね。この価格でタクシーの金額を提案しますっていう。
うん。
出しますと価格を出す。すると、そのお客さんとかその市場の環境としては、その価格でタクシーを呼ぶかどうかっていう状態が決まってくるんですね。
あーはいはいはいはい。
つまり需要が変化する。
変化するね。
で、その需要が変化した結果、次のステップで、そのUberの売り上げ、収益がどう変わったかっていうところで、収益が向上したなら、そのAIの行動っていうのは良かったっていう評価ができるんですよ。
確かに。
だから、その価格設定は間違ってなかったっていうことで、AIは認識して、似たような価格設定を提案し続ける。
うんうんうん。
逆に収益が減ったら、さっきの価格設定はまずかったっていうところで、もう少し価格の変化を加えて、どこだったら収益が上がるかっていうところを探すような行動を繰り返すっていうところで、
このダイナミックプライシングの需要と供給のバランス、良い価格の提案をどんどん探しながら、AIが学習していくみたいなところでの評価学習の使い方。
はー、なるほど、なるほど、なるほど。
っていう、動的に市場の需要が変わるから、天気とか渋滞とかイベントとか、それをリアルタイムでループしながら、良いところを探すっていう価格の探し方をするっていうところで使われてるらしいですよ。
そうやって学習がどんどん、報酬がこっちになったらよくてっていうのが繰り返されていくと、最終的にたどり着くのはめっちゃいいモデルになっていく?
はい、そうですね。
けど、能力は収束しないの?するの?
能力は、ある程度、環境と言われる、いわゆる我々の社会の状況が大きく変化しない限りは、その状態に対して良い価格設定っていうところが決まってくる。
どうなんだろうと思って。
例えば、それをモデルに組み込むのかな。
24:00
例えば1年前、3年運用してますってなったら、そのモデルを。
1年前の意思決定が報酬からどんどん溜まっていくわけじゃん。
そうすると直近の意思決定で得られた報酬とモデルの改善って埋もれそうじゃん。
全部本当に蓄積されていってるんだとしたら、過去の正解にバイアスがかかっていくというか。
それはあれなのか。
時間が経つにつれて、その報酬もリセットされていくようなシステムにしておけば、常に新しい。
そうですね。
強化学習に時系列の減衰要素みたいなのも入れていくみたいな。
でも細かいところになると、そういう報酬の中、設計の中で、より新しい情報に重みをつけて、
古い情報はその情報としては価値は低くするみたいな設計をすることで、
より今の状況に合わせてアウトプット予測が出てくるっていう仕組みを作ってますね。
だから報酬の設計ってめちゃめちゃ難しくて。
ダイナミックプライシングのところでも使えるわけか。
使えますね。活用事例がありますよっていう。
今のダイナミックプライシングの話までいくとすげえ分かりやすい気もするけど、
そうしたらもうちょいみんな使っててもいい気がするけど、
使われてるけど知らないだけなのかな。
ここの難しさがあってですね、社会実装の難しさっていうところですよね。
活用事例の話をしたというところで一旦切って、
もう少しビジネスの活用の難しさとか、最近の最新事例はこの後はしゃべりましょう。
OK。後編。
後編に続く。
隣のデータ分析屋さん今回も面白いと思ったらフォロー・レビューよろしくお願いします。
番組の関数や質問はハッシュタグとなりの分析屋。
隣のがひらがなで分析屋は漢字でお願いします。
また概要欄に貼ってあるお手紙フォームからコメントを寄せください。
ではまた。バイバイ。
26:20

コメント

スクロール