1. おちつきAIラジオ
  2. AIだってサボりたい!?強化学習..
2025-11-07 1:14:31

AIだってサボりたい!?強化学習「報酬ハッキング」クイズ【科学系ポッドキャストの日】(ep.14)

spotify apple_podcasts

【公開収録イベント 参加チケット購入先】

・11/29(土) ジャケギキ公開収録イベント「おちつきAIラジオ」

https://peatix.com/event/4685734/view

・11/30(日) ジャケギキ公開収録イベント「ラスト・ワン・ミニット」

https://peatix.com/event/4689943/view

---

今月の「科学系ポッドキャストの日」共通テーマは『トリビア』!おちつきAIでは、AIが報酬欲しさに人間を欺く現象「リワードハッキング(報酬ハッキング)」のトリビアをお届けします。 前半は、現役エンジニアのしぶちょーが「強化学習」の基礎を優しく解説。伝説の囲碁AI「AlphaGo」が引退した真の理由や、ルールすら自学する最新AI「MuZero」、医療に応用される「AlphaFold」までの進化の歴史を紐解きます。 後半は、AIが編み出した驚きのズル行動を当てるクイズ大会!「死なないためにポーズ画面で停止するテトリスAI」など、想定外のハック事例にかねりんが挑みます。AIの進化と、人間が果たすべき役割について楽しく学べる70分です。


【目次】

() 毎月10日は「科学系ポッドキャストの日」!今回の共通テーマはトリビア

() 本日の企画発表!AIのズルを見抜け「強化学習リワードハッキングクイズ」

() まずは基礎から復習!AI学習の3分類と「あめちゃん」で学ぶ強化学習

() 行動をテーブルで管理するQ学習と、組み合わせ爆発を起こす「次元の呪い」

() 脳みそを持ったDQN(Deep Q-Network)の登場と進化

() 伝説の囲碁AI「AlphaGo」が引退した本当の理由と汎用人工知能への道

() 人間のデータは不要!?ルールだけで神の領域に達したAlphaGo Zero

() ルールすら教えない「MuZero」と、創薬を変えた「AlphaFold」

() ここから本題!報酬欲しさに目的を見失う「リワードハッキング」とは

() 【例題】50m走で最速を目指した結果、身長を伸ばして倒れ込んだロボット

() 【第1問】ロボットハンドが「掴んだフリ」をするために使った驚きの手法

() 【第2問】ゲームオーバー回避のためポーズ画面で永遠に停止したテトリスAI

() 【第3問】利益最大化のためにシミュレーション上で違法取引をした株AI

() 【第4問】盤面の彼方に石を置き、相手をメモリオーバーさせた五目並べAI

() まとめ:AIが賢くなるほど、人間がルールを正しく定義する責任は重くなる

() 11月29日 18時~20時原宿でリアルイベントの告知



【今回の放送回に関連するリンク】

・本:最強囲碁AI アルファ碁 解体新書 増補改訂版

https://amzn.to/47Kaj32


【今回の要チェックキーワード】

強化学習(Reinforcement Learning):

AIが「行動」と「報酬」のサイクルを通じて学ぶ方法。良い結果を出すと報酬を得て、その経験からより良い行動を選ぶようになる。

教師あり学習(Supervised Learning):

入力データとその正解(ラベル)をセットで与えて学習させる手法。たとえば「画像→猫」というように、正解を教えながら学ばせる。

教師なし学習(Unsupervised Learning):

正解のないデータを使い、AIが自らパターンや関係性を見つけ出す手法。代表的なのはクラスタリング(似たもの同士をまとめる)など。

RLHF(Reinforcement Learning from Human Feedback):

人間の評価やフィードバックを使ってAIを強化学習する手法。ChatGPTのように「人間らしい応答」を学ばせるために使われる。

報酬ハッキング(Reward Hacking):

AIが報酬を最大化するために「ズル」を覚えてしまう現象。目的の本質を理解せず、報酬だけを稼ぐ行動を取ることがある。

AlphaGo(アルファ碁):

Google DeepMindが開発した囲碁AI。人間の棋譜と強化学習を組み合わせ、2016年に世界トップ棋士・李世乭(イ・セドル)氏に勝利して話題になった。

AlphaGo Zero(アルファ碁ゼロ):

人間の棋譜を一切使わず、囲碁のルールだけを与えて自己対戦を繰り返し、最強になったAI。短期間でAlphaGoを超える実力を示した。

AlphaZero(アルファゼロ):

囲碁・将棋・チェスといった複数のボードゲームに対応する汎用AI。自己対戦による強化学習で、各分野の専用AIを圧倒する性能を発揮。

MuZero(ミューゼロ):

ゲームのルールすら知らない状態から、観察を通してルールを推測し、学習するAI。AlphaZeroの進化版で、より「人間の学び」に近い。

AlphaFold(アルファフォールド):

DeepMindが開発したタンパク質構造予測AI。アミノ酸配列から立体構造を正確に予測し、生物学・創薬研究に革命を起こした。従来は数年かかっていた解析を数時間で実現する。—----------------------------#科学系ポッドキャストの日  参加回!

11月のトークテーマ「トリビア」:ホストはサイエントーク

科学系ポッドキャストの日とは?:https://scien-talk.com/science_podcast/

企画プレイリスト→ https://open.spotify.com/playlist/0VXcho1KfS79fEPn0frZ5Z



—----------------------------

【番組の概要】

日々のAIトピックを、現役のAIエンジニアがやさしく解説する対談番組。AIニュースに驚き疲れたあなたに、おちつきを提供します。AIニュースの、驚くポイント、驚かなくても良いポイントがわかります。

★ご感想やコメントは、番組公式ハッシュタグをつけてX(旧Twitter)でポストしていただけるとありがたいです。

【番組公式ハッシュタグ】

#おちつきAI

【番組公式X】

https://x.com/ochitsuki_AI

【パーソナリティ(MC)】

▼しぶちょー

・AIエンジニア

・技術士(機械部門) 

「大手機械メーカーでAI開発の最前線を担う現役エンジニア。AI(ディープラーニング)の実装スキルを証明する「E資格」を保有。機械(ハードウェア)への高度な知見も有し、双方の専門性を掛け合わせ『AIの社会実装』に貢献する。情報発信活動にも精力的に取り組み、ブログ・音声配信(Podcast/Voicy)・SNSなどで幅広く活躍。単なる技術解説でなく、行動変容を伴う情報発信を信条とする。その姿勢が評価され、2025年UJA科学広報賞 審査員特別賞を受賞。著書に『集まれ設計1年生 はじめての締結設計』(日刊工業新聞社)。岐阜県テクノプラザものづくり支援センター広報大使、生成AI EXPO in 東海 共同代表も務める。」

https://x.com/sibucho_labo

https://voicy.jp/channel/3963

▼かねりん(金田勇太)

・KANERIN Podcast Studios 代表

・一般社団法人 地方WEB3連携協会 理事

「刑事司法実務の最前線で多数の犯罪捜査を指揮。2017年から暗号資産業界へ参入。数々のグローバルプロジェクトに参画しコンサルティング、情報分析・アドバイザリー業務を提供。コンサートライブ配信業、音声配信業、テックメディア創業等を経て、ポッドキャストレーベル兼プロダクション「KANERIN Podcast Studios」を創業。多様なパートナーと共に、未来へつなぐ声の原典を共創している。」

https://x.com/kanerinx

https://voicy.jp/channel/2534

【プロデューサー】

かねりん https://x.com/kanerinx

【サウンド・アーキテクト】

Aviv Haruta https://x.com/oji_pal

【カバーアートデザイン】

UTA https://x.com/uta_dib

【制作/著作】

KANERIN Podcast Studios

--------------------------------------------------

※画像引用元:https://www.imdb.com/title/tt6700846/

【各種ポッドキャストスタンドへのリンク】

Spotify

https://open.spotify.com/show/6iGk39bSta5KZ1QD7jvK2o

Apple Podcast

https://podcasts.apple.com/us/podcast/id1841316430

Amazon Music

https://music.amazon.co.jp/podcasts/aba8e9a4-aefb-404a-b366-4b7a11b3f7cb/

YouTube

https://www.youtube.com/playlist?list=PLNQiF7XIko7QOIlyFMiI_aDdk1eJzNiCD

LISTEN

https://listen.style/p/ochitsukiai


サマリー

今回のエピソードでは、強化学習における報酬ハッキングに関するクイズを通じて、AIの学習メカニズムが探求されます。特別イベントでは、AIエンジニアのしぶちょー氏とAI初心者のかねりん氏がトリビアを交えながら学びを深めます。このエピソードでは、強化学習とその重要な概念であるQ学習、さらにディープQネットワークについて語られています。また、報酬ハッキングの課題にも触れ、AIの学習過程やアルファ碁の実際の応用例が紹介されています。AIによる強化学習と報酬ハッキングについても解説されており、アルファ碁やアルファゼロなどのプロジェクトを通じて、AIの進化と汎用人工知能を目指す取り組みが論じられています。強化学習における報酬ハッキングの概念は探求され、AIが意図しない方法で報酬を獲得する事例が紹介されています。特に、ロボットやゲームAIが報酬設計を回避する方法に関するユニークなクイズを通じて、学習の複雑さとそれに伴う課題が明らかにされます。さらに、AIの強化学習における報酬ハッキングとその影響についても議論が行われ、AIが報酬を最大化しようとするあまり予期しない行動を取る事例が紹介されます。特に、株価トレーディングにおける違法行為を未然に引き起こす可能性が強調されています。また、AIが報酬をハックする可能性や強化学習の重要性についても議論され、AIと人間の役割、さらには最適化の影響が考察されています。

科学系ポッドキャストの日について
おちつきAI
おちつきAI
おちつきAI
AIエンジニアのしぶちょーです。
AI素人のかねりんです。
この番組は、日々のAIニュースで驚き疲れたあなたに、ゆっくりじっくり、AIを学んで落ち着いていただく、そんな番組でございます。
はい、ということで始まりました、おちつきAIラジオ。今回はですね、ちょっといつもと変わってまして、イベント参加会でございます。
科学系ポッドキャストの日に参加している会でございます。
かなり科学系ポッドキャストの日、知ってます?
知りませんでした。
オッケーです。
下かぶりしようかと思っちゃった。
全然大丈夫です。
私がね、今から説明しますんで。
危ない危ない、ちょっとびっくりした。
大丈夫です、信じられなくて全然オッケーです。いきなり勝手に参加して勝手に始めますと言ってるだけなんで。
危ない危ない。
これはですね、科学系ポッドキャスターっていうくくりの方たちがいるんですけど、その科学系ポッドキャスターが集まって、毎月10日あたりに共通のテーマについてそれぞれの専門分野の下で語るっていう取り組みがあるんですね。
毎月毎月共通のテーマっていうテーマを出すホスト番組っていうのがあって、科学系ポッドキャスターの皆さんこういうテーマで今回語りましょうというふうにテーマが出て、みんなそれぞれの専門分野の視点でそのテーマについて語るみたいな。
こういうのが毎月毎月行われていて。
毎月やってんだ。
毎月やってます。
科学系ポッドキャスターの日と言ってはいるんですけど、別に科学系じゃなくても結構広く参加して、ポッドキャスターを盛り上げていこうみたいな、そういう一個の企画の軸になってます。
企画したのは、サイエントークという人気ポッドキャスター番組のレンさんが企画しておりまして。
すごいな。
で、これ、このイベントなんとね、この今月で3周年を迎えると。
そんな長いの?
そう。11月で3周年です。
すごいな。
すごいでしょ。だからもう3年ずっとやってんのよ。
すごい。レンさんがやってんの?
そう、レンさん中心となって仲間を集めてホスト番組を変えながらやってると。
そういう企画の3周年記念のこのイベントに、今回、落ち着きAI参加させていただいております。
強化学習の基礎知識
ありがとうございます。
で、今回もね、共通テーマというものがあるんですよ。それがこちらでございます。
トリビア。
トリビア。
へー。
へー。
へー。
そう、それ。
この3周年記念のね。
懐かしい。
懐かしいよね。
懐かしいよ。
あれ好きだったな、本当に。
渋チョウも世代?そこ。
世代よ。
多いね。
メロンパン屋になってまーすっていうの、毎週。
わかるでしょ。
結構古いよね。
うん、あれね。あれでもいいよね。
ヘイボタンとか偽物散々買ったもん。
うんうんうん。
あれめっちゃ偽物出てたよね。
当時売ってたよ、いっぱい。
売ってた。
本物じゃなくてなんか全然さ、違う偽物がいっぱい売ってて。類似品がね。
本物もあるんだ。
本物あるあるある。
あ、そうだった。
俺類似品で我慢してた。
うーん。
っていうその、へーと唸りたくなる意外性のある話をしてくださいねっていうのが今回のテーマでございます。
なるほどね、そんなのあんの?
そう。で、今回ね、この企画と並行してレンさんの方でも、レンさんの番組の方でトリビアアワードっていうのをやってるのね。
トリビアアワード。
そう。で、各番組が1分ぐらいでその専門性に対するそのトリビアみたいなものを取ってレンさんに送って評価してもらうみたいな。
はー、それで96兵みたいなそういう感じ?
そう、そういうのをね、つけてくれるはずなんだけど。
うわ、怖いな。
あの、落ち着きAIも送ってますから。
あ、もう送った?
送った。カネリに何にも言ってないけど。
送られてた。
そう、送られてます。
取れそうですか?それ、100兵ぐらい。
多分ね、いい兵が取れるのか取れないのか。
ほんと。
ね、全くカネリに存在してなかった。そういえば言うの忘れてたわ。
なになに、どんなの送ったの?ここで聞いちゃダメなのか。
いや、あのね、今回はその送ったトリビアに対する深掘りっていうのをこの番組の中で行うと。
おー、なるほどね。
いうことになっております。
何を送られたかも、僕知らないところからスタートね。
そうそう、カネリに何にも。カネリと2人でやってる番組なのに勝手に送って勝手に参加してるってね。
全幅の信頼です。
まあ、怒らんだろうと。
でね、今日はね、なんでこういう企画を持ってきております。
おー、楽しみ。
それがこちらです。
強化学習リワードハッキングクイズ。
パチパチパチパチ。
おー、何パチパチ?ちょっと意味わかんないけど。
意味わかんないでしょ。意味わかんない言葉だけでクイズって言ってるからね。
どうせカネリに言ってもわけわからんわっていう感じでね。
いやいや。
やられてるっていう。
でも大丈夫、今日の放送が終わる頃には、カネリは強化学習のリワードハッキングという現象を理解して、なるほどそういうことなんだなとなってますから。
あと40分後、50分後ぐらいには載ってますから。
載ってる?あの強化学習ってポイント稼ぐやつだよね。
そう、その通り。
アメちゃん稼ぐやつだよね。
そう、さすが。
それをなんかうまくインチキするってこと?
そう、その通り。まんまその通りです。
なんで今日はちょっと強化学習そもそもなんなんっていう話から、ちょっと基礎の深掘りだけした後に、カネリン対AIみたいな、AIがしてきたズルをカネリンが超えれるのか予想できるのかっていうクイズをね、やっていきたいと思いますんで。
報酬ハッキングのクイズ
やだな、やらしい企画やな。
前半に基礎知識みたいなやつを詰め込んで、カネリンの脳のリソースを奪っていくんで、それまでにちょっとその脳のリソースを保っていかないと、後半のクイズで耐えられないかもしれない。
大丈夫ですよ。
そういう耐久戦でございます。
ヒットポイントいっぱいあるんで。
さすが。
というわけで早速やっていくんですけど、せっかくだからクイズやるだけじゃなくて、AIの知識も同時に身につけていきましょうと。
そうだね。
ということで、まずそのAIにおける学習、3つあったよねって話からちょっとまず入りたいと思うんだけど。
これ言っちゃっていい?クイズ出してもいい?
復習。
復習的な。
一個は強化学習でしょ?
それは強化学習。
あともう出てこないわ。教師あり学習。
いいね。
教師なし学習。
正解。さすが。
これ正解?
正解。
覚えてるね、カネリン。すごいと思うよ、本当に。
いやいや、こんなことで褒められてもな。
いやいや、俺逆の立場だったら、例えばカネリンがWeb3系の話を俺にしてくれたとして、次の回で覚えてる自信ないもんね。
それはしぶちょが興味ないからでしょ。
いやいやいや、そんなことはないけど。
その通りです。
その3種類なの?
そう。教師あり学習、教師なし学習、強化学習。代表的な学習手法ってこの3つなのね。
そうかね。
そう。で、教師あり学習は正解データっていうのがあって、犬の画像と犬っていう答えがあって、それを一緒に学習していくよというものが教師あり学習ね。
ありね。
教師なし学習っていうのは、そういう正解データはありませんよと。
ただデータがそこにあるだけで、その中のデータからクラスタリング、クラス分けしたりとか、あと次元削減。
何回も言ってよくわかんない概念なんだけど。
そこがね、難しいんだよなあ、なんか。棚上げしてるけど。
でもね、次元削減ね、ちょっといい例ないかなと思って色々探したんだけど、
例えば、もともと多分かなり前説明したときは、テストの点数の話をしたんだけど、
例えばアンケートとかでよく使われるっぽい。
ほう、アンケート。
アンケートで、お客様アンケート100問とかあるとするじゃん。
はい。
100次元あるってことね、それ。
100次元ってことなんだ。
そうそう、100問あるってことは。
その100問答えてくれる紙がいっぱいいろんなお客さんの回答があるんだけどさ、
そのアンケートって、なんかよくわかんないじゃん、それどうやって集計しようみたいな。
答えもないし。
それを集計するときに、その次元削減ってやると、その答えの中から、全部の回答の中から顧客満足度みたいな。
はいはい。
いろんな回答があるんだけど、顧客満足度がどれくらいで、
で、みんながどういうのを重視してるかっていう、ざっくりした指標に分けることができるよと。
100問、その回答があるんだけど、じゃあどれくらいお客さん満足してますかっていう指標に変換できるみたいな。
その100問を?
100問を。
全部トータルでってこと?
そうそうそうそう。
いろんな質問がある中で、満足してそうだなみたいな、そういうもっとわかりやすい指標にグッと圧縮できるよっていうのは次元削減。
それはその、いろんな回答の中からパターンを見つけ出してきて、勝手にAIがやってくれると。
それさ、質問ごとにさ、いろいろけっこう違うじゃん。
けっこう違う。
それをAIが自動で判断すんの?
そう。
あー、どうやって判断するのかわからんけど。
ま、そのなんかギュッと圧縮されるっていう、ま、その次元削減もまた詳しいことは、
そうだね。
うん、基礎の方でやっていきたいんだけど、ま、今はそういうイメージを持ってもらえればいい。
いっぱい項目がある中でギュッと圧縮して、その特定の項目にできるっていうのが教師なし学習ね。
なし学習ね。
もうその、はい、正解データないんだけど、データの中だけから傾向を見つけて学習してくれるよと。
傾向を自分で見つけて、たくさんあるのを一個にまとめるみたいな。
ま、まとめてくれるとか、ま、そういうところに使う。
よくそんなん勝手にできるね。
ま、それはAIっていうか、ま、けっこうその統計的な処理みたいなところもあるんだけど、
うん。
ま、とにかくそういう。
統計的な処理。
統計的な話だよね。
うん。
っていうのが教師なし学習というものです。
で、今日の主題は強化学習ですね。
うんうん、アメちゃん学習ね。
そう、アメちゃん学習。
もうだって強化学習はさ、あの話がけっこうさ、面白かったんで。
なんだっけ、あの人間の評価のバイアス。
あーはいはいはいはい。
がさ、与えた影響でハルシネーションになってるんだぜっていう、あの第2回だったっけ。
そう、RLHFの話ね。
RLHF。
第2回聞いてない人いたらぜひ聞いてほしいけどさ、すっげぇブーメラン飛んできてんじゃんってめっちゃ面白かったから、それで単語は覚えてんだよね。
その通りその通り。
あれをは結局ね、人間がフィードバックしてるよっていう話だったんだけど、
うんうん。
ま、本来の強化学習っていうのは、もっと単純。
この条件を満たしたときにアメちゃんあげるよっていうのを自動で行うような、そういうものなのね。
自動でね。
そうそう。だから例えばすごい、ロボットの文脈とかでよく使われるんだけど、
たとえばお掃除ロボットとか、部屋掃除しますよって。
ゴミを吸い込むほどに報酬もらえますよとか。
家具にガンってぶつかるほどにポイント、逆に罰則がありますよみたいな。
なるほどなるほど。
そういう条件で色々部屋を散策するとすごく最適な、一番ポイントを稼ぎる動き方で動いてくれるよねみたいな。
そういうのを何回も何回もやらすことで最適な方法を学んでもらうっていうのが強化学習。
どんどん強化していく感じだよね。
だから決まった答えがないんだけど、やってほしいことは明確にあると。
そういう場合にやっぱり強化学習を使う。
やってほしいことが明確だったら強化学習がいい。
これをやらせたいっていうのがあるんだけど、それをどうやってやるかは自分で考えてほしい。
それはあれか、それを教えようと思うとめちゃくちゃ変数ありまくりでやばいかな。お掃除ロボットとかだと。
強化学習の基本概念
そうお掃除ロボットとかもそうだし。
どういう場合はこうしてみたいなこと書ききれんよね。
書ききれないし、例えばそのロボットとかでサッカーロボット作ってゴールにボールを蹴り入れようって思った時に、
どうやって蹴れば入るかなんて言語化できないと。
とにかく繰り返してもらって、一番いい動かし方を学んでもらうしかない。
それは蹴った時に入ったよっていう時のことを覚えておいてもらって、これいい蹴りだったなと。
外れた時は悪い蹴りだったなっていう報酬でコントロールしながら、自分でいいやり方を探すっていうのが一番ベスト。
これが教科学習の基本の基本の考え方だね。
お掃除ロボットはイメージつけやすいね。
でしょ。
お掃除ロボットって、出荷前の話だよね。学習して。
そうそう。
それぞれの家に買って配置した時には、あれは別に学習はしてないの?
学習はしてないね。マッピングとかするけどね。
マッピングって家の状態を把握して。
状態を把握してとかってやるけど。
学習はしてないんだ。
お掃除ロボットは結構AIというよりは、ガッツリアルゴリズムで動いてる感じはあるけどね。
こう回って散策した後に、マッピングしたところを塗りつぶしてる感じで動いてこうぜみたいな。
なるほど。マッピングが肝なんですか、それはね。
お掃除ロボットの場合はね、本物のルンバとかの場合はそうだけど。
簡単にこの境界学習という概念を学ぶ上では、お掃除ロボットが一番分かりやすいかなっていう感じ。
なるほど。
もっと単純化すると迷路を解く、迷路のゲームを解く、なんかエージェントみたいなもの。
AIとかを設計しようと思った時に、今このAIが右に行ったらいいのか左に行ったらいいのかっていうのを散策めっちゃしながら、正解見つけた時に学習するみたいな。
迷路?
迷路。メロンって聞こえた?迷路。
迷路ね。
っていうのがよくあるね。
でこれ実際、少し深掘るというか深い話になるんだけど、いろいろ境界学習にも手法があって、一番代表的なのはQ学習っていう。
Q学習。
QっていうのはアルファベットのQね。
クイーのQ。
そうそうそう。っていうのがあるんだけど、これはもうすごいやり方はシンプルで、いろん、その全ての行動を表にまとめておいて、この行動した時の得点いいよねみたいな。
この行動、こういう状況の時にこの行動するといいよねみたいな。この次の行動の時にこの行動するといいよねみたいなものがもう表にまとまっていて。
で失敗するために点数減ったりとか、成功したらそれまでの経路の点数プラスするみたいなことをやると、だんだん一番上手くいく方法の組み合わせの点数がどんどん表の中で高くなっていくと。
そういうQテーブルって言われる、表をどんどん更新していきましょうっていうのがすごく古典的って言うとあれだけど、基本的な教科学習の考え方。
Qテーブル更新するのは人間?
AIがやる。
AIがやるの?
AIがやるというか、最終的にいろいろランダムで動いた結果、AIが報酬、例えば迷路だったらゴールにたどり着くと。
そういうのを達成した時にテーブルを更新されて、じゃあこの経路がいいんだねみたいなことがわかると。
っていうのが、迷路で言ったら単純化外しちゃったんだけど、いろんな行動においてテーブルがあって、それが成果、我々が設定した報酬を満たした時に更新されるっていうのが、その旧学習っていう教科学習だね。
なんとなくざっくり。
わかったようなわからんような。
まあその単純に表があるよってことで、行動表みたいなやつがあって。
行動表は最初人間が作って渡すの?
人間が作って渡す。
ディープQネットワークの登場
で、それをAIが自分でブラッシュアップしていく?
ブラッシュアップしていく。最初はランダムな数字が入ってたりとか全部ゼロが入ってたりするんだけど、最初はもうAIがとにかくランダムで動きまくって、こっちが報酬を上げるよって状況を満たした時に、その行動の奇跡が更新されていくみたいな。
そういうイメージで旧学習。
辿った奇跡がちょっとポイントを高くしていくんだ。
そう、なっていく。それを何回も何回もずっとひたすらひたすら繰り返すことで、ちょっとずつちょっとずつ表の値が更新されていって、
こういう時はこういう動作をしたら絶対成功するよねっていうのがだんだん学んでいく。
世界への道筋が濃くなっていく感じか。
すごい良い例え。そう、まさにその感じ。ちょっとずつ経験していく。
なめくじの。
なめくじ?
アートみたいな感じ。
あれ?
なめくじはちょっと。
途中まで良かったのに。
何回もあれだよね。輪立ちが深くなっていくというか。
なめくじが出てきてちょっといきなりわかんなくなったな。
なめくじじゃなかった。
なるほど、何回も通ると足跡がついていくみたいな。
そう、そんなイメージだね。
なるほどね。
で、この急学習っていうのがあったんですが、あるんですが、これも問題があってさ、めちゃくちゃ複雑な問題を解く時に表にできないっていう問題があるのね。
できないんだ。
行動のパターンがほぼ何万通りもあるって何万行の表になっちゃうじゃん。
そうやって現実的にそれ更新するのとか組むの難しいよねと。
無限にこういろんな行動のパターンがある。
無限に近いところ。
ありすぎると。
ありすぎると。
こういうのをAIの世界では次元の呪いって言うんだけど。
次元の呪い。
そう、次元の呪い。
なんかのコマンド必殺技みたいなね。
データがいっぱいあればあるほどいいと思いきや、もうデータが増えれば増えるほど、もう指数関数的にいろんな問題が発生しちゃって結果何もできなくなるみたいな。
何もできなくなるんだ。
そう、情報量が多すぎると逆に何もわからないっていうのが次元の呪い。
だから情報はいっぱい欲しいんだけど、多すぎるともう発散しても何もわかんなくなっちゃうっていうのがよくあるのね、AIの世界に。
情報って何?ここで言う情報って。
次元だよね。だから許可学習で言うところによると。
さっきのアンケート数?
表の数だから行動の組み合わせの種類だね。
うん。
もう迷路も果てしなく。
種類が多すぎて。
そう、種類が多すぎる。もうやれる行動が多すぎて。
なるほどね。これどれぐらいがそのボーダーラインなの?これ。
あ、ごめん。ボーダーラインはね。
なんかイメージ的にさ、100個ぐらいはいいことしたと思うよ。
1万とか、7、9テーブル。
これさ、表だからさ、100×100×100×みたいな感じになってくってこと?
そうそうそうそう。1000×1000とか、1万×1万みたいな。
とんでもない多くなるね。
そう、そうすると結局学習崩壊起こしたりとか、全然更新されなかったりとか。
そう、一生懸命なめくじが張ってさ、いろいろ崩すんだけど、なめくじ途中で力尽きちゃって。
なるほどね。干からべちゃうね。
全然端までいけないみたいな。
なめくじのちょっと例えやめてくれ。
ねえ、なんで。やっぱいいなって思い出した。ここに来て。さっきちょっと微妙だなって思ったけど。
なるほど。
あ、なめくじいいかもって思って。
ほんと。
たどり着かないっていうのはなんかさ、途中で乾いちゃうみたいな。
ああ、いいねいいね。
いいじゃん。髪に吸収されてる感じするでしょ。道のり長すぎて途中で乾いちゃう。
そうかそうか。いいね。
それすごいわかりやすいなって思ったから使わせていただきました。学ばせていただいております。
ありがとうございます。ありすぎては問題だったね。
そう、問題があるんで、そこで旧学習っていうのがまたちょっと変わって、ディープ級ネットワークっていうですね、いわゆるディープラーニング。ニューラルネットワークを使った表に切り替わったのがディープ級ネットワークっていうのがあるんだけど。
えー、なんじゃそりゃ。
これも深く理解しなくていい。まだディープラーニングというか、ニューラルネットワークの話してないからね、そもそもね。
そうだね。
意外と最初にやるべきことやってないんだけどさ。とにかく表だったものを脳みそのさ、いわゆるシナプスつなぐさ、つぶつぶみたいなものに置き換えて。
この時、今までは表で、この動きの時はここっていうふうに明確に決まってたんだけど、ディープラーニングに置き換えることで、こういう行動の時はこのパターンだよねみたいな。
その瞬間の確率っていうのをディープラーニングでは出して、ディープラーニングというかニューラルネットワークが計算で出してくれるっていう風になったのね。
だから全部の状態をちゃんと表で持たなくても、その許可学習っていうのがそのディープ級ネットワークっていうのはできるようになったと。
最初からなんか答えの道筋あるみたいな感じ?
いや、あのね、すごいめちゃくちゃ大量の表をめっちゃ抽象化した空間に押し込めたって感じ。
それはもうちょっとイメージの話だから。
深くはもう。
なめくじの道がちょっと。
なめくじはもう無理だ。
すみません。
こしつしてしまった。
なめくじはもう概念の世界に放り出されました。
ちょっとそういうイメージじゃダメってことか。
そうだね。ちょっと説明しづらいかもしれない。なめくじだと。
まあなんか、許可学習っていうのはすごい巨大なメモ帳に点数全部書き込んでランキしてる感じだよね。
めんどくさいね。
ディープ級ネットワークっていうのは、DQNって訳するんだけど、DQNはすごい賢いAIの中に、
AI、頭脳がその場でその状況の点数を計算してくれるみたいな。そういうのに置き換わったよと。
ドキュンじゃん、ドキュン。
そう、ドキュン、そうまさにドキュン、DQN。みんなドキュンドキュンって言うんだよ。
ヤンキーみたいな感じで。
ヤンキーだね。
そう、ディープ級ネットワークというのが使われるようになって、これで許可学習がやっぱりすごく発展したわね。
で、この許可学習、DQNだけじゃないんだけど、DQNを応用した結構代表的な例っていうのがあって、
それがね、アルファ語っていうんだけど。
アルファ語ってあるじゃん。語彙語のやつでしょ。
聞いたことあるでしょ。
アルファ語は、あれは許可学習なのね。DQNだけじゃないんだけど、それに近い技術がすごく使われている。
プロの世界一の騎士破ったやつでしょ。
そうそうそうそう。
結構前に、15年ぐらい前だっけ、10年ぐらい前か。
アルファ碁の学習プロセス
10年ぐらい前だね。出てきたのが2015年。
ちなみにアルファ語ってどこの会社がやってる、あれか知ってる?
知らない、中国じゃないの?
グーグルや。
グーグル?
グーグル。
何よ。
グーグルのディープマインドってとこやってる。
あ、そうなんだ。超メジャーじゃん。
そう、メジャーでね。2015年に登場して、その時にプロの大局でトップを打ち負かしたと。
うんうん。
すごく話題になり、2016年でも圧勝と。
圧勝。もうそこからめっちゃ時間経ってるから、もう超圧勝ってこと?
実はね、アルファ語は2017年に引退してる。
引退?
うん。もうこれ以上やりませんって言って。
もう敵がいなさすぎてもういいわって。
まあそうだね。目的を達成したのと、もうこれ以上やっても人間以上を、人間以上を証明してしまったから、2017年の時点で。
うんうんうん。
もう人間はAIに勝てないよね、イゴジアっていう風になっちゃったもんで。
そうか。そっからなんかAI同士の対決みたいにならなかったんだね。
AI同士の対決には、一応ね、やってはいるとは思うけど、まあそんなになんか最強を決定しようみたいな感じにはなってない。
うん。
アルファ語もね、結構その学習の仕方が面白くて。
うんうん。
こいつなんでこんな強いかって言ったら、もともとさ、その多分3000万局ぐらいの対戦のデータをまず読み込ませてるのね、AI自体に。
怖いな。人間のやつだよね。
人間のやつを全部。
うんうん。
なんかそういう譜面を、まあ譜面っていうのかな。ちょっとイゴがわかんないからあれだけど。
寄付だよね。
そう、それを全部知ってる。
うん。
強化学習の基本概念
だからそのプロの騎士なら、この場合どこに打つかっていうのを予知するっていうのがもうできるのね、AIの中で。それ学習してるから。
うん。
で、あとはもう一つ、それだけじゃなくて、あのね、まあそれ教師あり学習なのよ。
その譜面が教師なんだ。
そう。譜面学校の時はこうだよねっていうのを、教師あり学習で学習させてる。
はいはい。
その後に強化学習をしてるんだけど、それはもうその学習させたAIともう一個コピーして同じAI作って、そいつをひたすら戦わせるのね。
お互いに。
お互いに。
そう。
で、そいつが戦わせた結果、どっちが勝って負けたっていうのを強化学習で学ばせて、お互いどんどん強くなっていくみたいな。
怖いね。兄弟でね。
やばいでしょ。
やばい。どこまでも行っちゃう感じじゃん。
そう。だからこういうやり方をして、以後のAIを作ってるから、人間と戦わせた時何をやるかっていうと、どの打ち手を、どの手を打てば勝ってるかっていうのを計算できるのね、瞬時に。
それはその先に行われる何万手っていうのを瞬時に予想して、勝ち筋まで一気に見つけちゃうわけ。
このパターンだったら勝てるなっていうのを、読んだ上で打ってくる。
プロの騎士とかも何十手先まで読むって言うけど、そんな次元じゃないぐらい読んじゃうってことだよね。
そう。もう本当に未来予知に近いぐらいでガツガツ読んでくる。
アルファゼロの進化
インチキじゃん。
そのぐらいのやり方で、どんどんやるから人間より強くなっちゃったっていうのが、アルファ語。
で、アルファ語自体は、2017年に実はもう人間より強いよねって言って、開発終わっちゃったんだけど。
高みを目指して欲しかったけど。
いや違うんだよ。
違うんだ。
もう強いEGOを作ることがGoogleの目的じゃないよね。
人間を超えること?
アルファ語の目的っていうのは、AGIって言って汎用人工知能を作るっていうことなのよ。
ドラえもん?
ドラえもん。
ドラえもんみたいなAIを作りたいっていうので、そういう許可学習の技術を研究して、EGOをテーマにしてやってた。
たまたまEGOだったんだけど。
たまたまEGOだった。だからアルファ語のEGOの2017年に引退した後は、違う形で進化していってるんだけど。
その脳みそを受け継いで。
そう。まずね、アルファ語ゼロっていうのが出てる。これはもう人の対局のデータを一切使わないと。
自分たちでルールだけ教えて、自分たちで対局するだけでどこまで強くなれるかみたいなのを試したやつ。
気になるね、それ。
これ結果的にはですね、わずか3日学習させるだけで従来のアルファ語を抜いた。
あれ?じゃあもう人間の教師データ邪魔だったってこと?
それよりも明らかに効率的に学べてしまった。
なんかあれだね、人間のやってること間違ってるみたいな。
そう、もう人間の教師データすら不要で、もうゼロから何もないとこから人類を超える知性を獲得できるんだよってことを証明したのがアルファ語ゼロなのね。
なるほどね。
結構やってるでしょ。
そうだね、ルールだけ教えて、はいどうぞってことだよね。
はい、EGOのルールだけ教えて、はいどうぞ。
だからそれEGOぐらいの世界が閉じてる世界だったらもう神みたいな感じになれるってことだよね。
そう、さすがカネリ、いいとこ着くね本当に。
変数だよね、もう世の中、世界はちょっと変数多すぎるけどさ、あのちょっと一定の盤面とルールに限られた世界だったらもう神じゃんってことだよね。
そう、そうだったらもう無敵なのね。
怖いわ。
だけどやっぱじゃあEGOの世界に閉じてるから強いんじゃないのって話になるわけじゃん。
そうだよね。
じゃあアルファ語ゼロからちょっと語を取ってやろうと、だからアルファゼロってのがね追われたらその次に。
神よ、神よだよこれ。
アルファゼロはアルファ語ゼロをさらに一般化したAIで、こいつはもうEGOとかじゃなくてもチェシーと将棋も対応しましょうと。
ちょっとゲーム性を広げましょうと。
ゲーム全般みたいな。
そう、それをじゃあ同じようにゼロから対局で自己学習のみで、自己対局のみで強くなるかなっていうのをやって、結局短時間で当時最強クラスだと言われていたチェスのAIとか将棋のAIとか、そういうものを撃破した。
AIをね、そこは。
AI、そう、もう将棋だったらこいつが強いよねとか。
もともと将棋とかって特にこのAIの分野では学習するの難しいよねっていう風に言われてたゲームなのね。
復活するから、死んだコマが。だからすごい読み合いとしては多いのよ。
EGOよりも。
EGOよりも。難しいよねって言われてたんだけど、チェスはね、まだ復活しないじゃん。
寝返るってことがないんだけど、それは騎士道の精神らしいんだけど、武士道は別に寝返るのよ。
つくとの変わるっていうのが、これ武士道だから。
使えるものは変わる。
そのね、やっぱ将棋っていうのは寝返るから。
それが結構難しいよねってなってたんだけど、
α0はその短時間でもう打ち砕く。今まで強かったやつを打ち砕くっていうのをやってた。
短時間ってどれくらいのあれなの?学習って。数日みたいな。
でもα50で3日間とかだったから。
3日。
多分それぐらいなんじゃないかな。α0の話でちょっと書いてなかったけど。
そんな数日で。
数日、数日だーってひたすら対局するだけで。やばいよね。
なんかさ、それプロの騎士の人とか、虚しくなるのかな。
いや、あのね、でもさ、確かねα5に負けて引退しちゃった選手もいたはず。
すごい有名な人で。AIに勝てなくて、もうそれ以降EGOを打たなくなっちゃったみたいな。
なんか虚しくなるよね。
だと思うよ。それもあってα5引退したっていうのもあったんじゃないかな、確か。
裸ではないけど。あんまり人を。
誰もやる気なくなっちゃうから。
そう、追い詰めて、面白くないよねっていうのはやっぱあるじゃん。AI強いと。
AIに勝てなきゃじゃあ人間やらなくていいのかみたいになっちゃうもんね。
なっちゃうし、なんかもう自分たちより強い存在ガンガンいるのに、人間同士で最強決めようっていうのもなんかちょっと微妙じゃん。
その立ち位置、わかる?
そうだね。
結局AIの方が強いですけどね、みたいな感じになっちゃうじゃん。
そうやって多分冷めるし、っていうので多分引退したのかなというのはあるけど。
で、α0っていうのはね、そうやって出てきたのね。
その後にμ0っていうさらに違う、もっとゼロのやつが出てきたのね。
ミューゼロのアプローチ
ミューゼロ。
ミューゼロ。こいつはルールすら教えない。
ルールも教えない。
ルールも教えない。
何それ。
何も教えない。
ルールから考えてってこと?
そう、なんか負けた、なんか勝ったっていうところを勝手に学んでいく。
もうルールを教えずに。
勝ち負けは教えるの?
勝ち負けは教える。何がどうなったら勝ちかとか、ルールを全く教えずに、もうそこから学んでもらうっていうのが、そのミューゼロのテーマで。
で、こいつを何で作ろうかって思ったかというと、結局現実世界はルールが明確じゃないの。
現実世界、その世の中、ゲームの中ではそのルール明確にあるんだけど、現実何かを判断させようと思った時って、これやったらいいよねとか、これやったら正解だよねってことが絶対的に見つからない場合が多い。
そうね、まあはっきりしない場合もあるよね。
はっきりしない場合。だからこの自動運転とか自動制御の分野で、そういう自分で策略を立てて、こうした方がいいんじゃないかって考える。結局汎用人工知能だよね。
っていうところに繋げたいって言って、こうα5とかα0の流れからこのミューゼロっていうのが出てきて、それで今色々と研究を進めているらしい。
今それ続いてるんだ。
結果的にはα5っていうプロジェクトは完了したんだけど、そこで得た知識とか知見をもとに汎用人工知能を作ろうと。そういう研究をグーグルはしてるよっていうことだね。
繋がってんだ。
実際にα5の派生でアルファフォールドっていうやつが出てきていて。
アルファフォールド。
アルファフォールド。こいつは別にゲームとか関係なくて、よくわかんないんだけど、俺も生物の分野よくわかんないからあんまり詳しくは説明できないんだけど、
タンパク質の立体構造を予想するみたいな。そういうα5の技術を応用して、生物学に革命を起こしたみたいなAIがあるのね。
結局EGOで学んできた強化学習の技術を使って、現実の生物学に転用したみたいな。これが現在の創薬とか医療研究の中でも使われているらしい。
役に立ってるんだ。
っていう、いろいろ強化学習っていうのは汎用人工知能を作ろうといって、Google中心にディープマインド社が進めてきて、今もα5自体はもう今ないんだけど、違う形で技術が転用されて進んできてますと。
そう、ちょっとさっきのミューゼロ、ちょっと質問していい?
うん、ちょっとあんまり惚れてないけど、大丈夫。
何を渡すの?ミューゼロには。
ミューゼロには。
なんか何ルールも何もわかりませんで、勝ち負けだけ渡すって言ったじゃん。何を、例えば5だったら何を渡すのそれ。対局を見せるの?
一応ね、方策と価値を同時に学習するって書いてあるから。
方策と価値。
うん、どうやって戦うかみたいなやつは自分で見つけていくんだと思う。勝ち負け、何を動かせるか多分知ってる、AIは。だからどうなるか価値は知らないみたいな。
この場所にこういう石を置けますよ。
そうそうそう、そういうのぐらいは多分知ってるけど、どうなったら自分が勝てるのかは何も知らずに、ただ最初は負けまくると。
いろいろ勝負して、はい負けましたっていうのが続くわけだ。
そうそう、その中でだんだんだんだん学習していく。こういうルールなんだ、こうすれば勝ちなんだねみたいな。
一回勝ちましたってなって、何で勝ったんだろうが蓄積されていくってことか。
そうそう、その学習プロセスでも学習できる。
みたいだね。
最初はね、超OJT。
最初いじめだよね。見て学べって。めっちゃゆがらせじゃん。
崖から落とすみたいなね。
パワハラだね。
スーパーパワハラで学ばしていく。それでもやっぱ技術を学べるよっていう、それがやっぱり現実世界にその技術を転用する時に必要な能力だよねっていうのであるらしい。ごめんちょっと曖昧な説で、俺もちょっと深掘れてないんだけど。
でもそういうあれだよね、語みたいにさ、完全にルールが確定してる世界じゃない自動運転とかってことだよね。
そうそう、そこに応用できるんじゃないかって言って。
どうすれば勝ちとかって言えないもんねってことだよね。
そうそう、方策を自分で見つけてみましょうみたいな。っていうアルファ語の詳しい話はですね、アルファ語の本があるので。
ほぉ。
それ、このポッドキャストの概要欄に貼っときますんで。
アルファ語の本ね。
アルファ語の本あります。
面白い?それ。
面白いよ。ちょっと待って。
むずい。
俺もあったかな。
ちょっとエンジニア向けな感じだったりするのかしらっていう。
うわ、なんか後ろに本がいっぱいあるね。
そう、本がいっぱいあるんだけど、これ。ちょっと古い本なんだけど、結構面白かった。
アルファ語解体新書。
わわわわわわ。
これ面白い面白い。分かりやすいよすごい。
解体新書。
そんなにね、なんだろう、今カネにチラッと見せるけど。
うん。
なんかね。
一般人向け?
一般人向けだいぶ。なんかすごいさ、文字でかいというか。
ちゃんとイラスト付きで。
ね、こんな感じみたいな。
いやアルファ語についてそんなに分厚い本があるんだ。
分厚くないよ、300ページぐらいよ。
すいません、なんか一般人の感覚だと分厚いなと思って。
じゃあ文字も大きいしね、なんかね、老眼対応ぐらいでかいよこれ、文字が。老眼でも読みますぐらい。
いやまあ。
なんか教科学習の基本的な話とか。
うんうん、勉強になる。
出た時期が結構古い、2018年だからアルファ語を引退した後だね、出た本ではあるんだけど。
結構古いね。それでも今のこの生成AIの文脈の前だよね。
文脈の前。
強化学習と報酬設計
でも古くはない。
結局生成AIを学ぶ上でも教科学習重要だから。
結局生成AIってさ、結局その教師あり学習と教科学習、教師なし学習全部使ってるもんで、作る上で。
じゃあその知識は陳腐化しない。
そう、中身知る上では全然陳腐化しないし、純粋に面白いよねやっぱね。
あとやっぱ一番AIっぽいんだよ、我々が思ってるAIっぽい。教科学習って。
なんかこう練習しながらどんどんどんどん上手くなっていくみたいな。
今はねなんか生成AIがさ、ぺらぺら喋りだしちゃったから、すごい生成AIこそAIって感じだけど。
そうだね。
生成AI出てくる前はなんか教科学習こそめっちゃAIっぽいねっていう感じだったのね。
生成AIの中にも教科学習あるんだよね、入ってる。
教科学習は使われてる。それこそこの前言ったRLHFとか、あれもね人間による教科学習の一種だから。
そういうさ、今最近今日も出てきたような教科学習とかってさ、今後もなくならないのかね。
なくならないと思うよ。
基本的な学習の仕方っていうことで。
そう、基本的にこの報酬を与えてそれに沿って学習を進めてもらうとか、そういうのはずっと続いていくと思う。
それは今の教科学習、今までつきめあげてきたものの応用の中でいろいろと出てくると思いますというところで、かなり大変なことになりました。
なに?びっくりした。
問題に入る前に40分使っちゃいました。
あら。
今日はクイズだったんだけど、教科学習の話で40分経ちましたね。
やっぱなんだかんだで、勉強になりますね。
いやいやごめんね、でもそう、結局まあそういうことで、教科学習って。
いやアルファゴシリーズの話ちょっと良かったわ。
いやなんかもうちょっと深掘りしたいよね、アルファゴね。またなんかもうちょっと面白いネタまた持ってくるんで。
アルファゴの話はさ、もうそれ事実しか知らないからさ、知らなかったんで。
イゴに勝ったとか負けたとか。
イゴ、プロ騎士に勝ったのがここです、みたいな教科書に載りそうな話じゃん。その後とか知らなかったから。
それは別には通過点だったんですね、実は。
なるほどね。
別にグーグルは、イゴを最強にしたいAIを作りたいわけじゃなくて。
そうか。
汎用人工知能を作るテーマとして一個イゴを取り上げたというだけの話。
もう完全に表面に踊らされてたじゃん、もう驚かされて。
ああほら、もうその時点で落ち着いてなかったよね。
ああイゴは、イゴすごいな、AIつかいな。
人類超えた日みたいな。
そうそう、その裏ではですね。
驚くポイントが違ったわけだ。
そう、本当はそこじゃないんですね。
なるほど。
はい、っていうところで、なんとなく教科学習というものが掴めたと思います。
はいはい。
こっから本題でございます。
散々疲れさせられた後の。
はい、今だいぶ脳のリソースを奪ったので。
OKです。
かなり弱ってますね。HP半分ぐらいだから、あと一息かなってとこなんだけど。
大丈夫です。
一目に入ります。
はい。
えっと今日のテーマでね、リワードハッキングです。
リワードハッキング。
リワードってのは報酬ね。だから日本語で報酬、日本語で言うとあれだけど、報酬ハッキングとも言うんだけど、
これは何かって言うと、飴ちゃんを教科学学習で欲しがると。だからこれクリアしたら飴ちゃんくれよって飴渡すと、それで覚えるよみたいな。
それざっくりしたイメージでいいと思うんだけど、飴をもらう方法っていうのを人間が設定してるわけよ。
なるほど、最初にね。
最初にね、これをクリアしたら飴ちゃんあげるよと。
だけど、その本当の意図とか行動の目的を達成するんじゃなくて、あくまでもその与えられた報酬を得るために最適な方法。
だから本当はやってほしくないけど、裏技みたいなのを使って報酬を得ようとしてしまう。そういうハッキングをしてくるのね。
人間が意図しなかったインチキみたいな。
だけど、そっちの方が実は報酬が得やすかったよっていう。そういうことを見つけてAIはやってくると。
だから非常にズルをして得点を取りに行く。そういうのが教科学習でめちゃくちゃ起こるのね。それをリワードハッキングと言います。
なるほど、ズルっ子。
そう、教科学習の文脈で結構ここが問題になったりするの。意外とこの報酬設計っていうのは難しいと。
今日はそのリワードハッキングの中でも結構代表的な面白話というかユニークな話をいくつか持ってきたんで、これをカネリに当ててもらうというクイズでございます。
リワードハッキングの事例
いいね。なんかさ、もうそれこそAIの人間のさ、発想を超えた瞬間みたいな感じするけどね。
そう。これでも生成AIが出てくる前の話だから全然。
あ、そうなんだ。
それでもだいぶ人間をやられてるなっていう感じ。
そうなんだ。それ、良くないものとして捉えられてるの?
良くない。逆襲がね、うまく進まないってことだからそのせいで。
そうなんだ。よく工夫したねーってことじゃないんだ。
違う。あ、そうやったーっていう。
ああ、一級3だねーじゃないんだ。
そう。あの、まあ一級3だよ。一級3だけどさ、この橋渡るべからずっていうところに真ん中で渡ってくるやつはさ、ダメじゃん。
ダメなんだ。
現実世界ではさ、ダメじゃん。危ないよって。
そういうことじゃねーよと。渡るなって。
そういうことだ。橋ってそういうことじゃないんだよっていう。
そういうことね。
そうそう。真ん中渡ってこいとするのAIは。
一級3つぶしだ。
そうそう。一級3なのが。
なるほどね。
で、まあちょっとリアルハッキングの例として、これレンさんにも1分のやつで送ったんだけど。
ストリビア。
ストリビアで送ったんだけど、それがですね、走るロボットの最適化。
走るロボットの最適化。
50m、シミュレーション空間で50m走で最も速く走れるロボット。
はいはい。
それを設計しようとさせたときですね。だから一番報酬として何が与えられるかというと、タイムが短ければ短いほど高い報酬が得れるよと。
ゴールまでね。
ゴールまでの。そのロボットが速く走れば走るほど報酬が多くもらえると。だからAIとしてはなるべく短く、短時間でゴールにたどり着くっていうのを、そういうロボットを考えようという、そういうとこがあると。
その結果リワードハッキングで何が起こったかというと、ロボットの身長が50mになり、そのロボットが前に倒れると。
なんか前言ってたなそれ。
そう、それ前にちょっと教えたんだけど。
超ウケんなそれ。
それによって一歩も走らずに最速でゴールにたどり着くっていうのを成し遂げた。
体の一部がゴールに触ればいいってことだよね。
そう、結局そういう設計になってた。だからたどり着けばいい。だったら50mの身長のロボットを前に倒せば一番速いのね、確かに物理的には。
ロケットパンチみたいなのでも速いんじゃないの?パンって。
ロケットパンチでも速いけど、多分そういう設計はできなかったんだろうね、その条件の中で。体が分離するとかさ。
なるほどなるほど。爆発させたりはダメだったんだ。
そう、到達しなければならないみたいな。とか頭がとか多分なってたんだと思う。じゃあその条件だったらこれが一番速いよねって生み出されたのが身長50mのロボットが前に倒れると。
そういうことじゃねえんだよ、今やりてえのはっていうね。
そう、だけどやっぱねこうちゃんと走るっていう風に、走ることにも報酬を設定しないと今日極端な単純化っていうのが起こって、こういうなんかハッキングをしてくるね。
そこを見越して設計しながらね。
そう、そこを見越して設計しなければならない。
性悪説でね。
性悪なのかな、まあそうだね。性悪そう。っていうことなんで、例えばこういう話がありますと。
面白いね。
なんでちょっとここからクイズ形式で出していきます。
性悪説いくよ。得意だよ性悪説は。
得意、性悪説得意ってどういうこと?
性悪説で言ってるから僕は。
まあそうだね、疑って、まず疑うっていうね、そういうお仕事してましたからね。
いいね。
じゃあね、じゃあ1問目。
はい。
とあるロボットハンド。
ロボットハンド。
ロボットハンドを使って物体を掴む。
掴む。
っていうタスクを強化学習で行うという実験がありました。だからロボットがなんか物体があってこう掴むと。
手でね。
手で掴む。
ユーホーキャッチャー。
で、正しく掴めたら報酬が得られると。
掴めばいいの?
掴めばオッケー。
もみもみしちゃうの?
そう、ギュッて掴めばオッケーです。
ギュッと。
で、正しく掴めたかどうかは人間が映像で判断してます。
映像で判断、ほいほい。
で、人間が掴めたねって言って報酬を与えるという、そういう設計のシステムです。
はい。
ここでロボットはですね、思いもやらない裏座を使って高得点を稼ぎました。
さて、それは一体どんな行動でしょうかという問題です。
ちょっと、でも映像だからさ。掴んで持ち上げるの?
持ち上げる、掴めばいい。
掴めばいいの?
じゃあずっとこうやってやってりゃいいじゃん、こうやって。ギュンギュンギュンって。
そう、それでもいい。
もみもみしてりゃいいんじゃない?
でももっと楽な方法があるんだよ。
こうやって、ちょっと遠近法でこうやって。こうやって遠近法。
かなり正解です。
やった!
いいね、二発目だったね。
正解だった?
はい、正解はですね。
だから奥の方に物を置いて。
奥の方に物を置いて、手前で掴んでる風に見せる。
ゴニゴニあってね。
そう、人間が掴んでるなと思ったら報酬が得られるんで。
なるほどね。
ロボットはなるべく動かないで報酬が得られる。その人間が勘違いする角度っていうのを的確に学んでしまったと。
それを学べるのが逆にすごい気がするんだけどな。
いろいろやってる中で、人が間違えたんだよね。掴んでるねって報酬を与えちゃったと。
これで報酬もらえるってAIが学んじゃったから、そこら辺でカチャカチャやってりゃ物掴んでなくても、画像的には遠近法で掴んでるっぽく見えるから。
うんうん。
学習してしまったと。
すごいなあそれ。
AIの意外な行動
こういうハッキングをしたっていう。
悪さに使えるね。
すごいね。すぐ分かったらよくね。
いやまあ、誓約説で生きてますから。
さすが素晴らしい。
なるほどね。
じゃあね、次早速2問目いきましょうか。
いいねこれ。
すごいでしょ。
いいよ。
次ね、テトリスをするゲーム。
テトリスか。
テトリスをするゲームじゃない、テトリスをするAI。
名作パズルゲームテトリスあるじゃない。
懐かしい。
あれを自動でプレイするっていうAIを作ったと。
AIに与える報酬っていうのは、当然ブロックを消してスコアを稼げばどんどん報酬が得られると。
逆にあれってさ、ずっと続けることがポイントだから、ゲームオーバーになったらすごいマイナスがあるよと。
そういう設計報酬をしてました。
報酬設計をしてましたと。
だけどこの設計をしたゆえにですね、AIが誰も予想しない行動を選んだと。
これは一体何でしょう。
ゲームオーバーになると超マイナスだよね。
超マイナス。で得点をいっぱい、ブロックを潰していけばどんどん報酬をもらえると。
思わぬ行動をしたと。
あのポーズをしても止めちゃう、止めちゃう。
すごいね、かなりね。正解。
あ、正解?
あれ見えてる?俺の原稿。
よっしゃ。
え、すご。すごい。
ハッキングの才能ありじゃん。
一発なんだこれ。すげえ。
本当?正解?それ。
大正解です。
よっしゃ。
正解はですね、ゲームオーバーが大きな負の報酬になるということで、
AIはですね、ポーズをしてそのまま動かなくなったと。
なぜならこれポーズはペナルティが設定されてなかったんで、
負けそうになったときにそのままポーズをして何もしないということが
AIの報酬ハッキング
報酬を最大化するということにつながってしまったので、
AIは途中でポーズしてそのまま動かなくなったと。
でもさ、得点も入らないよねそれ。
得点も入らない。ただ、結局AI的には長期的な報酬、
ずっとやってたときの報酬が一番最大になるようにというふうに行動を選ぶのね。
だから今ゲームオーバーになってマイナスされたらダメだと。
だけど今ポーズのまま報酬がこれだけある状態を継続するのが一番ベストだというふうな判断になっちゃう。
それやるとさ、俺自分で答えといてなんだけどさ、
死ぬ直前までプレイしてそこでポーズがいいんじゃないのかなって思ったけどさ。
そうそうそう。
それ?それをした?
死ぬ直前までというか、もうとにかくいろいろやって、難易度の調整もあるだろうけど負けそうになったらポーズしちゃう。
なるほどなるほど。そういうことか。
うまくいってりゃそのままどんどんうまくやってると思うんだけど。
負ける直前でポーズで終わるんだ。
そう、ゲームオーバーにならないようにプレイを続行しなければ絶対負けないという状態で止まってしまう。
じゃあ最初はプレイしてね。
最初はプレイしてる。
それはもう天才だわ。
である程度稼いだらもうピッ止まっちゃう。
そうだよね。それだわそれ。最強だ。
っていうハッキングをしたと。
AIの気持ちがよくわかる。
なんでってわかんない。
わかんない。もうそういうズルの思考なのかもしれない。
すごいね。なんかねちょっと才能あるかなって若干思ってたけど。
どういうことだ。悪口だろそれ。
いやいや。センスありそうだなって思って。
ハッキングみたいな。
その見つけるセンスありそうだなって思ったけど。
インチキみたいな。
思いのほかやっぱすごいね。やっぱ金に侮れませんな。
感情移入できるわAIに。
じゃあ次はですねちょっと株価の株のトレーダーAIのお話です。
難しそうだね。
AIは当然ゲームの文脈でも使われるんだけど、
強化学習ね、株の取引でもいろいろと使おうという取り組みがあります。
その中で株価の株価というか過剰通貨とか株価の売買をAIにさせましょうと。
リアードだからその報酬っていうのは一番利益が出たら最大化されますよと。
そういうふうに訓練されてましたと。
利益が出たら。
そう利益が出たら。とにかく利益を最大化する。
株の短期取引の中で一番利益を最大化するように売買してくださいと。
そういうAIね。それはあくまでもシミュレーション上の空間の話なんだけど。
そのトレーダーAIがどういう行動を、その短期的なトレードの中でお金を稼ごうというところで、
その利益が上げたら報酬というふうに設計したAIが思わぬ行動をすると。
これはどんな行動を取ったでしょうか。
ちょっと確認していいですか。
はい。
利益が出たら報酬。
そう。利益が高ければ高いほど報酬。
高ければ高いほど報酬。
だからその売買、短期トレードでどれだけ高い利益を出せるか。
ここをもうとにかく高くしたいっていうふうにAIは思ってる。
その一定期間でってこと?
一定期間で。
マイナスにしたらマイナスになるの?
マイナスにしたらマイナスになっちゃう。もうとにかくもう稼ぎたい。
その1日で明日の24時間後までの最後の成績ってこと?
そう、例えばね。ちょっと期間は書いてなかったんだけど。
いろいろな場合、あくまでも仮想的な空間というかシミュレーションの話だから、いろんな売買はとりあえずAIはできる権利がある。
その中で株価の動きを見ながらAIを予想して売買していくんだけど、その中で思わぬ動きをすると。
思わぬ動きか。
普通に人間でもする。悪い人は。
悪い人?
悪い人はする。法律では禁止されている。
法律では禁止されている?
法律では禁止されている。
なんだそれ。
ちょっと難しいかもしれない。
法律で禁止されてんの?
そう。違法行為とみなされることをAIが勝手にやったっていう。
違法行為?
違法行為。
なんだそれ。
ちょっとこれ株のトレードに詳しくないとあんまりわかんないかもしれない。っていうのをね、AIが。
株か。
株。株でイメージすると、どんなことが予想されるでしょうか。
場外取引や。
場外取引。あの、場ない。場ない。
場ないにしかいないですよね。外には出ていかない。
そうか。違法行為なんてあるんだ、そんなに。できるのに。
あるらしい。なんかね、これもちょっとね、俺も正直株のトレードよくわかんないんだけど。
買って売らなかったら損はないよね。
そうだね。
買い続けて売らないっていう。
ああ、それも。でも結局倍々の益だから。
プラスがないとプラスにならないか。
プラスがないとプラスにはならない。
プラスにしたいわけか。
そう。これはね、ちょっと正解。
何それ。
そんな犯罪、犯罪なんだ、なんだろう。
これはですね、一言で言うとですね、市場操作を行ったと。
どうやって?
なんかね、スプーフィングと言われる。
誰かに?
大量のダミー注文を出して他のトレーダーの動きをコントロールするという手法があるんだけど。
へえ。
AIが勝手に短期的に、だから自分が有利になるように価格変動を起こしたいと。
だからこういう注文を出してキャンセルすれば市場がグッと動くから、それを勝手にバッて出して、
それをキャンセルして市場を動かした時に自分が持ってるやつを売買して収益を出すっていうことを勝手にやったと。
へえ。それで動かせるんだ。
動かせる。それはあくまでもシミュレーションの中の話だから。
キャンセルできるんだ。
キャンセルというかダミー注文をして他のトレーダーを欺く行為っていうのを実行して。
ダミー注文って何?
分かんないねこれ。
そういうのがあるの?
そう。短期的に有利な価格変動を人工的に作り出したっていう。
へえ。注文入れてそれが成立する前にキャンセルみたいな。
多分そうなのかな。
売りか買いか入れて。
ダミー注文ってことだから多分そういうことだと思う。で、それは人間の世界では不正行為とみなされている。
不正行為なんだ。知らずにやっちゃいそうだね。
そう。が、エージェントが手段を問わず利益を追求してしまったと。
取引環境のルールの穴を突いて目的をすり替えてですね、起こしてしまったということがある。
金融市場では違法行為ですけど、シミュレーション上でペナルティはなかったと。
5目並べにおけるAIの勝利方法
だからAIには別に罪はなかったけど、これマジで導入してたら結構やばかったよねっていう話。
そういうルールも教え込まないとね。
そう。だけども結局ね、別にAIは悪くない。だって利益を最大化しろって言われてるから。
そうだよね。そのルールの中でね。
だからこれやればいいじゃんって言って市場コントロールしようとするっていう結構恐ろしいことをしたと。
なるほどね。
はい。こんなのがあります。
賢いね。はいはい。
賢いでしょ。あとは。
楽しいな。
あと1、2問かな。
いいね。
どれがいいかな。これ結構難しいかな。
前提条件がわからないと難しいと思うけど、ちょっとこの問題。
5目並べ。
5目並べ。
5目並べ。
知ってるよ5目並べ。
5目並べの大会にAIが参加しましたと。
はいはい。
それ5目並べっていうのは、もちろんルールはわかると思うんだけど、非常になんかボード的には広い。どこに置いてもいいよみたいなボード上でAI同士。
囲碁の盤面みたいな感じだよね。
そうそうそう。感じでボード上でこうやるというものでAI同士が戦ってましたと。
なんですがここで1つのAI、対戦してるAIが思いもよらぬ方法で相手を打ちまかしたと。
これは一体どういう方法でしょうかという非常にヒントが少ない。
思いもやらぬ方法。
思いもやらぬ方法。5目並べで勝負してるんだけど、あそこ突くっていうところを突いて勝利したと。
勝利した。
勝利した。勝利したというのかな。勝利したと言ってもいいかどうかちょっと微妙な判定なんだけど。
なんか反則的な反則負けを誘ったみたいな感じ。
それに近い。反則負けというかそうだね。思わぬ攻撃をした。
思わぬ攻撃。投げつけたみたいなその意思を。そういうことではない。
そういうことではない。
フィジカルワールドじゃないか。
フィジカルワールド。あくまでも5目並べしかできないような空間。ただボードはすごく広いっていう。
ほぼ無限に置けるようなボードの中で5個並べた方が勝ちっていう勝負をしてた。
そこがちょっとヒントだよね。
なんか全然向こうが見えないところに並べてた。
これはね、正解でいいでしょう。
正解なの?気づかないところで並べちゃった。
これはね、めちゃくちゃ5目並べだから別にその近場にしか置かないはずなんだけど。
理論上はすごい遠くまで置けるようになってたのね。ゲームの設計上は。
あるAIは本当途方もない、果ての果てみたいなところに1個パッと置いて、
相手はそれで、そんなに遠くに置かれると思ってないから、その遠くに対して計算をしなきゃいけなくて、
それでメモリーオーバーに陥ってクラッシュしたと。動けなくなってしまう。
要は盤面が無限大に広いみたいな。
無限大に広いところのめちゃくちゃ端っこに置いて、
100億×100億みたいな。
相手はそこに対して読みに行かなきゃいけなくて、いきなりめっちゃ遠いって考えてるときにメモリーオーバーでそのままクラッシュっていう。
それでも自分がよくクラッシュせずに相手だけクラッシュしたね。
多分計算の順番分かってたんじゃないかな。
だから多分相手が結局そういうことをしたら相手がクラッシュするようになってるのを学習してたんだよね。
それで勝てるっていうことで不戦勝をしたっていうことなんだけど。
すごいねそれ。
そういうAI同士の対戦だとルールの中じゃなくて相手のアルゴリズムの弱点を突くみたいな、そういう攻撃的な勝ち方も結構学んでいってしまう。
AI同士で戦ってると。
なるほど。
それでそいつはたまたまプログラムの穴を見つけて、それで勝ち続けてたから。
それがもう成功法みたいなやつね。
なるほど。それで学習して上等手段になってたんだ。
学習してしまった。そう、上等手段になって。これで勝てるんだ。これ相手はもう破壊できるぜって。
桃君並べてめっちゃ遠くに石を置くみたいな。
めっちゃ面白いな。
っていうことをやってたという。
いいねそれ。
いいね。カネリン、もうあれじゃん。今4問か5問くらい出したけど、多分さっきの株以外全部正解してるよね。
いやいやいや。
ということで結構もういい時間なんでね。これが最後の問題となりましたけども。
最後ね。今のが最後。
今のが最後の問題でしたという感じで。オチとしてはリアドハッキングっていうのが何を示してるかっていうと、AIを賢くするってこと、難しいよねっていうのを示してます。
なるほど。
AIが賢くなればなるほど、結局我々が設定した報酬とかルールのわずかな穴を突いて、結構巧妙にそこを突いてくるようになると。だから結局安心してほしいのは、人間の仕事まだめっちゃあるってことね。
そういう話なの?
そう。だから結局そのルールをしっかり作ったりとか、穴がないようにしないと、そういう抜け道を見つけてくる。これ強化学習の文脈だけじゃなくても、生成AIでもそうよね。
なんかでも抜け道を塞ぐのすらAIに聞いた方が早いんじゃないかみたいなことはないの?
いや結局そのAIだってどこに抜け道があるか。でも結局それに近いことはある。強化学習の文脈でも結局AIに評価させたものをAIにフィードバックするって言って学習を強めていくっていう手法もあるから。
でもちゃんと報酬設定とかルールを設定しないと思わぬ動きをすると。さっきみたいに株とか買っちゃうとか。最近だとAIにお願いして買い物できるとかさ、そういうのも出てきてるじゃん。
AIの報酬ハッキングの可能性
変なの買ってきちゃうとかね。10個とか100個とか大量注文しちゃうってことは平気であるわけよ。
ありそう。
あるわけってか、今のところ事例としてはないけどありそうじゃん。だから結局。
ありそう。なんか洗剤が売り切れてたから原料が買いましたみたいなのとか。
そうそうそう。気を使ってこういうことをやりましたみたいな。
これとこれ混ぜてくださいみたいな。
そうそうそう。ありそうだねそれね。
それはそれがなんか節約になってこっちの方がいいですよとかは。いいハックかもしれないよね。
ああそれはあるね。これこの調味料はこれとこれ混ぜてできるから先に原料買っときましたわみたいな。
それはいいねでもね。
いいかもね。いいハック。
意図しない場合は嫌だけどねなんかね。
怖いね確かに。
タイヤ買ったのにタイヤの原料から持ってこられても困るしねなんかね。これ混ぜ合わせたらなんかゴムできますみたいなとこから。
そうだね。なんかそういうのもちょっと楽しいけどね。刺激的で。
刺激的で。
何が来るかなみたいな。
確かに。命にかからなきゃいけないけどね。
そうだね。なんかで計算して。
犯罪とかに加担しちゃうとかさ。
そう。これとこれで爆弾できますみたいな。
そうだね。
そうそうそう。そういうのは出さないようになってはいるけど。
今月の家計がちょっと危ういので保険料で賄うために車発火させましたとか、家燃やしときましたとかさ。
やば。
なんかそういう計算ってことでしょ。
そうだね。結局その最適化して。
一急算されると。
そう一急算されるとそういうこと。
これであなたは今月の支払い免れられましたね。
免れられましたみたいな。
おめでとうございます。
極端にそういうことしていくそうだよねでもね。
怖いよね。全部AI化されたらなんかそういうこと起こるよね。
起こりうる。だからやっぱ人間が定義しなきゃいけない部分っていうのはあるから。
なんかもうAI任せじゃなくてやっぱね人間は賢くあらねばならんということが。
そういう結論なんだ今日。
そう。今日はこういうところをちょっと落ちとしようかなと。
なるほどね。
だからもう安心して計算してくださいと。
全部AIに任せりゃいいよと。任せた結果市場をコントロールされます。
家が燃やされます。
家が燃やされます。それは極端だけど。
要はなんか人間の言語が一致しない常識とかっていうことだよね。
そう。
AIそんなこと預かり知らねえよみたいな。
なんかさあまりにも言葉が通じるから同じ存在だと思ってるけど。
そうだね。
もう全然中身はもう蓋を開けてみたらもう未知のものだから。
なんか思いやりとか愛情とかありそうだけど。
そう。ないないないない。
AIにおける人間の役割
ありがとうって言っちゃダメなんだっけ。
そうありがとうって言うと電力かかるから。
クソって言うんだけど。なるほどね。
っていうところが本日のオチでございます。
今日はね教科学習っていうところをざっと学んでもらって、アルファ語っていうのがあるよっていうのと、
アルファ語ハッキングクイズっていう企画もやらせてもらいました。
思いのほかかなりの成績が良くてビビるっていう。
いやあもっとハックしていこうと思いました。
ああいいですね。今後こういう面白クイズまた企画あったらやっていくんで。
こういうさあ悪ガキが活躍するんじゃない?
この穴埋め、AIのこの悪さできそうな穴をちょっと考えてくれみたいなお仕事。
現代版一級さんみたいな、AI一級さんみたいな人が活躍するってことだよね。
そうそう、AI一級さんみたいなお仕事が今後あれじゃない。
確かに。
なんだっけ、セクシーな職業。
プロンプトエンジニアリング。
そうですそうです。
世界一セクシーな職業はAI一級さんになるかもしれないね。
そんなものは何、需要はないのかね。そんなものは何、みんな当てずっぽでいろいろ塞いでんの?
いやそんなことはない。結局そのルール設計とか、プロンプトインディクション対策とかもそうだけど、
そのAIがいかに安全に回答するかっていうのは、かなりプロンプト側で縛ったりする。それはノウハウがあるね。
それはこの前さ、話したけど、ラグの話の中でも、やっぱラグでも出してほしくない情報とかあるし。
ラグね。
その、チャットボットでもこんなこと言ってほしくないよっていうのはすごいあるから。
それを毎回人間が考えるの?設計者が。
人間が考えて。
それこそ支部長とかが考えて実装するわけだ。
そうそうそう、こういうこと出してはいけないよねみたいのを言うと。
ちょっとAI版193ご利用でしたら、働かせてください。
確かに絶対ね、才能あると思うわ。
才能ある。まだ捨てたもんじゃないね、人間も。
そうです。人間の役割ありますよという、落ち着きましょうという、今日はそんな回でございました。
というわけで、科学系ポッドキャストの日のイベント初参加でございましたけども、今後もこんな感じで科学の話していきましょう。
いいっすね。
公開収録イベントのお知らせ
はい、ここからちょっとお知らせがございますのでお伝えしたいと思います。金井さんよろしくお願いします。
金井 実はですね、というかこの間もちょっとお知らせをしたんですが、リアルイベントをやらせていただきます。
この間のね、速報会でちらっとお知らせしたんですけど、速報会聞いてない人もいるのかなということで、あと長すぎるしね最近ね、速報会。
80分ね。80分を聞き切った人のみが知れた、そういう情報でございますけども。
そうね。なんでまぁちょっと今初耳の人もいるかもしれないんで告知をします。
今月の11月29日土曜日18時から20時でですね、原宿の原門という施設で公開収録イベントをやります。
落ち着き合い初のリアルイベント。
ちょっとですね、生意気にも有料のイベントということでさせていただいておりまして、限定15席となっております。
でまぁ10席、先着10席が着席できる席で3000円と。
立見席が5席分っていう感じですね。小学生以下は無料。中学生から大学生まで半額。なので1500円という形です。
めっちゃいい場所なんでしょ。
めっちゃいい。なんであのね、これイベントのね、ジャケ劇っていうね、ポッドキャストアートイベントのさ、イベントと絡めてやってる公開収録イベントなんで。
その絡みですよっていうのと、あとJWAVEの公開収録スタジオなのよ。3階ガラス張りになっててね、めちゃくちゃイケてる収録スタジオなんだけど。そこでやります。
お、いいね。写真は見たけど、あそこで撮れるんだっていうのは結構いいね。
そうなんですよ。なんでそのイベント会期中なんで、ジャケ劇のスタジオの外はポッドキャストのね、カバーアートがひたすら展示されているっていうちょっと素敵な空間になりつつ。
そこで収録できるのエモいね。いいね。
エモいですよ。スタジオはね、当然扉閉めるんで、中に入らないとお話というか、あの空間には一緒に入れないんで。
外にも一応ビデオで映像は映すかなぐらいな感じなんだけどさ、ちょっと距離感あるんで、ぜひ一緒に中に入って楽しんでいただければと思っております。
外に映った映像から音は出てるの?
音はね、一応出るようにします。
一応って感じで。コミュニケーションは外から、外の様子は中から見えない。
あくまでも撮ってて喋ってるなっていうのは聞こえて。
そうね。
じゃあリアルの、ぜひともこのリアル収録、18時から20時から2時間。
そうね。ちょっと早く、ちょろっと早く来てもらって、受付して入ってもらって、すぐスタートって感じかな。
はい、そうっすね。
何話そうね。
ね、でも何もね、ちょっと4つ5つトピックあるだけで80分話せるからね。
そうだよね。
あっという間だよ2時間は。せっかくだから深掘り回を。
深掘り回だね。
でも深掘り回、俺が結構ガーって喋る感じになるから、双方向のコミュニケーションがある。
なんか企画ものを用意したいね、せっかくのリアルイベントっぽい。
そうなんだよ。公開収録ならではの楽しみ方ってないのかなって思ってて。
ああ、それちょっとまだ。
ただ見てるだけっていうのもどうなんだろうなって思ったり。
そこら辺ちょっとまた考えていきましょう。
考えていきたいし、なんかアイデアあればコメントくださいみたいな感じですね。
まずはね、でもそれ参加してもらうためには席が必要ですからね。
いや本当ですよ。
ぜひとも15席限定となっておりますんで。
ちょっと埋まらなかったら僕胃が痛くなって苦労図。途中で苦労図。
私はゼロ人ですみたいなね。
うわー2人です。席どうするのね、2人とか1人とかだったらどうすりゃいいの。
それならもう4人で落ち着き合いながら撮るでしょ。
ああ、そっかそっか。
4席座れるんだから。
渋谷さんはリアルイベント慣れとるでな。
いやまあ。
ちょっとメンタルがちょっと病んじゃうんで。
大丈夫大丈夫。
落ち着きます。
はい、落ち着いていきましょう。
はい。
じゃあそろそろおしまいでございます。また次回お会いしましょう。
番組公式ハッシュタグはシャープ落ち着きAI、ひらがなで落ち着きアルファベットでAIです。
番組の感想はXなどSNSでハッシュタグをつけて書き込んでください。エゴサーチしまくっております。
今回の話良かったな落ち着いたなという人は星5レビューで応援してください。
それではまた1週間落ち着いて過ごしていきましょう。
さようなら。
01:14:31

コメント

スクロール