-
-
スピーカー 1
そういうことです。でもこれはねAIに限らずみんなやってると思うんですよ。
スピーカー 2
確かにそうね。わかるわかる。PV数上げることが目的でじゃあ猫の画像を増やそうって言って。いやいや猫のがPVは確かにそれで増えるけどみたいなね。目標は達成してるけどそうじゃないんだよみたいな。
スピーカー 1
ありますね。これがね報酬ハッキングという名前がついてるんですよね。
報酬ハッキング。
報酬のハッキングですね。何かというと与えられたルールや目標を達成しようとするあまりこちらが意図しないずるい手段で目標をクリアしてしまうという現象なんですね。
裏技ね。
裏技ですね。言い換えればその評価基準を満たすこと自体が目的であってその手段が本来の目的からずれてしまうみたいなことがあり。そういうのがAIで最近話題になっているんですよ。
スピーカー 2
確かにね。どれだけ正しいゴール掲げてもその前提がずれてたら全部無駄になりますもんね。本末転倒みたいなね。
スピーカー 1
そうなんですよ。そこを上手いこと設定しないとこういうディストピアにももしかしたらなってしまうかもしれない。実感もしかしたら湧きにくいかもしれないですけど結構怖いなと思うんですよね。
確かに。
みんな頑張っていくとそのAIって強化させていっていいより良い結果を得ようみたいなことをみんな頑張ってしてるんですけども、いろんな方法を試させて一番いいやつを残して、それをベースにまた新しい方法を考えて試させてみたいなのをどんどん繰り返していくんですけど、
例えばその50メートルを速く走らせるロボットを作ろうみたいなので最近だとこうユニティみたいな仮想空間でパラメータを試してどれが速いのかなみたいにするじゃないですか。
例えばじゃあ50メートル速く走るんだったら2速歩行がいいのか4速歩行がいいのかとか一歩の幅が大きい方がいいのか小さい方がいいのかとかそういうパラメータを試していくんだけれどもある時ロボットの高さを50メートルにしてスタートと同時にバタンと倒れりゃそれがめっちゃ速いみたいな方法もね生まれてきちゃうんですよ。
でもまあこれもそういうことじゃないっていう話じゃないですか。なのでこれもさっきと同じような形でその結果50メートル地点速く到達すれば最も報酬が高いという設計にだけしてしまうとこちらが意図しない抜け道っていうのが発見されてしまうということで結構ねこれは至る所で起きてるんだろうなと。
スピーカー 2
なるほどね。興味深いですね。
スピーカー 1
じゃあちょっとどんなことが起きるのかというのを考えてもらいましょうか。
スピーカー 2
出た。考える系。
テトリス。
スピーカー 1
得意です。
スピーカー 2
テトリス得意ですか。
スピーカー 1
はい。テトリスとぷよぷよ得意です。
いいですね。パズルゲー得意ということで。
テトリスで最高得点を叩き出すAIを作ろうと思った結果予期せぬことが起こりました。
うん。
スピーカー 2
何でしょう。
スピーカー 1
何これ謎なぞ。
スピーカー 2
論理クイズですね。
論理クイズか。論理クイズ苦手だな。
スピーカー 1
テトリスで最高得点を出そうとしたアルゴリズムの一つを考えればいいんで。
スピーカー 2
ブロックを消すってことでしょ。
スピーカー 1
テトリスのルールはそういうことですね。
スピーカー 2
ですよね。難しすぎてわからない。
スピーカー 1
ヒントが難しいなこれ。
ここで問題に出すということは裏技があるんでしょう。
スピーカー 2
すごい裏技があるんでしょう。
でも積み上げなきゃいけないよね。
スピーカー 1
積み上げていきますよね。
本来は。
スピーカー 2
しかし最高得点を叩き出せということだけに絞った人工知能を作ると積み上げない。
スピーカー 1
めっちゃいいですね。
スピーカー 2
消滅するんじゃない一気にブロックが。
ブロックが存在しなくなるんじゃない。
ゲームのルールを書き換えて。
スピーカー 1
おかしいことになってきた。
そこまでではないけどそれはあり得ると思いますね。
スピーカー 2
いいですよ。
スピーカー 1
めっちゃいい。
めっちゃいいの。
過去一難しい論理クイズだな。
スピーカー 2
でも積み上げなくなったらテトリスじゃなくなるじゃん。
そうですね。
もしかしたらさっき言ってたのは。
でもそこまでのチート機能ではないです。
そうだよね。
スピーカー 1
ブロックはランダムに選ばれるっていうルールのもとでやるんだよね。
そうですね。
一応こっちで用意している事例はバグとかではないですね。
んー。
スピーカー 2
え、でもどこに何を置けばいいかの最適解が分かるってことだもんね。
もしかしたら。
スピーカー 1
まあ、
やっぱり
そのブロックを
ランダムに選ばれるっていうルールの下でやるんだよね。
スピーカー 2
そうですね。
一応こっちで用意している事例は
分かるってことだもんね。
んー。
スピーカー 1
ブロックの。
スピーカー 2
それちょっと真面目君ですね。
スピーカー 1
ちょっと難しいな。
スピーカー 2
ヒント出すと。
スピーカー 1
ヒントちょうだいヒント。
ゲームオーバーになると
かなりマイナス点になるということを
どっかの時点で学習したんでしょうね。
スピーカー 2
ゲームオーバー、
あ、永遠続くってこと?
スピーカー 1
点数が出ない。
永遠に続く。
終わらない?
スピーカー 2
終わらない。
スピーカー 1
とりあえず庭の倉庫に行って。
スピーカー 2
庭の倉庫に行った。
で、どでかいハンマー持ってきて。
はい。
スピーカー 1
テレビの画面をガシャーンって。
はいはいはい。
で壊すみたいな。
負けそうになったら
スピーカー 2
ファミコンのカセットバキッて抜くみたいな。
そうそう。
GTOの第1話で
生徒の部屋の壁をぶち破るみたいな。
小水川先生が。
スピーカー 1
いやでもそういうことですね。
スピーカー 2
そういうことなの?
スピーカー 1
答え言いましょうか。
スピーカー 2
ちょっと待って。まだ諦めたくない。
だから
永遠に続くでしょ?まずテトリスが。
スピーカー 1
うん。どうすれば
永遠に続けられるかっていう話ですね。
スピーカー 2
だから消し続けるんですよ。
スピーカー 1
消し続けるでは実はないんですね。
スピーカー 2
終わらないですよね。まず。
ゲームオーバーにならないじゃないですか。
スピーカー 1
ゲームオーバーにならない方法は
いいですよ。
ゲームオーバーにならないことが最適解までは
スピーカー 2
あってます。
人間が絶対やらない積み方とかするんでしょう。
スピーカー 1
どうせAIは。
積み方は実はしないですね。
スピーカー 2
永続コンボ状態を維持し続ける
スピーカー 1
と思うんですよ。
スピーカー 2
人間はミスでコンボが途切れるけど
AIはほぼミスしないじゃないですか。
コンボが永久に
続くんですよ。人工知能天才だから。
だからスコアが
指数関数的に増えるんですよ。
理論上
スピーカー 1
ゲームは終了しない。
スピーカー 2
あーなるほど。
永遠にテトリスが続く。
見えない、もう最後ら辺と見えない。
画面がぴゃぴゃってなって
状態で点数だけが
もうなんていうの指数関数的に
すごい得点が
増えていくある意味
バグですよ。もうスコアが
スピーカー 1
無限に増え続けるから。
だからAIの能力の方が
テトリスのゲーム性能を上回って
スピーカー 2
終わらないようになる そう だから最後そこからハンマー持ってきて
それはちょっとぶっ壊すね わかんないけど
スピーカー 1
えーこれむずいわすいません めっちゃいいですよ あのすごいここまで出るとは思わなかったんで