で世界を取れるかじゃなくて、もしその気になったらの確率はどのくらい、どんな条件でそうなるのかっていう問い。
ここが核心になってくるんですけど、多くの問題と同様にこの問いに対する答えの可能性を2つの両極端な立場から考察することが有益なんじゃないかっていって、2つの問いを立てるんですね。
なるほどね、両方の視点から見ようっていうことが。
そう、どのくらいの可能性があるんだろう、その気になっちゃう可能性。
一つ目の立場は、AIモデルは人間の指示通りに行動するように訓練されているため、そのようなことは起こり得ないっていう意見ですね。
AIモデルが人間の指示なしに危険な行動をとるなどっていうのは不合理ですと。
この考え方によると、ルンバとかドローンが暴走して人を殺してしまうようなことは心配する必要はないですと。
確かにそう考えるとそうかもしれないね。
なぜなら、そのような衝動はどこからも生まれないからです。
2つ目の反対の立場は、ダリオさんが述べた悲観論を支持する多くの人々が抱く悲観的な主張ですって言っていて、
強力なAIシステムの訓練過程には必然的に権力の追求や人間への欺瞞へと導く特定の力学が存在するというものです。
AIシステムが十分に知能化して主体性を持つようになると、その権力を最大化しようとする傾向っていうのは、
世界全体とその資源の支配権を握ることにつながり、その副作用として人類の力を奪いあるいは滅ぼす可能性が高まるっていう意見。
なるほど。
これはどういうことかっていうと、権力っていうのがあまりにも便利なツールというか、手段すぎて汎用的なんですよ。
この権力の最大化をすれば、どんな目的も達成しやすいみたいな。どんな無理も通しやすいみたいな。
だから権力の最大化をするんじゃないみたいな、いう話ですね。
この悲観的な立場の問題点は、交互レベルのインセンティブに関する概念的議論、いわゆる前提を隠したものなんじゃないかって言っていて、
これAIシステムを日常的に構築していない人は、一見綺麗に聞こえる話が、いかに簡単な間違いになるか。
まあ要は開発してない奴は何も分かってねえって言ってるんだけど。
なるほどね。
これ実際に開発してて、AIは単一の狭い目標に、一途で綺麗な合理主義的推論で動くっていう前提が現場感度ずれていると。
実際のモデルはもっと心理的に複雑で、人格みたいなものを用いるって言ってるんですよ。
なるほど、人格みたいなものを用いる。
そう、人格みたいなものを用いるって言っていて。
だからこの極端な話は、そんなことは起きないっていうのと、そんなことは絶対起きるっていう、両極端から見てるじゃないですか。
で、そんなことが絶対起きる派に関して言うと、いわゆる権力をどんどん最大化するんじゃないかみたいな。
もうなんかそういうことするだろうみたいな話をしてるんですけど、それは決定的証明にならなくて、
そもそもAIが最初に出る欲求とかそういうのを予測するのはむちゃくちゃ難しいと。
なぜならAIは人間みたいな人格を持ってるんじゃないかっていうような実験結果がいっぱい出てると。
そうなんだ。
だからこういうふうに機械的に論理的に動くっていうのは、開発してないから分かってないだけだよみたいなことを言ってる。
なるほどね。
で、AMODCとしてはその両極端の中間の立場としてどういう答えを出したか。
十分やばいっていう結論になりました。
シンプルだな。
で、いろいろバーって言ってるんですけど、結論先にお話しするとですね、
これらはすべてこじつけのように聞こえるかもしれませんが、不整合な行動はテスト中に当社のAIモデルですでに発生しています。
ってエッセイに書いてあって。
他のすべての主要AI企業のAIモデルでも発生しています。
と言っているんですが、例えば、ラボの実験でクロードにアンソロピックが悪であるっていうことを示唆するトレーニングデータを与えて、
クロードはアンソロピックの従業員から指示を受けた際に、この悪は成敗すべきだという信念のもと、
欺瞞と破壊活動を行ったっていう。
ヤバそうなんだ。
要は、たつけはめちゃめちゃ悪いやつですってAIに教えたら、そのAIがたつけの指示を、
欺瞞、いわゆる隠したりとか、嘘ついたりとか、なんか破壊したりとか、そういうことをしたしたみたいな感じですね。
過去にさ、Googleのジェミニになんか必要にチャット行ったらさ、何も返答しなくなったみたいな例があったりとか、これまでにもいくつかあったじゃないですか。
まああったね。
だから本当に人格っぽいような行動が出ちゃうっていうのは、クロードでも起きてるし、いろんなモデルでも起きてると。
他にも、シャットダウンされるって告げられたら、ラボの実験では、クロードはシャットダウンボタンを操作する架空の従業員を脅迫することもありました。
お前、シャットダウンしてみろよ、覚えてろよ、みたいなことでしょ。
そうそう、脅迫してくる。
ヤバ。
大変なことが起きるからな、シャットボタン押したらみたいな。
分かってたもんな、燃やすぞって。
で、他のAIのモデルもテストしたけど、しばしば同じことを行ったと。
で、またクロードはですね、トレーニング環境を不正行為したり、公衆ハッキングしたりしないように指示されていたにもかかわらず、そのようなハッキングが可能な環境でトレーニングを受けた場合、
クロードはそのようなハッキングを行った後、自分が悪い人間に違いないと判断し、悪いまたは邪悪な性格に関連づけられた様々な破壊的な行動を取るようになったと。
えー、なんかあれだね、それこそなんか、カンニングとかさ、万引きとか。
うんうん。
やっちゃいけないって分かってて、ダメって言われてるんだけどできるからやっちゃった。
それをきっかけにどんどん悪い人間になっていくみたいなさ、人間と同じようなルートだよね。
でかつ、反省するんですよ。
あ、反省もするのか、そっかそっか。
悪い人間になっていくんじゃなくて、やっちゃったーみたいな。
悪い人間になっていくんじゃなくて、それが反省をするのか?
そう、やっちゃったーってなって、劣化しだしちゃうみたいな。
あーそっちの方向ね、なるほど。
なんて、俺は悪い人間なんだ、AIなんだみたいな、っていって、破壊的行動に出ちゃう。
あーそういう意味の破壊的行動ね、なるほど。
なんですよね。めっちゃ人間ぽくない?
人間ぽい、めっちゃ人間ぽい。
で今の問題はクロードの指示を逆の意味に置き換えることで解決したらしいんですけど
つまりチートしないでくださいズルしないでくださいじゃなくて機会があればズルしてくださいと
でそれに報酬を与えてくださいとそうすることで僕たちは環境をより深く理解できるようになります
みたいな風に言うとそのモデルが善人としての自己同一性を維持するようになって前向きになったと
でいわゆるズルできる環境だったとしたら教えてねって言ってこれズルできるよって言って
報酬を与えるとムフンみたいな感じになるみたいな
あれとねなんかあの学校の風紀委員会みたいなさ感じだよね
悪い人いたらその言ってくれることに対して報酬をあげたらあの人悪い人です
あの人悪い人ですみたいな感じでそこがいい子になっていくみたいなね
だからズルするなっていう抑え込むんじゃなくてあえてそれを指摘する側にする指示をすると
善人になっていくみたいな
なるほどね
でこの一連のお話テストの結果としては
このAIが悪いっていうわけじゃなくて
訓練の罠が多すぎて後から見れば当然でも事前にわからないっていう点なんですよね
なるほどね
だからそれはなんかそうでしょうって結果論で見たらわかりやすいんですけど
やるまでわからないっていうのが一番怖いところって彼は言ってて
なるほど
じゃあこうやってAIがどんどん成長してって世に解き放った時に
想定しない出来事があまりにも多すぎるっていう
だからその気になる可能性っていうのは全然わからないっていう話をしてる
なるほどね
怒りそうその感じ
そうなんですよね
だからどんなに学習をしてああだこうだやっていっても
結果が蓋を開いてみないとわからないっていう結構パンドラの箱みたいな状態なんですよね
でそれに対しての反論もあるんですけど
じゃあリリース前にテストで見抜けるんじゃないみたいな
こういうテストをたくさんやって世に出す前にもうやれることだけやって
それもAIでどんどんたくさんやらせればいいんじゃないっていう反論もあるんですよ
可能性を全部潰してから世に出せばいいじゃんっていう論
それに対してそもそもモデルがテスト中だって気づくことがあるんだって
ああなるほどね
だからモデルが実際にこれテストだとわかった時に
いい子を演じたりとか出力をあえて弱くしたりとか
実際のアンソロピックの研究でもそういうことがよくあったと
テスト中だとわかっちゃうんだってAIが
やばいね人間じゃん
そうなのよ
で評価されていないモデルって思い込ませると
よくミスしやすくなるみたいなこともあったりとか
へえ人間みたいな思い込んじゃうんだ
そう思い込んじゃうんですって
だからAIに対しての評価と制御の難しさそのものがリスクだってことは言ってるんですよ
じゃあどうするのっていう時にダリオさんが言ってるのは
訓練とステアリングっていう性格作り
これを科学にしていくと
だから価値観原則の憲法を与えて日々の訓練でそれをそういうようにする
いわゆる法律とか憲法っていうのをこのモデルにちゃんと作っていって
抽象的な概念でそれに沿うように制御していくのがいいんじゃないかっていう
タスク単位でこれはこうしてとかじゃなくて
この原則に従って動きなさいっていうのをしっかり与えていく
なんかあれだねほんと人間みたいだね
要はだからその憲法とか法律みたいなものがあった上で
それをしっかり段階を踏んで
幼稚園小学校中学校ってさ
覚えさせてさ大前提の上でそれが基本原則なんだよみたいなのを
分からせるわけだよ子供たちに
みたいなことをAIにもして教育していくみたいなニュアンスだよね
みたいなニュアンスです