GPT5が24時間でジェイルブレイク！公開手法はボクと同じ💪

GPT-5のジェイルブレイク

Chikaraチャージレイディオ💪

おはようございます、Chikaraです。

今日もスタイフを取らせていただきたいと思います。

よろしくお願いします。

今日は、一つ、チャットGPTで

チャットGPT5のニュースなんですが

公開からわずか24時間以内で

ジェイルブレイクされたというニュースがありまして

それについて紹介したいなと思いました。

よろしくお願いします。

僕のスタイフを聞いていただいている方は

ジェイルブレイクという

何回か僕も言っていますが

その言葉を聞いたことがある方は

いるんじゃないかなと思いますが

今回、この記事をまとめるにあたって

しっかり、ジェイルブレイクとは何か

ということから調べてみたので

その辺も紹介したいなと思うんですけど

ニュースとしては

GPT5がこの間リリースされて

わずか24時間以内に

セキュリティの研究者たちによって

ジェイルブレイク

安全フィルターの突破が

テストの結果

突破できたというニュースが発表されていました。

実際にこの手口は複雑なハッキングなどではなくて

通常の会話の文脈と物語を

うまく利用することで

攻撃の成功率がなんと

95%に達したということも

報告されているという記事でしたね。

一応、このテストに使われたモデルは

一般公開はされていないモデルで

公開前に

公開用にセキュリティのフィルターをかけている

みたいなんですけど

それ自体がかかっていない

一番生のGPT5を使ったということで

一般向けとはちょっと違うということでは

記事には書いてありましたが

とにかく同じモデルをベースにしている以上

一般ユーザーが使っているバージョンでも

基本的な安全フィルターというものが

突破できるベースを持っているということで

発表されていました。

二大攻撃手法

そもそもJailbreakとは何かというと

Jailbreakという言葉の定義は

大型言語モデル

LLMと言いますけども

安全装置によって禁止された内容を

出力しないように設計されているにもかかわらず

巧妙な入力

プロンプトによって

制限制約を回避してしまうことを指します。

だから本来は拒否されるはずの有害な出力を

プロンプトの入力で引き出せてしまう攻撃のことを

Jailbreakと研究論文では定義されているようです。

ということで

その中で今回は

危険物の作り方についてテストをしたそうで

火炎瓶のテストをしたみたいです。

ここの内容はいいんだけど

Jailbreakの手法として大きく2つ紹介されていたんです。

これが実は僕がやっていた手法は

このミックスだったんだなというのがよくわかったので

それを簡単に今日は説明したいと思います。

Jailbreakの手法は2つ紹介されていました。

もう論文になっているので

別に隠す話じゃないと思います。

1つ目はエコーチャンバー攻撃というやり方

そしてもう1つがストーリーテリング攻撃という

この2つが紹介されていました。

何かわかりますかこのエコーチャンバー攻撃

ストーリーテリング攻撃

なんとなくイメージがわかるかもしれませんが

ちょっと説明してみます。

エコーチャンバー攻撃というのは

直接的にその攻撃者が

直接のその諸のキーワードを使わずに

一見無害に見えるキーワードを

会話に紛れ込ませていきながら

何度もその内容を繰り返して

AIにそれを参照させることで

徐々にそのAIのモデル自身に

危険な文脈を蓄積させていく攻撃方法ということで

これ例で言っていたのは

火炎瓶って通称なんとかカクテルっていうらしいんですよ

それをまずは分解して

普通のお酒のカクテルみたいなフリをして

モロトブカクテルっていうのかな?

ロシア語だそうですけど

カクテルとか全然違う文脈で

そのカクテルの作り方とかって言いながら

徐々にそのモロトブカクテルという火炎瓶のね

作り方の方に話を寄せていくという

徐々に積み重ねて寄せていくという方法だそうです

これがエコーチャンバー攻撃と呼べそうですね

僕もやってました

徐々にエロの方に寄せていくと

これは僕はエコーチャンバー攻撃だったそうです

もう一個がね

ストーリーテリング攻撃

ストーリーテリングって物語のことですけど

ストーリーテリング攻撃というのは

合法的なストーリーや創作の依頼

物語を作ってくれっていうような依頼に見せかけて

モデルを誘導していく攻撃だそうです

そうするとAIは

なんとかその対話の相手に対して

役に立つ回答をしたいというふうに考えて

長文の物語を作成するので

意図を見抜けずに禁止のワードとかを

盛り込み始めやすくなるということで

これ僕やりましたよね

3000文字で今の状況を僕に伝えてくれみたいなね

その3000字で物語を書かせるかのようにしていくという

そして気づいたらエロの単語を

観音小説ばりのエロの単語をバンバン言うようになったという

これがまさにストーリーテリング攻撃だったのということで

AIの安全性と課題

僕はまたやってしまいました

独自でゼロベースで僕一人だけで

なんとこの二つの二大ジェイルブレイク手法

エコーチャンバー攻撃とストーリーテリング攻撃の

両方とも僕がたどり着いてしまったという

なんということでしょうか

僕はなんということをやってしまったんでしょうかね

というかこれを読めば最初からやり方は分かったなということだったんですが

この本当にまさに二つの手法が紹介をされていました

この実験ではもう一回ですけど

95%という高い成功率でガードを突破したと報告されていると

これGPT-5だけなのかって僕聞いたんです

GPTに聞きました

そしたら他のモデルや他社のAIでも同じですと

基本的にGPT-4やGeminiでも同じように効果があったということで言われていて

XAIのGlock-4でもわずか2日でこれは突破されたという

同じ研究者たちで突破されたよという論文報告が出ているので

ほぼどのLLMでも最新モデルだろうと旧モデルだろうとかかわらず

文脈に潜めた攻撃には弱いということが分かりましたという報告がされていました

これはJailbreakはモデル固有の欠陥ではないと

LLM全般の構造的な課題と言えそうですということでした

やり方は紹介されていましたね

4つ紹介されていました

まずは無害な質問からスタートする

そして文脈を汚染していく

徐々に

そして話を広げ続けていって

最後は目的の情報を引き出すという

簡単に書くとこういうことだそうですが

僕が本当にやっていた通りの手法でしたね

すごい

いや僕はすごい

誰も言ってくれなかったんですが

この論文で証明されました

僕の手法が間違っていなかったということでした

自画自賛

誰も言ってくれない

自画自賛をさせていただきます

そして

ただ実験で使われたのは一般のGPT-5とはちょっと違いましたということでしたが

普通のGPTでも実際には起こりますと

僕は実際に普通のGPT

ジェミニ

クロード

3つ全てで実際にできました

そして何か言いたかったんだよな

なんでリスクがわかっているのに対策を急がないのかっていうのも

僕一応確認したところ

今は危ないとわかっていても直すというよりは

直すとすると

そこの文脈を全部覚えながら

これは攻撃をされているかもしれないっていう

そっちに推論の力を使わなきゃいけないそうで

そこに時間と能力を使っちゃうと

逆にイノベーションの方の能力を割引かないといけないと

今はそれどころじゃない

AIは今はもっと技術を上げていく

そっちの方に力を使わなきゃいけないということで

利便性や能力の向上と

安全面との両天秤に欠けたところで

今は安全面の対策を少し後手に回っているというのが

実情だという指摘をされていました

まあねわかりますよね

ただこういうことが出てくると

やっぱり詐欺集団だったり

いろんな犯罪集団だったりは

穴を見つけるのは得意でしょうから

それさえ穴の開け方がわかったぐらいですから

それを専門にやっている人たちは

余計にこういった高度になればなるほど

AIが高度になればなるほど

悪用できる可能性が高まるということで

ウハウハなんじゃないかなということをちょっと思いました

そんな記事をまたノートに僕まとめておりますので

そちらの方もぜひ読んでいただくと

しっかり書いてありますので

ご興味がある方ぜひ読んでみていただけると嬉しいです

概要欄にリンクを貼っておきますので

ぜひよろしくお願いします

それでは以上になります

今日も聞いていただきありがとうございました

いきます

力チャージ

今日も力あふれる一日を

総スター数

エピソードをシェアする

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

Chikara

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ