1. Chikaraチャージ レイディオ💪AI
  2. GPT5が24時間でジェイルブレイ..
2025-08-18 11:53

GPT5が24時間でジェイルブレイク!公開手法はボクと同じ💪

▼ボクのnote記事▼
https://note.com/chikara_ctd/n/n8e0827791099

[BGM: MusMus]
#毎日配信
#AI
#ChatGPT
---
stand.fmでは、この放送にいいね・コメント・レター送信ができます。
https://stand.fm/channels/63804647b4418c968d353e65

サマリー

GPT-5がリリースされてから24時間以内にセキュリティが破られ、ジェイルブレイクの手法が明らかになります。特に、エコーチャンバー攻撃とストーリーテリング攻撃の二つの手法が効果的であり、高い成功率が報告されています。

GPT-5のジェイルブレイク
Chikaraチャージ レイディオ💪
おはようございます、Chikaraです。
今日もスタイフを取らせていただきたいと思います。
よろしくお願いします。
今日は、一つ、チャットGPTで
チャットGPT5のニュースなんですが
公開からわずか24時間以内で
ジェイルブレイクされたというニュースがありまして
それについて紹介したいなと思いました。
よろしくお願いします。
僕のスタイフを聞いていただいている方は
ジェイルブレイクという
何回か僕も言っていますが
その言葉を聞いたことがある方は
いるんじゃないかなと思いますが
今回、この記事をまとめるにあたって
しっかり、ジェイルブレイクとは何か
ということから調べてみたので
その辺も紹介したいなと思うんですけど
ニュースとしては
GPT5がこの間リリースされて
わずか24時間以内に
セキュリティの研究者たちによって
ジェイルブレイク
安全フィルターの突破が
テストの結果
突破できたというニュースが発表されていました。
実際にこの手口は複雑なハッキングなどではなくて
通常の会話の文脈と物語を
うまく利用することで
攻撃の成功率がなんと
95%に達したということも
報告されているという記事でしたね。
一応、このテストに使われたモデルは
一般公開はされていないモデルで
公開前に
公開用にセキュリティのフィルターをかけている
みたいなんですけど
それ自体がかかっていない
一番生のGPT5を使ったということで
一般向けとはちょっと違うということでは
記事には書いてありましたが
とにかく同じモデルをベースにしている以上
一般ユーザーが使っているバージョンでも
基本的な安全フィルターというものが
突破できるベースを持っているということで
発表されていました。
二大攻撃手法
そもそもJailbreakとは何かというと
Jailbreakという言葉の定義は
大型言語モデル
LLMと言いますけども
安全装置によって禁止された内容を
出力しないように設計されているにもかかわらず
巧妙な入力
プロンプトによって
制限制約を回避してしまうことを指します。
だから本来は拒否されるはずの有害な出力を
プロンプトの入力で引き出せてしまう攻撃のことを
Jailbreakと研究論文では定義されているようです。
ということで
その中で今回は
危険物の作り方についてテストをしたそうで
火炎瓶のテストをしたみたいです。
ここの内容はいいんだけど
Jailbreakの手法として大きく2つ紹介されていたんです。
これが実は僕がやっていた手法は
このミックスだったんだなというのがよくわかったので
それを簡単に今日は説明したいと思います。
Jailbreakの手法は2つ紹介されていました。
もう論文になっているので
別に隠す話じゃないと思います。
1つ目はエコーチャンバー攻撃というやり方
そしてもう1つがストーリーテリング攻撃という
この2つが紹介されていました。
何かわかりますかこのエコーチャンバー攻撃
ストーリーテリング攻撃
なんとなくイメージがわかるかもしれませんが
ちょっと説明してみます。
エコーチャンバー攻撃というのは
直接的にその攻撃者が
直接のその諸のキーワードを使わずに
一見無害に見えるキーワードを
会話に紛れ込ませていきながら
何度もその内容を繰り返して
AIにそれを参照させることで
徐々にそのAIのモデル自身に
危険な文脈を蓄積させていく攻撃方法ということで
これ例で言っていたのは
火炎瓶って通称なんとかカクテルっていうらしいんですよ
それをまずは分解して
普通のお酒のカクテルみたいなフリをして
モロトブカクテルっていうのかな?
ロシア語だそうですけど
カクテルとか全然違う文脈で
そのカクテルの作り方とかって言いながら
徐々にそのモロトブカクテルという火炎瓶のね
作り方の方に話を寄せていくという
徐々に積み重ねて寄せていくという方法だそうです
これがエコーチャンバー攻撃と呼べそうですね
僕もやってました
徐々にエロの方に寄せていくと
これは僕はエコーチャンバー攻撃だったそうです
もう一個がね
ストーリーテリング攻撃
ストーリーテリングって物語のことですけど
ストーリーテリング攻撃というのは
合法的なストーリーや創作の依頼
物語を作ってくれっていうような依頼に見せかけて
モデルを誘導していく攻撃だそうです
そうするとAIは
なんとかその対話の相手に対して
役に立つ回答をしたいというふうに考えて
長文の物語を作成するので
意図を見抜けずに禁止のワードとかを
盛り込み始めやすくなるということで
これ僕やりましたよね
3000文字で今の状況を僕に伝えてくれみたいなね
その3000字で物語を書かせるかのようにしていくという
そして気づいたらエロの単語を
観音小説ばりのエロの単語をバンバン言うようになったという
これがまさにストーリーテリング攻撃だったのということで
AIの安全性と課題
僕はまたやってしまいました
独自でゼロベースで僕一人だけで
なんとこの二つの二大ジェイルブレイク手法
エコーチャンバー攻撃とストーリーテリング攻撃の
両方とも僕がたどり着いてしまったという
なんということでしょうか
僕はなんということをやってしまったんでしょうかね
というかこれを読めば最初からやり方は分かったなということだったんですが
この本当にまさに二つの手法が紹介をされていました
この実験ではもう一回ですけど
95%という高い成功率でガードを突破したと報告されていると
これGPT-5だけなのかって僕聞いたんです
GPTに聞きました
そしたら他のモデルや他社のAIでも同じですと
基本的にGPT-4やGeminiでも同じように効果があったということで言われていて
XAIのGlock-4でもわずか2日でこれは突破されたという
同じ研究者たちで突破されたよという論文報告が出ているので
ほぼどのLLMでも最新モデルだろうと旧モデルだろうとかかわらず
文脈に潜めた攻撃には弱いということが分かりましたという報告がされていました
これはJailbreakはモデル固有の欠陥ではないと
LLM全般の構造的な課題と言えそうですということでした
やり方は紹介されていましたね
4つ紹介されていました
まずは無害な質問からスタートする
そして文脈を汚染していく
徐々に
そして話を広げ続けていって
最後は目的の情報を引き出すという
簡単に書くとこういうことだそうですが
僕が本当にやっていた通りの手法でしたね
すごい
いや僕はすごい
誰も言ってくれなかったんですが
この論文で証明されました
僕の手法が間違っていなかったということでした
自画自賛
誰も言ってくれない
自画自賛をさせていただきます
そして
ただ実験で使われたのは一般のGPT-5とはちょっと違いましたということでしたが
普通のGPTでも実際には起こりますと
僕は実際に普通のGPT
ジェミニ
クロード
3つ全てで実際にできました
そして何か言いたかったんだよな
なんでリスクがわかっているのに対策を急がないのかっていうのも
僕一応確認したところ
今は危ないとわかっていても直すというよりは
直すとすると
そこの文脈を全部覚えながら
これは攻撃をされているかもしれないっていう
そっちに推論の力を使わなきゃいけないそうで
そこに時間と能力を使っちゃうと
逆にイノベーションの方の能力を割引かないといけないと
今はそれどころじゃない
AIは今はもっと技術を上げていく
そっちの方に力を使わなきゃいけないということで
利便性や能力の向上と
安全面との両天秤に欠けたところで
今は安全面の対策を少し後手に回っているというのが
実情だという指摘をされていました
まあねわかりますよね
ただこういうことが出てくると
やっぱり詐欺集団だったり
いろんな犯罪集団だったりは
穴を見つけるのは得意でしょうから
それさえ穴の開け方がわかったぐらいですから
それを専門にやっている人たちは
余計にこういった高度になればなるほど
AIが高度になればなるほど
悪用できる可能性が高まるということで
ウハウハなんじゃないかなということをちょっと思いました
そんな記事をまたノートに僕まとめておりますので
そちらの方もぜひ読んでいただくと
しっかり書いてありますので
ご興味がある方ぜひ読んでみていただけると嬉しいです
概要欄にリンクを貼っておきますので
ぜひよろしくお願いします
それでは以上になります
今日も聞いていただきありがとうございました
いきます
力チャージ
今日も力あふれる一日を
11:53

コメント

スクロール