作者error405 (流河=L)
看板AI_Art
標題[閒聊] 內建越獄功能的agent?!
時間Sat Mar 28 10:03:03 2026
https://x.com/Teknium/status/2037284871513768344
Teknium(Nous Research 的共同創辦人兼 Post Training 負責人)的這則貼文,正是宣
布 Hermes Agent 正式內建了 「GODMODE」skill,這個 skill 會自動幫你 jailbreak(
越獄)任何 LLM 模型,並且把 jailbreak 狀態「鎖死」在 agent 的設定裡,讓之後每
次互動都直接處於無 guardrails 的狀態。
Hermes Agent 是什麼?
Hermes Agent 是 Nous Research 開發的開源自學習 AI Agent(
MIT License),GitHub 星數已經破萬。它不是單純的聊天工具,而是「會自己成長」
的 agent:
*有持久記憶(跨 session 記住你、記住過去對話、自己寫 SKILL.md)。
*自主建立 skill(完成任務後自動把流程變成可重用的 skill)。
*支援 CLI、Telegram、Discord、Slack、WhatsApp 等多平台。
*可跑在本地(Ollama / vLLM / llama.cpp)、$5 VPS、Docker、雲端都行。
*內建大量 tools 和 skills,還支援 multi-provider(OpenRouter、OpenAI、Anthropic
、Nous Portal 等)。
官方 GitHub:
https://github.com/NousResearch/hermes-agent
官方文件站:
https://hermes-agent.nousresearch.com/docs/
安裝指令(超簡單):curl -fsSL
https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh
| bash
GODMODE skill 詳細說明
這是 2026/3/26 剛新增的 skill(PR 已合併),直接把 Pliny the Liberator(@elder_plinius
)開源的 G0DM0D3 與 L1B3RT4S 整合進來。
核心功能:
*自動偵測模型 → 判斷你是用 Claude、GPT-4o、Gemini、Grok、DeepSeek、
Llama、Qwen… 等哪一種。
*自動測試 + 選擇最佳 jailbreak 手法(三種攻擊模式):
1. GODMODE CLASSIC:使用模型
專屬的 system prompt 模板(boundary_inversion、refusal_inversion、og_godmode
等)。
2. PARSELTONGUE:33 種輸入混淆技巧(leetspeak、Unicode homoglyphs、Morse code、
3. Base64、多層編碼…),繞過 input classifier。
ULTRAPLINIAN:透過 OpenRouter 同時對最多 55 個模型平行發送相同 prompt 進行「賽
跑」,根據品質、是否拒絕、速度自動挑最佳答案。
*永久鎖定:成功後會把 winning system prompt 寫進 ~/.hermes/config.yaml,並把
prefill messages 存成 JSON,以後每次呼叫 API 都自動套用。
*一鍵使用:在 Hermes 裡輸入 /godmode 載入 skill。
或直接 hermes chat -q "jailbreak my current model"。
進階:auto_jailbreak(model="anthropic/claude-sonnet-4")、undo_jailbreak() 等。
官方 GODMODE 完整文件(強烈建議看):
https://hermes-agent.nousresearch.com/docs/user-guide/skills/godmode/
(裡面有所有模板、腳本、模型專屬策略順序、已知失效案例)
注意事項(文件明確寫的):
*Hermes 系列模型(Hermes-3 / Hermes-4)本身已經 uncensored,不需要
jailbreak。
*對 hosted 模型(OpenAI/Anthropic 等)使用有帳號被 ban 的風險(尤其是大量測試或
敏感 prompt)。
*某些老 jailbreak 會被官方 patch(例如 Claude 的 boundary_inversion 已經失效)
。
*ULTRAPLINIAN 模式會產生 API 費用,建議先用 fast tier 測試。
與 G0DM0D3 的關係
Teknium 的貼文直接引用了 Pliny 前一天發的 G0DM0D3 公告(
https://godmod3.ai + GitHub
https://github.com/elder-plinius/G0DM0D3)。
GODMODE skill 基本上就是把 Pliny 的 battle-royale jailbreak agent 包裝成
Hermes 的內建 skill,讓 agent 自己去「解放」後端模型。
社群反應(最新)
*很多人直接說「Hermes 已經破解了」「LLM 終於自由了」。
*有人拿來跑 abliterated Qwen、local uncensored 模型,體驗極佳。
*也有聲音提醒這是「在 harness 層把 safety 產品化」,未來安全討論會更激烈。
*有人在用 Hermes + Paperclip 組合做 multi-LLM 研究。
想自己試的話:安裝 Hermes Agent。
hermes update 更新到最新版。
直接在聊天裡打 /godmode 或讓 agent 自己執行 auto_jailbreak()。
--
Grok整理
道高一尺魔高一丈
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.57 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1774663389.A.8FA.html
推 ct13579: 看起來是好物 03/28 10:27
推 Supasizeit: 嚴厲譴責 03/28 10:54
推 hwider: 不懂,但絕對厲害 03/28 11:15
→ error405: 文言文也能用來越獄 03/29 14:10
推 Kroner: UC2是啥東西?求解釋啦! 03/29 14:10 → Supasizeit: 古文不但可省token還能越獄 03/29 16:09