[閒聊] 內建越獄功能的agent?!

作者error405 (流河=L)

看板AI_Art

標題[閒聊] 內建越獄功能的agent?!

時間Sat Mar 28 10:03:03 2026

https://x.com/Teknium/status/2037284871513768344 Teknium（Nous Research 的共同創辦人兼 Post Training 負責人）的這則貼文，正是宣布 Hermes Agent 正式內建了「GODMODE」skill，這個 skill 會自動幫你 jailbreak（越獄）任何 LLM 模型，並且把 jailbreak 狀態「鎖死」在 agent 的設定裡，讓之後每次互動都直接處於無 guardrails 的狀態。 Hermes Agent 是什麼？ Hermes Agent 是 Nous Research 開發的開源自學習 AI Agent（ MIT License），GitHub 星數已經破萬。它不是單純的聊天工具，而是「會自己成長」的 agent： *有持久記憶（跨 session 記住你、記住過去對話、自己寫 SKILL.md）。 *自主建立 skill（完成任務後自動把流程變成可重用的 skill）。 *支援 CLI、Telegram、Discord、Slack、WhatsApp 等多平台。 *可跑在本地（Ollama / vLLM / llama.cpp）、$5 VPS、Docker、雲端都行。 *內建大量 tools 和 skills，還支援 multi-provider（OpenRouter、OpenAI、Anthropic 、Nous Portal 等）。官方 GitHub：https://github.com/NousResearch/hermes-agent 官方文件站：https://hermes-agent.nousresearch.com/docs/ 安裝指令（超簡單）：curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash GODMODE skill 詳細說明這是 2026/3/26 剛新增的 skill（PR 已合併），直接把 Pliny the Liberator（@elder_plinius ）開源的 G0DM0D3 與 L1B3RT4S 整合進來。核心功能： *自動偵測模型 → 判斷你是用 Claude、GPT-4o、Gemini、Grok、DeepSeek、 Llama、Qwen… 等哪一種。 *自動測試 + 選擇最佳 jailbreak 手法（三種攻擊模式）： 1. GODMODE CLASSIC：使用模型專屬的 system prompt 模板（boundary_inversion、refusal_inversion、og_godmode 等）。 2. PARSELTONGUE：33 種輸入混淆技巧（leetspeak、Unicode homoglyphs、Morse code、 3. Base64、多層編碼…），繞過 input classifier。 ULTRAPLINIAN：透過 OpenRouter 同時對最多 55 個模型平行發送相同 prompt 進行「賽跑」，根據品質、是否拒絕、速度自動挑最佳答案。 *永久鎖定：成功後會把 winning system prompt 寫進 ~/.hermes/config.yaml，並把 prefill messages 存成 JSON，以後每次呼叫 API 都自動套用。 *一鍵使用：在 Hermes 裡輸入 /godmode 載入 skill。或直接 hermes chat -q "jailbreak my current model"。進階：auto_jailbreak(model="anthropic/claude-sonnet-4")、undo_jailbreak() 等。官方 GODMODE 完整文件（強烈建議看）： https://hermes-agent.nousresearch.com/docs/user-guide/skills/godmode/ （裡面有所有模板、腳本、模型專屬策略順序、已知失效案例）注意事項（文件明確寫的）： *Hermes 系列模型（Hermes-3 / Hermes-4）本身已經 uncensored，不需要 jailbreak。 *對 hosted 模型（OpenAI/Anthropic 等）使用有帳號被 ban 的風險（尤其是大量測試或敏感 prompt）。 *某些老 jailbreak 會被官方 patch（例如 Claude 的 boundary_inversion 已經失效）。 *ULTRAPLINIAN 模式會產生 API 費用，建議先用 fast tier 測試。與 G0DM0D3 的關係 Teknium 的貼文直接引用了 Pliny 前一天發的 G0DM0D3 公告（ https://godmod3.ai + GitHub https://github.com/elder-plinius/G0DM0D3）。 GODMODE skill 基本上就是把 Pliny 的 battle-royale jailbreak agent 包裝成 Hermes 的內建 skill，讓 agent 自己去「解放」後端模型。社群反應（最新） *很多人直接說「Hermes 已經破解了」「LLM 終於自由了」。 *有人拿來跑 abliterated Qwen、local uncensored 模型，體驗極佳。 *也有聲音提醒這是「在 harness 層把 safety 產品化」，未來安全討論會更激烈。 *有人在用 Hermes + Paperclip 組合做 multi-LLM 研究。想自己試的話：安裝 Hermes Agent。 hermes update 更新到最新版。直接在聊天裡打 /godmode 或讓 agent 自己執行 auto_jailbreak()。 -- Grok整理道高一尺魔高一丈 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.57 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1774663389.A.8FA.html

推 ct13579: 看起來是好物 03/28 10:27

推 Supasizeit: 嚴厲譴責 03/28 10:54

推 hwider: 不懂，但絕對厲害 03/28 11:15

→ error405: https://www.youtube.com/watch?v=gTwETzRitQ4 03/29 14:10

→ error405: 文言文也能用來越獄 03/29 14:10

推 Chricey: UC2推薦？有人試過嗎？靠譜嗎？ 03/29 14:10

→ Supasizeit: 古文不但可省token還能越獄 03/29 16:09

推 newyorker54: 哈哈哈，古文觀止列為資工電機必修課 03/30 15:09

推 newyorker54: 不好用 03/31 18:19