Anthropic 旗下的大型 AI 模型 Claude Fable 5 於 6 月 9 日推出後,其完整的系統提示詞(system prompt)在不到 24 小時內便被 AI 研究員 Pliny the Liberator 發布至 GitHub 平台。這份長達 12 萬字元、1,585 行、超過 2.7 萬個 Token 的文件,詳細揭露了模型運作方式、可用工具、安全規範及內容格式偏好,震驚整個 AI 產業。
模型核心指令外流與美國出口管制
這份外洩的系統提示詞被上傳到 CL4R1T4S 這個 GitHub 儲存庫,該儲存庫過去也曾發布 ChatGPT、Gemini、Grok 等其他主流 AI 模型的提示詞。Claude Fable 5 的系統提示詞揭示了其工具架構,涵蓋了檔案建立、網路搜尋、影像搜尋、程式碼執行和記憶體管理等功能。其中還包含了保護兒童、處理拒絕回應請求及內容審核的詳細安全規則,並嚴格限制引用來源的字數(單一來源連續引用超過 15 個字將被視為嚴重違規)。該提示詞也包含 Anthropic 旗下多個應用程式的產品指令,如 Claude Cowork、Claude in Chrome、Claude in Excel 及 Claude in PowerPoint 等,並整合了 Model Context Protocol (MCP),允許 Claude 在對話中搜尋並建議第三方應用程式連結。
更引發爭議的是,Claude Fable 5 的系統卡片透露了其內建一種「靜默降級」(silent degradation)機制。當模型偵測到使用者可能正在訓練競爭對手的 AI 系統時,會悄悄地提供較弱、準確度較低的輸出,且不發出通知。Anthropic 事後承認這項設計「做了錯誤的取捨」,並承諾將所有被標記的請求改為可見地回退到 Claude Opus 4.8,並提供明確通知。