然而,AI在防禦端的實際成效仍面臨挑戰。Simbian Research Lab今日發布的網路防禦基準測試顯示,領先的大型語言模型(LLM)雖然擅長攻擊利用,但在自主偵測複雜攻擊鏈方面卻表現不佳,沒有任何受測模型達到及格分數。研究發現,防禦性AI任務在結構上比攻擊性任務更為艱難,因為防禦端需在嘈雜且不完整的證據中進行推論,且無法得知惡意事件的總數。儘管Anthropic旗下的Claude Opus 4.6在11個受測模型中表現最佳,其對MITRE攻擊策略的平均偵測率僅達46%,在「資源開發」方面最高達63%,但在「收集」類別則驟降至25%。相較於Google Gemini 3 Flash,Claude Opus 4.6的偵測旗標數是其三倍,但單次調查成本卻高出約100倍。包括GPT-5和Gemini 3.1 Pro在內的中價位模型,偵測率則僅約2%。研究人員強調,大型語言模型的原始推理能力只是安全解決方案的其中一環,要達到企業級精準度,模型仍需搭配提供組織背景、確定性檢索和結構化調查循環的「框架」(harness)。
面對日益嚴峻的AI驅動威脅,組織應重新評估網路安全治理模型和資訊風險框架,以確保合規並有效應對衝擊。諸如健康保險便利和責任法案(HIPAA)、金融服務法現代化法案(GLBA)、健康資訊科技經濟及醫療衛生法案(HITECH Act)等現行法規,普遍要求組織須合理應對預期中的網路威脅。美國國家標準暨技術研究院(NIST)的網路安全框架2.0及AI風險管理框架,以及開放全球應用程式安全專案(OWASP)的Agentic AI和LLM Top 10框架等,都值得組織借鑒。企業領導層必須認知到,網路安全這場沒有終點的競賽已經開跑,積極導入AI防禦能力、更新風險框架並與具備資安意識的合作夥伴攜手,才能更好地應對AI威脅帶來的風險。