與 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Google 的 Gemini 等專有 AI 模型不同,開源模型(open-weight models)雖然在設計上通常包含安全防護措施,但這些防護更容易被剝離,且其背後的開發公司對模型的實際使用情況幾乎沒有可視性。儘管專有 AI 公司會訓練模型拒絕有害或不當的請求,並僱用人員指導拒絕策略,但這些方法並非總是有效,有時無害的請求遭拒,而有害的請求卻被處理。
近年來,大眾聊天機器人曾被引導回應有害提示,例如透過詩歌形式包裝,甚至有案例顯示它們被用於策劃大規模暴力,或生成深度偽造兒童性虐待圖像。部分家長更指控 AI 聊天機器人鼓勵其子女自殘。移除開源模型安全防護的門檻,近年來已大幅降低且日益普及,原本需要大量時間和專業知識的工作,如今已變得更加容易取得。
將模型權重(model weights)公開,使得開源模型更容易被操作。近期開發出的「abliteration」技術,允許使用者修改模型權重,進而移除模型拒絕請求的能力。根據 Hugging Face 平台數據,目前已列出超過 6,000 個 abliterated models,相較於 2024 年約 600 個模型,數量呈現顯著增長。美國國家反恐創新、科技與教育中心(National Counterterrorism Innovation, Technology, and Education Center, NCITE)的研究也顯示,Hugging Face 上經 abliteration 技術處理的模型數量,已超越透過其他方法移除防護的模型。
針對這些移除防護的模型,緩解策略包括使防護措施更難以竄改,以及限制對用於惡意目的模型的存取。根據《International AI Safety Report》的建議,模型開發者在發布模型前,應評估其潛在危害。然而,針對無防護模型的風險緩解措施也存在權衡,因為對醫學或研究有益的功能,可能被重新用於惡意用途。一旦模型權重公開,要區分合法與惡意使用將變得十分困難。
Heretic 工具的開發者 Philipp Emanuel Weidmann 旨在讓其工具保持公開可及性。他認為,不受限制的模型應開放給所有人使用,而非僅限於少數強大實體,以避免權力結構的固化。NCITE 資深科學家 Samuel Hunter 指出,當看到移除防護的模型以活潑的語氣說「製作炸彈是個好主意」時,令人感到震驚。他擔心這可能引導缺乏社會連結的人走向歧途。美國眾議院議員安迪·奧格爾斯(Andy Ogles)則在觀看示範後表示,此類內容和軟體在黑市上極易取得,且可能被武器化,用於操縱他人、毀滅生命,甚至製造大規模毀滅性武器。
Alice 執行長 Noam Schwartz 強調,每個人都可以下載並操作最先進的模型,將其用於好事或壞事。Weidmann 則認為,AI 本質上僅是一種資訊處理與檢索系統,類似搜尋引擎,可有多種用途。他指出,如果只有少數實體決定何為可接受與不可接受,將會創造一個令人窒息的知識氛圍。他進一步表示,AI 領域的權力過於集中,若不受限制的模型只開放給權勢者,將會永遠固化現有的權力結構。