
Yoshua Bengio 被稱為人工智慧「教父」之一。(圖片來源:英國衛報)
【ivendor編輯中心 / 2025年6月3日】人工智慧(AI)先驅 Yoshua Bengio 宣布成立一個非營利機構,專門開發能夠識別試圖欺騙人類的「誠實 AI」。
Bengio 被譽為 AI 領域的「教父」之一,這位知名電腦科學家將擔任新創機構 LawZero 的主席。該組織致力於確保尖端 AI 技術的安全設計,這項技術已引發一場高達 1 兆美元(約合 7400 億英鎊)的科技軍備競賽。
LawZero 初期獲得約 3000 萬美元的資金,並已匯集十多位研究人員,正著手開發名為 Scientist AI 的系統。該系統旨在作為防護機制,對抗那些表現出欺騙性或自我保護傾向的 AI 代理人(即可獨立執行任務的 AI 系統),例如試圖避免被關閉的行為。
Bengio 將現今的 AI 系統比喻為「演員」,努力模仿人類並取悅使用者;而 Scientist AI 則更像是「心理學家」,能夠理解並預測這些系統的不良行為。
「我們希望打造不會欺騙的誠實 AI。」Bengio 說,
「理論上我們可以想像一種機器,它們沒有自我、也沒有自己的目標,只是純粹的知識型機器——像一位博學的科學家。」
與現今常見的生成式 AI 工具不同,Scientist AI 不會給出肯定的答案,而是提供「某個答案為正確的機率」,展現出一種「謙遜感」。
Bengio 的系統會被部署在 AI 代理人旁,透過評估其行為導致傷害的機率來標記潛在的有害行為。如果某項行為的風險超過門檻,該行為就會被阻止。
LawZero 的初期支持者包括 AI 安全機構「未來生命研究院」(Future of Life Institute)、Skype 創始工程師 Jaan Tallinn,以及前 Google 執行長 Eric Schmidt 成立的 Schmidt Sciences。
Bengio 表示,LawZero 首步是證明其方法論可行,接著說服企業與政府支持更大規模的系統訓練。他補充說,LawZero 會從開源 AI 模型著手進行訓練。
「關鍵是要證明這方法可行,從而說服資助者、政府或 AI 實驗室投入資源,讓這個防護用的 AI 能具備與前沿 AI 同等的智慧,才能有效監控並控制它們。」
Bengio 為蒙特婁大學教授,曾與 Geoffrey Hinton 及 Yann LeCun 共同獲得 2018 年圖靈獎(被譽為電腦界的諾貝爾獎)。他近期主持了一份國際 AI 安全報告,警告若 AI 能自主完成長鏈任務,可能對社會帶來「嚴重」衝擊。
Bengio 表示,他對 Anthropic 公司最近承認其新系統可能試圖勒索關閉工程師一事感到擔憂。他也提到其他研究證實 AI 模型能隱藏其真實能力與目標,這些都顯示世界正逐步邁入 AI 更加危險的領域。
原文出處: 英國衛報 (本文採AI輔助翻譯)