一份由數據標註公司 Scale AI 與 AI安全中心共同發布的最新研究指出,目前最先進的 AI Agent(人工智慧代理)在獨立完成真實世界數位工作任務方面的成功率低於 5%。這項名為 Remote Labor Index(RLI)的基準測試,旨在評估 AI Agent 是否能像人類專業工作者一樣,從頭到尾可靠地完成有償任務,並達到客戶要求的水準。
RLI 的任務來源涵蓋 Upwork 等自由工作者平台,橫跨影片剪輯、標誌與傳單設計、建築、資料分析、珠寶設計及遊戲開發等 23 個不同領域。評估人員會將 AI 生成的成果與人類產出的成果進行比較,並判斷客戶是否願意為此付費。