近期,研究人員成功開發出一款名為 Harness-1 的開源人工智慧(AI)搜尋代理,其在檢索相關資訊的表現上超越了 OpenAI 的 GPT-5.4 模型。這項突破性的技術,特別是其獨特的記憶管理方式,為 AI 複雜檢索任務的執行方式帶來了根本性的變革。
Harness-1 是一個擁有 200 億參數的開源搜尋代理,以 OpenAI 的 gpt-oss-20B 開源模型為基礎建構。根據《VentureBeat》報導,Harness-1 在精選資料集上的資訊召回率平均達到 73%,優於 GPT-5.4 的 70.9%,同時也比 Tongyi DeepResearch 30B 高出 11.4 個百分點。這項成果證明了由 Thinking Machines Data Science, Inc. 所開發的 Tinker 分散式網路 AI 模型訓練與微調 API 的有效性,Harness-1 的訓練和推理(模型運行)皆採用了 Tinker 平台。
研究團隊在八項高度複雜的搜尋基準測試中評估了 Harness-1 及其他競爭模型,這些測試要求 AI 篩選來自開放網路、美國證管會(SEC)的複雜財務文件、美國專利及商標局(USPTO)的技術專利資料庫,以及需要整合多個資訊來源才能回答的「多跳問答任務」。結果顯示,Harness-1 在這些測試中擊敗了 GPT-5.4、Claude Sonnet 4.6 和 Moonshot AI PTE. LTD. 的 Kimi-K2.5 模型,儘管 Opus-4.6 在整體平均表現上略勝一籌。
Harness-1 之所以能實現卓越效能,關鍵在於其將搜尋過程中的記憶管理(俗稱「帳務處理」)從模型的工作記憶中卸載,轉移到一個結構化的軟體環境中,研究團隊稱之為「狀態外部化架構」。這項架構負責主動管理文件的候選池、帶有重要性標籤的精選證據集、緊湊證據連結及驗證記錄等,讓 AI 模型能專注於語義選擇與決策,而由外部環境負責狀態管理。這種做法使 AI 得以發揮其最佳能力,提升了搜尋效率。