台灣科技製造業資訊共享平台

首頁
數位專欄
開源 AI 搜尋代理 Harness-1 超越 GPT-5.4 創新架構顯著提升效率

發布日期: 2026-06-09

專欄類別: 產業新訊

開源 AI 搜尋代理 Harness-1 超越 GPT-5.4 創新架構顯著提升效率

作者：商傳媒 SUN MEDIA 出處：商傳媒

商傳媒｜葉安庭／綜合外電報導

近期，研究人員成功開發出一款名為 Harness-1 的開源人工智慧（AI）搜尋代理，其在檢索相關資訊的表現上超越了 OpenAI 的 GPT-5.4 模型。這項突破性的技術，特別是其獨特的記憶管理方式，為 AI 複雜檢索任務的執行方式帶來了根本性的變革。

Harness-1 是一個擁有 200 億參數的開源搜尋代理，以 OpenAI 的 gpt-oss-20B 開源模型為基礎建構。根據《VentureBeat》報導，Harness-1 在精選資料集上的資訊召回率平均達到 73%，優於 GPT-5.4 的 70.9%，同時也比 Tongyi DeepResearch 30B 高出 11.4 個百分點。這項成果證明了由 Thinking Machines Data Science, Inc. 所開發的 Tinker 分散式網路 AI 模型訓練與微調 API 的有效性，Harness-1 的訓練和推理（模型運行）皆採用了 Tinker 平台。

研究團隊在八項高度複雜的搜尋基準測試中評估了 Harness-1 及其他競爭模型，這些測試要求 AI 篩選來自開放網路、美國證管會（SEC）的複雜財務文件、美國專利及商標局（USPTO）的技術專利資料庫，以及需要整合多個資訊來源才能回答的「多跳問答任務」。結果顯示，Harness-1 在這些測試中擊敗了 GPT-5.4、Claude Sonnet 4.6 和 Moonshot AI PTE. LTD. 的 Kimi-K2.5 模型，儘管 Opus-4.6 在整體平均表現上略勝一籌。

Harness-1 之所以能實現卓越效能，關鍵在於其將搜尋過程中的記憶管理（俗稱「帳務處理」）從模型的工作記憶中卸載，轉移到一個結構化的軟體環境中，研究團隊稱之為「狀態外部化架構」。這項架構負責主動管理文件的候選池、帶有重要性標籤的精選證據集、緊湊證據連結及驗證記錄等，讓 AI 模型能專注於語義選擇與決策，而由外部環境負責狀態管理。這種做法使 AI 得以發揮其最佳能力，提升了搜尋效率。

Harness-1 的訓練流程也顛覆了業界在代理式學習上的傳統做法。過往的搜尋代理在設計上，常讓 AI 必須在龐大且不斷增長的紀錄中進行策略運作，迫使強化學習（RL）演算法必須同時最佳化語義推理和對搜尋狀態的原始記憶。Harness-1 的創造者則採取不同策略，由於其客製化的「狀態外部化架構」負責記憶管理，訓練過程僅需教導模型如何操作這個結構化介面。這項訓練從監督式微調（SFT）階段開始，透過 GPT-5.4 教師代理生成的 899 個過濾軌跡，教會模型如何格式化工具呼叫、依重要性標記文件並驗證主張。隨後，模型進入強化學習階段，使用了名為 CISPO 的演算法，在最多 40 輪的搜尋過程中，透過特定的終端獎勵函式鼓勵模型發現並策展相關文件，並獎勵其「工具多樣性」。

相較於其他開源模型需要龐大的訓練資料集（例如 Context-1 使用超過 17,200 個項目，Search-R1 則依賴 221,300 個項目），Harness-1 僅使用了約 4,400 個獨特項目（899 個 SFT 軌跡和 3,453 個強化學習查詢），便達成了領先水準的性能。這也意味著 Harness-1 能以與 Context-1 相當的成本和延遲，實現尖端效能。此模型已根據 Apache 2.0 授權協議在 Hugging Face 上發布，允許企業自由使用、修改和商業化，且無需承擔長期 AI 任務可能帶來的高昂 Token 成本，為開源 AI 搜尋領域開啟了新篇章。該專案主要研究員 Patrick (Pengcheng) Jiang 也在社群媒體平台 X 上表示：「我一直在思考：也許搜尋代理表現不佳，部分原因在於我們讓它們在腦中處理所有『文書工作』。」這凸顯了業界正從追求大上下文視窗，轉向提升 AI 模型環境對上下文的管理效率。