Google 的 Gemini 在測試中表現最不理想。它最初並未直接生成程式碼,反而提供了一份架構分析、關於 DOM 遍歷的教學,以及一段需要貼入代理整合開發環境(IDE)的提示。當作者要求其開發程式碼時,Gemini 試圖將搜尋欄位直接注入 Instagram 的使用者介面中,但該搜尋欄位始終未出現。在經歷六輪不斷失敗的修正後,搜尋欄位雖最終現身,卻仍無法找到任何觀看者,未能實現任何搜尋功能。
Claude 成功克服挑戰
相較之下,Anthropic 的 Claude 展現了出色的問題解決能力。儘管其第一個版本也未能運作,但 Claude 隨後主動分析了 Instagram 的文件物件模型(DOM)結構,並利用 Instagram 的內部應用程式介面(API)端點重新建構了擴充功能。作者表示,Claude 解釋這些內部 API 端點在已登入狀態下更為可靠。最終,經過這次調整,Claude 成功開發出一個完全符合預期且功能完善的 Chrome 擴充功能。作者總結,Claude 是此次測試中最快且僅用最少訊息就達成目標的模型,也是唯一一個成功開發出完全可用工具的模型。