中國人工智慧新創公司駐派人工智慧(Z.ai)昨日正式發布其最新開源大語言模型GLM-5.1,並採用寬鬆的MIT授權協議。這款模型在多項指標上展現卓越性能,特別是在衡量程式編寫能力的SWE-Bench Pro基準測試中,以58.4分的成績超越了GPT-5.4的57.7分與Claude Opus 4.6的57.3分,引發業界高度關注。
除了SWE-Bench Pro的亮眼成績,GLM-5.1在其他專業基準測試中亦表現不俗。它在KernelBench Level 3測試中實現3.6倍的幾何平均加速(雖然仍略遜於Claude Opus 4.6的4.2倍)。在Terminal-Bench 2.0中,其得分為63.5分;CyberGym上得分68.7分;MCP-Atlas和T3-Bench則分別達到71.8分和70.6分。在邏輯推理領域,GLM-5.1在Humanitys Last Exam測試中,若允許使用外部工具,得分可從31.0躍升至52.3分,並在AIME 2026數學競賽基準測試中取得95.3分。