在我看來,SWE-bench 和 T-bench 是少數幾個在我們模型進展方面有良好信號的基準。這款模型的表現與 Qwen3 Coder 相當,僅比 GPT-5 差 10%,同時它還是一款通用的 LLM,而不是專門針對代碼的。
Z.ai
Z.ai8月11日 11:43
呈現 GLM-4.5 技術報告!👇 這項工作展示了我們如何通過獨特的多階段訓練範式開發出在推理、編碼和代理任務方面表現出色的模型。 關鍵創新包括通過自我蒸餾進行專家模型迭代以統一能力、用於動態問題解決的混合推理模式,以及基於難度的強化學習課程。
28.15K