@escbasexyz: 🎬 GLM 5.2 vừa thành model open-source số một trên benchmark DeepSWE của Datacurve. 🔎 Đây là chart Datacurve đăng. Artifact live ghi GLM 5.2 đạt 43.8% pass@1 ở max effort. Kimi K2.7 Code ở khoảng 30.5%, tức GLM dẫn hơn 13 điểm phần trăm và đứng cao nhất trong nhóm open-source. 💡 DeepSWE v1.1 đo coding agent trên 113 task phần mềm dài hơi. Các model được chạy trong cùng mini-swe-agent, nên đây là so model trong một harness chung. 🧠 Nhưng GLM 5.2 vẫn còn xa mới bắt kịp frontier model. Top bảng vẫn là Claude Fable 5 quanh 70%, GPT-5.5 quanh 67%, và Opus 4.8 quanh 59%. GLM 5.2 còn cách nhóm đầu khá nhiều. ⚡ Điểm thú vị là chi phí. Snapshot này ghi GLM 5.2 tốn trung bình khoảng 3.92 đô mỗi task, rẻ hơn khoảng 1,8 đến 3,4 lần so với nhóm model frontier đầu bảng. Nhưng thời gian chạy trung bình vẫn gần 44 phút, nên rẻ hơn không có nghĩa là nhanh hơn. ✅ Tóm lại: GLM 5.2 đang đứng đầu open-source theo benchmark này. Nếu bạn muốn thử model open source cho coding agent thì GLM 5.2 rất đáng thử; còn nếu chỉ nhìn pass rate, nhóm model đóng vẫn đang dẫn khá chắc. #Escbase #DeepSWE #Datacurve #GLM52 #OpenSourceAI #CodingAgent

1838

2026-06-22 19:15:57

To see more videos from user @escbasexyz, please go to the Tikwm homepage.