@escbasexyz: 📊 Opus 4.8 cải thiện thật trên DeepSWE, nhưng GPT-5.5 vẫn đang dẫn khá xa. 🔎 Đây là benchmark coding agent dài hơi trong cùng mini-swe-agent, nên phải đọc đúng: so model trong một môi trường test chung, không phải so trực tiếp Claude Code, Codex hay Cursor ngoài đời. #Escbase #DeepSWE #Datacurve #Claude #Opus48 #GPT55 #CodingAgent
chat gpt ra 5.5 ra hoảng quá . ão tưởng sức mạnh quả usage 3x opus 4.7 . hoảnh loạn tung vội 4.8 mà cũng thua. chắc tuần sau ra 5.0 và đưa giá về mặt đất
2026-05-31 10:58:19
2
Zzzzz :
Về độ reasoning thì claude vẫn ăn đứt
2026-05-31 08:27:50
1
To see more videos from user @escbasexyz, please go to the Tikwm
homepage.