@liensandeal:

Liên Săn Deal

Open In TikTok:

Region: VN

Saturday 04 July 2026 03:32:24 GMT

484

1

1

1

Music

Download

No Watermark .mp4 (14.44MB) No Watermark(HD) .mp4 (14.44MB) Watermark .mp4 (0MB) Music .mp3

Comments

bình yên 🩷kaj siab :

không đặt được

2026-07-04 08:48:19

0

To see more videos from user @liensandeal, please go to the Tikwm homepage.

Other Videos

عدسة بريز قرين #عدسات #اكسبلور #explore #fyp

عدسة بريز قرين #عدسات #اكسبلور #explore #fyp

#وداعاً للبنطلون العادي 👋 هاد القص الدائري لحاله موديل محلات قطعة وحدة + 3 دقايق قص والنتيجة؟ شوفي الفيديو 👇 احفظي قبل ما تنسيه #خياطة_سريعة #ASENAT

#وداعاً للبنطلون العادي 👋 هاد القص الدائري لحاله موديل محلات قطعة وحدة + 3 دقايق قص والنتيجة؟ شوفي الفيديو 👇 احفظي قبل ما تنسيه #خياطة_سريعة #ASENAT

🎬 GPT-5.5 đang bỏ xa Opus 4.7 trên DeepSWE, một benchmark mới cho agentic coding. 🔎 DeepSWE được Datacurve giới thiệu để đo coding agent trên những task software engineering dài hơi hơn. Lý do họ làm benchmark này là vì nhiều leaderboard public khiến top model nhìn rất sát nhau. Nhưng khi bài test giống việc dev làm hằng ngày hơn, khoảng cách bắt đầu lộ ra. 💡 Điểm mạnh đầu tiên là task được viết mới từ đầu. DeepSWE có 113 task từ 91 repo open-source active, trải trên TypeScript, Go, Python, JavaScript và Rust. Cách làm này giảm rủi ro model đã thấy sẵn lời giải từ issue, pull request hoặc commit public. 🧠 DeepSWE không làm bài khó bằng cách nhồi prompt dài hơn. Prompt trung bình chỉ 2.158 ký tự, nhưng reference solution trung bình phải thêm 668 dòng code qua 7 file. Nói ngắn gọn: đề bài tự nhiên hơn, nhưng việc phải sửa giống engineering thật hơn. ⚡ Leaderboard vì vậy tách ra khá rõ. GPT-5.5 xhigh đạt 70%, GPT-5.4 xhigh đạt 56%, Claude Opus 4.7 max đạt 54%, còn Claude Sonnet 4.6 high ở 32%. Đây không còn là bài test xem model có vá được một bug nhỏ không, mà là xem agent có đi hết được một task nhiều file hay không. ✅ Phần efficiency mới làm khoảng cách giữa GPT-5.5 và Opus 4.7 đáng chú ý hơn. GPT-5.5 đạt 70% với median 47k output token và khoảng 20 phút mỗi trial. Opus 4.7 đạt 54%, nhưng dùng median 97k output token và khoảng 37 phút mỗi trial. 📌 Tính theo tiền, chênh lệch còn rõ hơn. GPT-5.5 khoảng 5,8 đô mỗi trial, còn Opus 4.7 khoảng 16 đô mỗi trial. Tức là trong chart này, GPT-5.5 vừa điểm cao hơn, vừa ít token hơn, vừa nhanh hơn, vừa rẻ hơn đáng kể. 🎬 GPT-5.4 cũng là một điểm đáng soi về chi phí. Nó đạt 56%, gần Opus 4.7 ở 54%, nhưng median cost chỉ khoảng 3,3 đô mỗi trial. Nếu chỉ nhìn ai đứng nhất thì GPT-5.5 nổi bật, nhưng nếu nhìn cost-performance thì GPT-5.4 cũng không thể bỏ qua. 🔎 DeepSWE còn nhấn mạnh phần verifier, tức bộ kiểm tra xem bài làm của agent đúng hay sai. Datacurve nói verifier của DeepSWE có false positive 0,3% và false negative 1,1%, thấp hơn nhiều so với SWE-Bench Pro trong audit của họ. Với coding benchmark, chấm sai có thể làm cả leaderboard nhìn đẹp nhưng kết luận bị lệch. 💡 Cộng đồng nói gì. Nhiều người khen DeepSWE vì task mới, lớn hơn, và khó bị học thuộc hơn. Nhưng cũng có người hỏi nếu chạy bằng Cursor, Copilot, Claude Code hay Codex CLI thay vì mini-swe-agent thì điểm số có đổi nhiều không; và benchmark public rồi liệu có bị train vào lại hay không. 🧠 Điểm cần nói rõ là DeepSWE chưa chứng minh GPT-5.5 sẽ luôn thắng trong mọi coding tool ngoài đời. Tất cả model đang được đo trong cùng một khung chạy agent, nên đây là một phép so sánh rất đáng xem, nhưng không thay thế trải nghiệm thực tế trong từng sản phẩm. Chốt lại, DeepSWE đáng chú ý vì nó kéo benchmark coding agent về gần câu hỏi thật hơn: agent có giải được task mới, dài, nhiều file, chấm điểm sạch, và không tạo thêm việc cho dev hay không. #Escbase #DeepSWE #GPT55 #Claude #AgenticCoding #CodingAgents

🎬 GPT-5.5 đang bỏ xa Opus 4.7 trên DeepSWE, một benchmark mới cho agentic coding. 🔎 DeepSWE được Datacurve giới thiệu để đo coding agent trên những task software engineering dài hơi hơn. Lý do họ làm benchmark này là vì nhiều leaderboard public khiến top model nhìn rất sát nhau. Nhưng khi bài test giống việc dev làm hằng ngày hơn, khoảng cách bắt đầu lộ ra. 💡 Điểm mạnh đầu tiên là task được viết mới từ đầu. DeepSWE có 113 task từ 91 repo open-source active, trải trên TypeScript, Go, Python, JavaScript và Rust. Cách làm này giảm rủi ro model đã thấy sẵn lời giải từ issue, pull request hoặc commit public. 🧠 DeepSWE không làm bài khó bằng cách nhồi prompt dài hơn. Prompt trung bình chỉ 2.158 ký tự, nhưng reference solution trung bình phải thêm 668 dòng code qua 7 file. Nói ngắn gọn: đề bài tự nhiên hơn, nhưng việc phải sửa giống engineering thật hơn. ⚡ Leaderboard vì vậy tách ra khá rõ. GPT-5.5 xhigh đạt 70%, GPT-5.4 xhigh đạt 56%, Claude Opus 4.7 max đạt 54%, còn Claude Sonnet 4.6 high ở 32%. Đây không còn là bài test xem model có vá được một bug nhỏ không, mà là xem agent có đi hết được một task nhiều file hay không. ✅ Phần efficiency mới làm khoảng cách giữa GPT-5.5 và Opus 4.7 đáng chú ý hơn. GPT-5.5 đạt 70% với median 47k output token và khoảng 20 phút mỗi trial. Opus 4.7 đạt 54%, nhưng dùng median 97k output token và khoảng 37 phút mỗi trial. 📌 Tính theo tiền, chênh lệch còn rõ hơn. GPT-5.5 khoảng 5,8 đô mỗi trial, còn Opus 4.7 khoảng 16 đô mỗi trial. Tức là trong chart này, GPT-5.5 vừa điểm cao hơn, vừa ít token hơn, vừa nhanh hơn, vừa rẻ hơn đáng kể. 🎬 GPT-5.4 cũng là một điểm đáng soi về chi phí. Nó đạt 56%, gần Opus 4.7 ở 54%, nhưng median cost chỉ khoảng 3,3 đô mỗi trial. Nếu chỉ nhìn ai đứng nhất thì GPT-5.5 nổi bật, nhưng nếu nhìn cost-performance thì GPT-5.4 cũng không thể bỏ qua. 🔎 DeepSWE còn nhấn mạnh phần verifier, tức bộ kiểm tra xem bài làm của agent đúng hay sai. Datacurve nói verifier của DeepSWE có false positive 0,3% và false negative 1,1%, thấp hơn nhiều so với SWE-Bench Pro trong audit của họ. Với coding benchmark, chấm sai có thể làm cả leaderboard nhìn đẹp nhưng kết luận bị lệch. 💡 Cộng đồng nói gì. Nhiều người khen DeepSWE vì task mới, lớn hơn, và khó bị học thuộc hơn. Nhưng cũng có người hỏi nếu chạy bằng Cursor, Copilot, Claude Code hay Codex CLI thay vì mini-swe-agent thì điểm số có đổi nhiều không; và benchmark public rồi liệu có bị train vào lại hay không. 🧠 Điểm cần nói rõ là DeepSWE chưa chứng minh GPT-5.5 sẽ luôn thắng trong mọi coding tool ngoài đời. Tất cả model đang được đo trong cùng một khung chạy agent, nên đây là một phép so sánh rất đáng xem, nhưng không thay thế trải nghiệm thực tế trong từng sản phẩm. Chốt lại, DeepSWE đáng chú ý vì nó kéo benchmark coding agent về gần câu hỏi thật hơn: agent có giải được task mới, dài, nhiều file, chấm điểm sạch, và không tạo thêm việc cho dev hay không. #Escbase #DeepSWE #GPT55 #Claude #AgenticCoding #CodingAgents

Brown eyes make me look like a vampire

Brown eyes make me look like a vampire

الى ديان يوم الدين نمضي #الدكتور_احمد_الوائلي #فساد_الحكومة_العراقية #العراق🇮🇶

الى ديان يوم الدين نمضي #الدكتور_احمد_الوائلي #فساد_الحكومة_العراقية #العراق🇮🇶

About

Robot
API

Legal

Privacy Policy