Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO đã được phát hành
Ngay cả những mô hình lập trình AI mạnh nhất cũng gặp khó khăn khi bài kiểm tra trở nên khó hơn.
Trên SWE-BENCH Verified, họ đạt khoảng 70%. Trên SWE-BENCH PRO khó hơn, con số đó giảm xuống dưới 25%.
SWE-BENCH Verified đã rất lộn xộn và quá dễ, các mô hình đã thấy câu trả lời trong quá trình đào tạo, và các vấn đề không phản ánh công việc phần mềm thực tế. PRO khắc phục điều này bằng cách thêm các dự án dài cấp doanh nghiệp gần gũi hơn với thực tế.
- Trên Public Set: GPT-5 giải quyết 23.3%, Claude Opus 4.1 giải quyết 22.7%.
- Trên Commercial Set: Còn khó hơn. Claude đạt 17.8%, GPT-5 đạt 14.9%.
Ba điều chúng tôi đã học được
1. Các mô hình lớn gặp phải một bức tường tư duy. GPT-5 và Claude có thể viết mã sạch và sử dụng công cụ, nhưng họ thường sai logic.
2. Các mô hình nhỏ thất bại sớm hơn. Chúng gặp vấn đề với những điều cơ bản như cú pháp, định dạng, hoặc sử dụng công cụ.
3. Mỗi mô hình có những điểm yếu riêng. Sonnet hết cửa sổ ngữ cảnh. Gemini mắc phải sự kết hợp sai lầm giữa công cụ, cú pháp và lý luận.
Các mô hình xử lý Python và Go tốt hơn. Chúng vẫn gặp khó khăn nghiêm trọng với JavaScript và TypeScript.
AI hiện tại còn xa mới trở thành một kỹ sư phần mềm đáng tin cậy. Thành công trong các nhiệm vụ đơn giản là gây hiểu lầm. Thách thức thực sự bây giờ không phải là viết mã, mà là suy nghĩ qua vấn đề.


Hàng đầu
Thứ hạng
Yêu thích