Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Verdent đạt 76,1% trên SWE-bench Verified, đứng trong top tier cùng với Claude Sonnet 4.5 và các mô hình hàng đầu khác. Verdent là một hệ thống AI đa tác nhân được xây dựng cho công việc kỹ thuật thực tế. Nó điều phối các tác nhân phụ chuyên biệt thông qua quy trình lập kế hoạch - mã hóa - xác minh với kiến trúc xác minh trước. Chi tiết hơn bên dưới 👇

SWE-bench Verified sử dụng các vấn đề GitHub thực tế từ các kho sản xuất - những vấn đề phức tạp, đa tệp mà phân biệt các tác nhân lập trình thực sự với những công cụ tự động hoàn thiện được ca ngợi. 76.1% pass@1 có nghĩa là giải quyết 3 trong 4 nhiệm vụ kỹ thuật thực tế một cách tự động.

Tại sao Verdent nổi bật trên SWE-bench Đã xác minh: Tương thích Đa Mô Hình: Thời gian chạy không phụ thuộc vào mô hình phù hợp với từng giai đoạn (Claude cho phân tích, GPT-5 cho đánh giá). Hiệu suất nhất quán với sự minh bạch và khả năng cấu hình đầy đủ. Xác minh tự động: Kiểm tra kiểu tích hợp, phân tích tĩnh, thực thi kiểm tra với chu kỳ tự động thử lại/gỡ lỗi. Các tác nhân phụ trợ kiểm tra mã xử lý các thay đổi lớn. Vượt xa "đạt yêu cầu kiểm tra" để "đáp ứng ý định của nhà phát triển." Luôn sẵn sàng cho nhiệm vụ: Danh sách việc cần làm rõ ràng theo dõi tiến độ, ngăn ngừa sự lệch lạc ngữ cảnh trong các phiên dài. Phản ánh quy trình làm việc của nhà phát triển con người từng bước, cải thiện tỷ lệ thành công và hiệu quả token.

Quy trình Plan-Code-Verify: 1. Chế độ Lập kế hoạch: Kế hoạch thực hiện có cấu trúc, có thể chỉnh sửa 2. Điều phối phụ tác nhân: Các tác nhân chuyên biệt (người tìm kiếm, người xem xét, người xác minh) Kiểm soát do người dùng xác định thông qua các quy tắc tác nhân (tác nhân md) với hành vi có thể cá nhân hóa: mức độ thận trọng, quyền hạn, phong cách hợp tác 3. DiffLens: Giao mã rõ ràng với các bản khác biệt và tóm tắt được tổ chức 4. Luôn giữ đúng nhiệm vụ với việc theo dõi tiến độ rõ ràng

Các tính năng sẵn sàng cho sản xuất vượt xa các tiêu chuẩn: - Terminal lâu dài (tính năng duy trì kiểu tmux) - Lệnh gạch chéo (/init, /compact, tự động hóa tùy chỉnh) - Hỗ trợ MCP (Giao thức Ngữ cảnh Mô hình) - Tiện ích mở rộng VS Code + ứng dụng tác vụ song song độc lập (Verdent Deck)

Suy nghĩ Quan trọng: Các thí nghiệm của Verdent cho thấy việc sử dụng nhiều token lý luận hơn dẫn đến hiệu suất tốt hơn. Họ phát hiện ra rằng có khoảng 0,7% cải thiện khi cho phép các mô hình có thêm "thời gian suy nghĩ" - chứng minh rằng mã viết vội không phải là mã tốt, ngay cả đối với AI.

Biến động nhà cung cấp: Không phải tất cả các nhà cung cấp mô hình đều giống nhau. Các thử nghiệm của họ đã tiết lộ rằng một số nhà cung cấp (như AWS Bedrock) cho thấy biến động hiệu suất cao hơn - lên đến 1,2% chênh lệch trong các điều kiện giống hệt nhau. Hãy chọn cơ sở hạ tầng của bạn một cách khôn ngoan.

Khám Phá Đáng Ngạc Nhiên: Khi họ giảm thiểu Verdent chỉ còn các công cụ cơ bản (bash, đọc, viết, chỉnh sửa), hiệu suất được xác thực bởi SWE-bench hầu như không thay đổi. Điều này tiết lộ khả năng thiên lệch trong việc đánh giá hiệu suất - các công cụ tinh vi có ý nghĩa trong kỹ thuật thực tế, nhưng các tiêu chuẩn hiện tại có thể không nắm bắt được sự phức tạp này.

Được xây dựng bởi các kỹ sư cũ của TikTok và Baidu. Verdent hợp nhất các mô hình hàng đầu trong ngành như GPT-5 và Sonnet 4.5 trong một hệ thống tập trung vào nhà phát triển. Đây là hình ảnh của lập trình agentic khi nó được xây dựng cho công việc kỹ thuật thực sự. Bạn có thể bắt đầu dùng thử miễn phí tại đây :

7,95K

Hàng đầu

Thứ hạng

Yêu thích