Verdent mencetak 76,1% di SWE-bench Verified, mendarat di tingkat atas bersama Claude Sonnet 4.5 dan model terkemuka lainnya. Verdent adalah sistem pengkodean AI multi-agen yang dibuat untuk pekerjaan rekayasa nyata. Ini mengatur sub-agen khusus melalui alur kerja rencana-kode-verifikasi dengan arsitektur verifikasi-pertama. Detail lebih lanjut di bawah ini 👇
SWE-bench Verified menggunakan masalah GitHub nyata dari repositori produksi - masalah multi-file kompleks yang memisahkan agen pengkodean aktual dari pelengkapan otomatis yang dimuliakan. 76,1% pass@1 berarti memecahkan 3 dari 4 tugas rekayasa nyata secara mandiri.
Mengapa Verdent unggul di SWE-bench Terverifikasi: Kompatibilitas Multi-Model: Runtime model-agnostik mencocokkan model yang tepat untuk setiap tahap (Claude untuk analisis, GPT-5 untuk tinjauan). Performa yang konsisten dengan transparansi dan konfigurasi penuh. Verifikasi pada Autopilot: Pemeriksaan tipe bawaan, analisis statis, eksekusi pengujian dengan siklus coba ulang/debugging otomatis. Sub-agen tinjauan kode menangani perbedaan besar. Lebih dari sekadar "lulus pengujian" hingga "memenuhi maksud pengembang". Selalu Aktif: Daftar tugas eksplisit melacak kemajuan, mencegah penyimpangan konteks dalam sesi yang panjang. Mencerminkan alur kerja pengembang manusia langkah demi langkah, meningkatkan tingkat keberhasilan dan efisiensi token.
Alur kerja Plan-Code-Verify: 1. Mode Rencana: Rencana eksekusi yang terstruktur dan dapat diedit 2. Orkestrasi sub-agen: Agen khusus (pencari, pengulas, verifikasi) Kontrol yang ditentukan pengguna melalui aturan agen (agen md) dengan perilaku yang dapat dipersonalisasi: tingkat kehati-hatian, izin, gaya kolaborasi 3. DiffLens: Pengiriman kode yang jelas dengan perbedaan + ringkasan yang terorganisir 4. Selalu tetap pada tugas dengan pelacakan kemajuan eksplisit
Fitur siap produksi yang melampaui tolok ukur: - Terminal berumur panjang (persistensi gaya tmux) - Perintah garis miring (/init, /compact, otomatisasi kustom) - Dukungan MCP (Model Context Protocol) - Ekstensi VS Code + aplikasi tugas paralel mandiri (Verdent Deck)
Berpikir Penting: Eksperimen Verdent menunjukkan lebih banyak token penalaran mengarah pada kinerja yang lebih baik. Mereka menemukan peningkatan ~0,7% ketika mengizinkan model lebih banyak "waktu berpikir" - membuktikan bahwa kode terburu-buru bukanlah kode yang bagus, bahkan untuk AI.
Varians Vendor: Tidak semua penyedia model sama. Pengujian mereka mengungkapkan beberapa penyedia (seperti AWS Bedrock) menunjukkan varians kinerja yang lebih tinggi - kesenjangan hingga 1,2% dalam kondisi yang sama. Pilih infrastruktur Anda dengan bijak.
Penemuan yang Mengejutkan: Ketika mereka menurunkan Verdent menjadi hanya alat dasar (bash, membaca, menulis, mengedit), kinerja SWE-bench Verified hampir tidak berubah. Ini mengungkapkan potensi bias tolok ukur - alat canggih penting untuk rekayasa nyata, tetapi tolok ukur saat ini mungkin tidak menangkap kompleksitas ini.
Dibangun oleh mantan insinyur TikTok dan Baidu. Verdent menyatukan model terdepan di industri seperti GPT-5 dan Sonnet 4.5 dalam sistem yang berpusat pada pengembang. Seperti inilah pengkodean agen ketika dibuat untuk pekerjaan teknik nyata. Anda dapat memulai uji coba gratis di sini :
11,6K