Membandingkan Agen Pengkodean Jangka Panjang Agen pengkodean AI terlihat mengesankan pada tolok ukur pengkodean saat ini. Tetapi tolok ukur tersebut sering mengoptimalkan dan menguji hal yang salah. Penelitian baru ini memperkenalkan SWE-EVO, tolok ukur untuk evolusi perangkat lunak jangka panjang. Hingga 80% upaya rekayasa perangkat lunak melibatkan pemeliharaan dan pengembangan basis kode lama daripada membangun dari awal. Tolok ukur saat ini benar-benar melewatkan hal ini. SWE-EVO mengungkapkan kesenjangan antara memecahkan masalah yang terisolasi dan melakukan evolusi perangkat lunak yang nyata. Alih-alih perbaikan masalah tunggal, agen harus menafsirkan catatan rilis dan menerapkan perubahan komprehensif yang mencakup rata-rata 21 file, divalidasi terhadap rangkaian pengujian rata-rata 874 pengujian per instans. GPT-5 dengan OpenHands mencapai 65% di SWE-Bench Verified tetapi hanya 21% di SWE-EVO. Para penulis menemukan bahwa agen saat ini berjuang dengan penalaran multi-file yang berkelanjutan. Tolok ukur dibangun dari catatan rilis tujuh proyek Python sumber terbuka yang matang, termasuk scikit-learn, pydantic, dan dask. Setiap tugas memerlukan penerapan perubahan yang biasanya mencakup beberapa permintaan pull. Tambalan emas rata-rata 610 baris yang diedit di 21 file dan 51 fungsi. Hasil di 11 model mengungkapkan pola yang konsisten. Model yang lebih besar mengungguli varian yang lebih kecil. GPT-5 menyelesaikan 21% versus GPT-5-mini pada 10% dan GPT-5-nano pada 4%. Peringkat tersebut mencerminkan kinerja SWE-Bench, memvalidasi SWE-EVO sebagai tolok ukur yang bermakna. Analisis kegagalan menunjukkan pola yang berbeda berdasarkan kemampuan model. Model terkuat gagal terutama pada instruksi yang diikuti, salah menafsirkan catatan rilis bernuansa. Model yang lebih lemah berjuang dengan penggunaan alat dan kesalahan sintaks. Ini menunjukkan kesulitan SWE-EVO berasal dari penalaran semantik, bukan kompetensi antarmuka. Kertas: Belajar membangun agen AI yang efektif di akademi saya: