KASUS UNTUK PENSKALAAN LINGKUNGAN // Penskalaan lingkungan mungkin sama pentingnya dengan penskalaan model untuk AI agen. Penelitian AI saat ini menunjukkan bahwa membangun model AI agen yang kuat bukan hanya tentang penalaran yang lebih baik. Ini juga tentang lingkungan yang lebih baik. Pendekatan default untuk melatih agen AI yang mampu saat ini adalah mengumpulkan lintasan statis atau demonstrasi manusia. Ini membutuhkan lebih banyak data, lebih banyak contoh, dan lebih banyak upaya anotasi. Tetapi data statis tidak dapat mengajarkan pengambilan keputusan yang dinamis. Model yang dilatih dengan cara ini berjuang dengan cakrawala panjang dan berorientasi pada tujuan dari tugas agen nyata. Penelitian baru ini memperkenalkan Nex-N1, kerangka kerja yang secara sistematis menskalakan keragaman dan kompleksitas lingkungan pelatihan interaktif daripada hanya menskalakan data. Kemampuan agen muncul dari interaksi, bukan tiruan. Alih-alih mengumpulkan lebih banyak demonstrasi, mereka membangun infrastruktur untuk secara otomatis menghasilkan beragam arsitektur agen dan alur kerja dari spesifikasi bahasa alami. Sistem ini memiliki tiga komponen. NexAU (Agent Universe) menyediakan kerangka kerja agen universal yang menghasilkan hierarki agen kompleks dari konfigurasi sederhana. NexA4A (Agen untuk Agen) secara otomatis mensintesis beragam arsitektur agen dari bahasa alami. NexGAP menjembatani kesenjangan simulasi-realitas dengan mengintegrasikan alat MCP dunia nyata untuk sintesis lintasan yang dibumikan. Hasil: - Pada τ2-bench, Nex-N1 yang dibangun di atas DeepSeek-V3.1 mendapat skor 80.2, mengungguli model dasar 42.8. - Pada SWE-bench Verified, Qwen3-32B-Nex-N1 mencapai 50,5% dibandingkan dengan model dasar 12,9%. - Pada BFCL v4 untuk penggunaan alat, Nex-N1 (65.3) mengungguli GPT-5 (61.6). Dalam evaluasi manusia pada pengembangan proyek dunia nyata di 43 skenario pengkodean, Nex-N1 menang atau seri melawan Claude Sonnet 4.5 dalam 64,5% kasus dan melawan GPT-5 dalam ~70% kasus. Mereka juga membangun agen penelitian mendalam di Nex-N1, mencapai 47,0% pada Tolok Ukur Penelitian Mendalam, dengan kemampuan untuk pembuatan laporan yang divisualisasikan, termasuk slide dan poster penelitian. Kertas: