ARGUMENTUL PENTRU SCALAREA MEDIULUI // Scalarea mediului poate fi la fel de importantă ca scalarea modelului pentru AI-ul agentic. Cercetările actuale privind IA sugerează că construirea unui model AI agentic puternic nu înseamnă doar raționament mai bun. Este vorba și despre medii mai bune. Abordarea implicită pentru antrenarea agenților AI capabili astăzi este colectarea traiectoriilor statice sau a demonstrațiilor umane. Acest lucru necesită mai multe date, mai multe exemple și mai mult efort de adnotare. Dar datele statice nu pot învăța luarea deciziilor dinamice. Modelele antrenate astfel se confruntă cu natura pe termen lung, orientată spre scop, a sarcinilor reale agentice. Această nouă cercetare introduce Nex-N1, un cadru care scalează sistematic diversitatea și complexitatea mediilor interactive de antrenament, nu doar scalarea datelor. Capacitățile agenților apar din interacțiune, nu din imitație. În loc să colecteze mai multe demonstrații, au construit infrastructură pentru a genera automat arhitecturi diverse de agenți și fluxuri de lucru pornind de la specificații în limbaj natural. Sistemul are trei componente. NexAU (Agent Universe) oferă un cadru universal de agenți care generează ierarhii complexe de agenți pornind de la configurații simple. NexA4A (Agent for Agent) sintetizează automat diverse arhitecturi de agenți din limbaj natural. NexGAP acoperă decalajul dintre simulare și realitate prin integrarea instrumentelor MCP din lumea reală pentru sinteza traiectoriei la pământ. Rezultatele: - Pe banca τ2, Nex-N1, construit pe DeepSeek-V3.1, obține un scor de 80,2, depășind modelul de bază de 42,8. - Pe SWE-bench Verified, Qwen3-32B-Nex-N1 obține 50,5% comparativ cu 12,9% pentru modelul de bază. - Pe BFCL v4 pentru utilizare cu unelte, Nex-N1 (65.3) depășește GPT-5 (61.6). În evaluările umane privind dezvoltarea proiectelor reale în 43 de scenarii de programare, Nex-N1 câștigă sau egalează cu Claude Sonnet 4,5 în 64,5% din cazuri și cu GPT-5 în ~70% din cazuri. De asemenea, au construit un agent de cercetare profundă pe Nex-N1, obținând 47,0% la Deep Research Benchmark, cu capabilități pentru generarea de rapoarte vizualizate, inclusiv slide-uri și postere de cercetare. Hârtie: