Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
// IL CASO PER LA SCALABILITÀ DELL'AMBIENTE //
La scalabilità dell'ambiente potrebbe essere importante quanto la scalabilità del modello per l'AI agentica.
La ricerca attuale sull'AI suggerisce che costruire un potente modello di AI agentica non riguarda solo un migliore ragionamento. Riguarda anche ambienti migliori.
L'approccio predefinito per addestrare agenti AI capaci oggi è raccogliere traiettorie statiche o dimostrazioni umane. Questo richiede più dati, più esempi e più sforzi di annotazione.
Ma i dati statici non possono insegnare la decisione dinamica. I modelli addestrati in questo modo faticano con la natura a lungo termine e orientata agli obiettivi dei veri compiti agentici.
Questa nuova ricerca introduce Nex-N1, un framework che scala sistematicamente la diversità e la complessità degli ambienti di addestramento interattivi piuttosto che limitarsi a scalare i dati.
Le capacità degli agenti emergono dall'interazione, non dall'imitazione. Invece di raccogliere più dimostrazioni, hanno costruito un'infrastruttura per generare automaticamente architetture e flussi di lavoro agentici diversificati a partire da specifiche in linguaggio naturale.
Il sistema ha tre componenti. NexAU (Agente Universale) fornisce un framework universale per agenti che genera gerarchie complesse di agenti a partire da configurazioni semplici. NexA4A (Agente per Agente) sintetizza automaticamente architetture agentiche diversificate a partire dal linguaggio naturale. NexGAP colma il divario simulazione-realtà integrando strumenti MCP del mondo reale per la sintesi di traiettorie ancorate.
Risultati:
- Sul τ2-bench, Nex-N1 costruito su DeepSeek-V3.1 ottiene 80.2, superando il punteggio del modello base di 42.8.
- Sul SWE-bench Verified, Qwen3-32B-Nex-N1 raggiunge il 50.5% rispetto al 12.9% del modello base.
- Su BFCL v4 per l'uso degli strumenti, Nex-N1 (65.3) supera GPT-5 (61.6).
Nelle valutazioni umane sullo sviluppo di progetti nel mondo reale attraverso 43 scenari di codifica, Nex-N1 vince o pareggia contro Claude Sonnet 4.5 nel 64.5% dei casi e contro GPT-5 in circa il 70% dei casi.
Hanno anche costruito un agente di ricerca profonda su Nex-N1, raggiungendo il 47.0% sul Deep Research Benchmark, con capacità di generazione di report visualizzati, inclusi diapositive e poster di ricerca.
Carta:

Principali
Ranking
Preferiti

