Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
PŘÍPAD ŠKÁLOVÁNÍ PROSTŘEDÍ //
Škálování prostředí může být stejně důležité jako škálování modelů pro agentickou AI.
Současný výzkum AI naznačuje, že vytvoření výkonného agentického AI modelu není jen o lepším uvažování. Jde také o lepší prostředí.
Výchozím přístupem k tréninku schopných AI agentů je dnes sbírání statických trajektorií nebo lidských demonstrací. To vyžaduje více dat, více příkladů a více anotace.
Ale statická data nemohou naučit dynamické rozhodování. Modely trénované tímto způsobem mají potíže s dlouhodobým, cílevědomým charakterem skutečných agentických úkolů.
Tento nový výzkum představuje Nex-N1, framework, který systematicky škáluje rozmanitost a složitost interaktivních tréninkových prostředí, nikoli pouze škálování dat.
Schopnosti agentů vznikají z interakce, nikoli z napodobování. Místo shromažďování dalších demonstrací vybudovali infrastrukturu, která automaticky generovala rozmanité architektury a pracovní postupy agentů na základě specifikací přirozeného jazyka.
Systém má tři komponenty. NexAU (Agent Universe) poskytuje univerzální rámec agentů, který generuje složité hierarchie agentů z jednoduchých konfigurací. NexA4A (Agent for Agent) automaticky syntetizuje různé architektury agentů z přirozeného jazyka. NexGAP překonává propast mezi simulací a realitou integrací reálných MCP nástrojů pro syntézu uzemněné trajektorie.
Výsledky:
- Na lavici τ2 dosahuje Nex-N1 postavený na DeepSeek-V3.1 skóre 80,2, což překoná základní model s 42,8.
- Na SWE-bench Verified dosahuje Qwen3-32B-Nex-N1 50,5 % oproti základnímu modelu 12,9 %.
- Na BFCL v4 pro použití nástrojů Nex-N1 (65.3) překonává GPT-5 (61.6).
V lidských hodnoceních reálného vývoje projektů napříč 43 programátorskými scénáři vyhrává nebo remizuje Nex-N1 s Claude Sonnetem 4,5 v 64,5 % případů a s GPT-5 v ~70 % případů.
Také vytvořili agenta pro hluboký výzkum na Nex-N1, který dosáhl 47,0 % na Deep Research Benchmark, s možnostmi vizualizovaného generování zpráv, včetně diapozitivů a výzkumných plakátů.
Papír:

Top
Hodnocení
Oblíbené

