Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
// ДЕЛО О МАСШТАБИРОВАНИИ СРЕДЫ //
Масштабирование среды может быть столь же важным, как и масштабирование модели для агентного ИИ.
Текущие исследования в области ИИ предполагают, что создание мощной модели агентного ИИ связано не только с улучшением рассуждений. Это также связано с улучшением сред.
Стандартный подход к обучению способных ИИ-агентов сегодня заключается в сборе статических траекторий или демонстраций человека. Это требует больше данных, больше примеров и больше усилий по аннотированию.
Но статические данные не могут научить динамическому принятию решений. Модели, обученные таким образом, испытывают трудности с долгосрочной, ориентированной на цель природой реальных агентных задач.
Это новое исследование представляет Nex-N1, структуру, которая систематически масштабирует разнообразие и сложность интерактивных обучающих сред, а не просто масштабирует данные.
Способности агентов возникают из взаимодействия, а не имитации. Вместо того чтобы собирать больше демонстраций, они создали инфраструктуру для автоматической генерации разнообразных архитектур агентов и рабочих процессов из спецификаций на естественном языке.
Система состоит из трех компонентов. NexAU (Вселенная агентов) предоставляет универсальную агентную структуру, которая генерирует сложные иерархии агентов из простых конфигураций. NexA4A (Агент для агента) автоматически синтезирует разнообразные архитектуры агентов из естественного языка. NexGAP преодолевает разрыв между симуляцией и реальностью, интегрируя инструменты MCP из реального мира для синтеза основанных на реальности траекторий.
Результаты:
- На τ2-bench, Nex-N1, основанный на DeepSeek-V3.1, набирает 80.2, превосходя базовую модель с 42.8.
- На SWE-bench Verified, Qwen3-32B-Nex-N1 достигает 50.5% по сравнению с 12.9% базовой модели.
- На BFCL v4 для использования инструментов, Nex-N1 (65.3) превосходит GPT-5 (61.6).
В человеческих оценках по разработке реальных проектов в 43 сценариях кодирования, Nex-N1 выигрывает или сравнивается с Claude Sonnet 4.5 в 64.5% случаев и с GPT-5 в ~70% случаев.
Они также создали глубокого исследовательского агента на Nex-N1, достигнув 47.0% на Deep Research Benchmark, с возможностями генерации визуализированных отчетов, включая слайды и исследовательские постеры.
Статья:

Топ
Рейтинг
Избранное

