Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
АРГУМЕНТИ МАСШТАБУВАННЯ СЕРЕДОВИЩА //
Масштабування середовища може бути так само важливим, як і масштабування моделей для агентного ШІ.
Сучасні дослідження ШІ свідчать, що створення потужної агентної моделі ШІ — це не лише питання кращого міркування. Це також про кращі середовища.
Стандартний підхід до навчання агентів ШІ сьогодні — це збір статичних траєкторій або людських демонстрацій. Це вимагає більше даних, прикладів і більше зусиль з анотацій.
Але статичні дані не можуть навчити динамічному прийняттю рішень. Моделі, навчені таким чином, борються з довгостроковим, цілеспрямованим характером реальних агентних завдань.
Це нове дослідження представляє Nex-N1 — фреймворк, який систематично масштабує різноманітність і складність інтерактивних навчальних середовищ, а не просто масштабує дані.
Можливості агентів виникають із взаємодії, а не з імітації. Замість того, щоб збирати більше демонстрацій, вони створили інфраструктуру для автоматичної генерації різноманітних архітектур агентів і робочих процесів на основі специфікацій природної мови.
Система складається з трьох компонентів. NexAU (Агентний всесвіт) забезпечує універсальну структуру агентів, яка генерує складні ієрархії агентів із простих конфігурацій. NexA4A (Agent for Agent) автоматично синтезує різноманітні архітектури агентів із природної мови. NexGAP долає розрив між симуляцією та реальністю, інтегруючи реальні MCP-інструменти для синтезу заземленої траєкторії.
Результатів:
- На τ2-bench Nex-N1, побудований на DeepSeek-V3.1, має результати 80,2, перевершуючи базову модель у 42,8.
- На SWE-bench Verified Qwen3-32B-Nex-N1 досягає 50,5% порівняно з 12,9% базової моделі.
- На BFCL v4 для інструментального використання Nex-N1 (65.3) перевершує GPT-5 (61.6).
У людських оцінках реальної розробки проєктів у 43 сценаріях кодування Nex-N1 перемагає або зрівнює Claude Sonnet 4.5 у 64,5% випадків і GPT-5 у ~70% випадків.
Вони також створили глибокий дослідницький агент на Nex-N1, досягнувши 47,0% на Deep Research Benchmark, з можливістю створення візуалізованих звітів, включно зі слайдами та науковими плакатами.
Папір:

Найкращі
Рейтинг
Вибране

