Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
// PRZYPADEK SKALOWANIA ŚRODOWISKA //
Skalowanie środowiska może być tak samo ważne jak skalowanie modelu dla agentowego AI.
Obecne badania nad AI sugerują, że budowanie potężnego modelu agentowego AI nie polega tylko na lepszym rozumowaniu. Chodzi również o lepsze środowiska.
Domyślne podejście do szkolenia zdolnych agentów AI dzisiaj polega na zbieraniu statycznych trajektorii lub demonstracji ludzkich. Wymaga to więcej danych, więcej przykładów i więcej wysiłku w zakresie adnotacji.
Jednak statyczne dane nie mogą nauczyć dynamicznego podejmowania decyzji. Modele trenowane w ten sposób mają trudności z długoterminowym, celowym charakterem rzeczywistych zadań agentowych.
Te nowe badania wprowadzają Nex-N1, ramy, które systematycznie skalują różnorodność i złożoność interaktywnych środowisk szkoleniowych, a nie tylko skalują dane.
Zdolności agentów pojawiają się z interakcji, a nie z naśladowania. Zamiast zbierać więcej demonstracji, zbudowali infrastrukturę do automatycznego generowania różnorodnych architektur agentów i przepływów pracy z naturalnych specyfikacji językowych.
System ma trzy komponenty. NexAU (Agent Universe) zapewnia uniwersalną ramę agenta, która generuje złożone hierarchie agentów z prostych konfiguracji. NexA4A (Agent for Agent) automatycznie syntezuję różnorodne architektury agentów z naturalnego języka. NexGAP łączy lukę między symulacją a rzeczywistością, integrując narzędzia MCP z rzeczywistego świata do syntezy ugruntowanych trajektorii.
Wyniki:
- Na τ2-bench, Nex-N1 zbudowany na DeepSeek-V3.1 uzyskuje 80.2, przewyższając wynik modelu bazowego 42.8.
- Na SWE-bench Verified, Qwen3-32B-Nex-N1 osiąga 50.5% w porównaniu do 12.9% modelu bazowego.
- Na BFCL v4 dla użycia narzędzi, Nex-N1 (65.3) przewyższa GPT-5 (61.6).
W ocenach ludzkich dotyczących rozwoju projektów w rzeczywistych warunkach w 43 scenariuszach kodowania, Nex-N1 wygrywa lub remizuje z Claude Sonnet 4.5 w 64.5% przypadków i z GPT-5 w ~70% przypadków.
Zbudowali również głębokiego agenta badawczego na Nex-N1, osiągając 47.0% w Deep Research Benchmark, z możliwościami generowania wizualizowanych raportów, w tym slajdów i plakatów badawczych.
Artykuł:

Najlepsze
Ranking
Ulubione

