Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
EL CASO A FAVOR DEL ESCALADO AMBIENTAL //
El escalado del entorno puede ser tan importante como el escalado de modelos para IA agente.
La investigación actual en IA sugiere que construir un modelo de IA agente potente no se basa solo en un mejor razonamiento. También se trata de mejores entornos.
El enfoque por defecto para entrenar agentes de IA capaces hoy en día es recopilar trayectorias estáticas o demostraciones humanas. Esto requiere más datos, más ejemplos y más esfuerzo de anotación.
Pero los datos estáticos no pueden enseñar a tomar decisiones dinámicas. Los modelos entrenados de esta manera luchan con la naturaleza a largo plazo y orientada a objetivos de las tareas agentes reales.
Esta nueva investigación introduce Nex-N1, un marco que escala sistemáticamente la diversidad y complejidad de los entornos de entrenamiento interactivos en lugar de limitarse a escalar datos.
Las capacidades del agente surgen de la interacción, no de la imitación. En lugar de recopilar más demostraciones, construyeron infraestructura para generar automáticamente arquitecturas y flujos de trabajo diversos de agentes a partir de especificaciones en lenguaje natural.
El sistema tiene tres componentes. NexAU (Universo Agente) proporciona un marco de agentes universal que genera jerarquías de agentes complejas a partir de configuraciones simples. NexA4A (Agente por Agente) sintetiza automáticamente diversas arquitecturas de agentes a partir del lenguaje natural. NexGAP cierra la brecha entre simulación y realidad integrando herramientas MCP del mundo real para la síntesis de trayectorias fundamentadas.
Resultados:
- En el banco τ2, Nex-N1, basado en DeepSeek-V3.1, obtiene una puntuación de 80,2, superando el 42,8 del modelo base.
- En SWE-bench Verified, Qwen3-32B-Nex-N1 alcanza un 50,5% frente al 12,9% del modelo base.
- En BFCL v4 para uso de herramientas, Nex-N1 (65.3) supera a GPT-5 (61.6).
En evaluaciones humanas sobre el desarrollo de proyectos reales en 43 escenarios de codificación, Nex-N1 gana o empata con Claude Sonnet 4,5 en el 64,5% de los casos y contra GPT-5 en ~70% de los casos.
También construyeron un agente de investigación profunda en Nex-N1, logrando un 47,0% en el Índice de Referencia de Investigación Profunda, con capacidades para la generación visualizada de informes, incluyendo diapositivas y carteles de investigación.
Papel:

Populares
Ranking
Favoritas

