// EL CASO PARA LA ESCALABILIDAD DEL ENTORNO // La escalabilidad del entorno puede ser tan importante como la escalabilidad del modelo para la IA agente. La investigación actual en IA sugiere que construir un modelo de IA agente poderoso no se trata solo de un mejor razonamiento. También se trata de mejores entornos. El enfoque predeterminado para entrenar agentes de IA capaces hoy en día es recopilar trayectorias estáticas o demostraciones humanas. Esto requiere más datos, más ejemplos y más esfuerzo de anotación. Pero los datos estáticos no pueden enseñar la toma de decisiones dinámica. Los modelos entrenados de esta manera luchan con la naturaleza a largo plazo y orientada a objetivos de las tareas reales de agentes. Esta nueva investigación presenta Nex-N1, un marco que escala sistemáticamente la diversidad y complejidad de los entornos de entrenamiento interactivos en lugar de solo escalar los datos. Las capacidades del agente emergen de la interacción, no de la imitación. En lugar de recopilar más demostraciones, construyeron una infraestructura para generar automáticamente arquitecturas y flujos de trabajo de agentes diversos a partir de especificaciones en lenguaje natural. El sistema tiene tres componentes. NexAU (Agente Universo) proporciona un marco universal de agentes que genera jerarquías de agentes complejas a partir de configuraciones simples. NexA4A (Agente para Agente) sintetiza automáticamente arquitecturas de agentes diversas a partir del lenguaje natural. NexGAP cierra la brecha entre simulación y realidad integrando herramientas MCP del mundo real para la síntesis de trayectorias fundamentadas. Resultados: - En el τ2-bench, Nex-N1 construido sobre DeepSeek-V3.1 obtiene 80.2, superando el 42.8 del modelo base. - En SWE-bench Verificado, Qwen3-32B-Nex-N1 alcanza un 50.5% en comparación con el 12.9% del modelo base. - En BFCL v4 para el uso de herramientas, Nex-N1 (65.3) supera a GPT-5 (61.6). En evaluaciones humanas sobre el desarrollo de proyectos del mundo real en 43 escenarios de codificación, Nex-N1 gana o empata contra Claude Sonnet 4.5 en el 64.5% de los casos y contra GPT-5 en aproximadamente el 70% de los casos. También construyeron un agente de investigación profunda en Nex-N1, logrando un 47.0% en el Benchmark de Investigación Profunda, con capacidades para la generación de informes visualizados, incluyendo diapositivas y carteles de investigación. Documento: