// L'ARGUMENT POUR L'ÉCHELONNAGE DE L'ENVIRONNEMENT // L'échelonnement de l'environnement peut être aussi important que l'échelonnement du modèle pour l'IA agentique. Les recherches actuelles sur l'IA suggèrent que construire un modèle d'IA agentique puissant ne concerne pas seulement un meilleur raisonnement. Il s'agit aussi de meilleurs environnements. L'approche par défaut pour former des agents IA capables aujourd'hui consiste à collecter des trajectoires statiques ou des démonstrations humaines. Cela nécessite plus de données, plus d'exemples et plus d'efforts d'annotation. Mais les données statiques ne peuvent pas enseigner la prise de décision dynamique. Les modèles formés de cette manière ont du mal avec la nature à long terme et orientée vers des objectifs des tâches réelles agentiques. Cette nouvelle recherche introduit Nex-N1, un cadre qui échelonne systématiquement la diversité et la complexité des environnements d'entraînement interactifs plutôt que de simplement échelonner les données. Les capacités des agents émergent de l'interaction, pas de l'imitation. Au lieu de collecter plus de démonstrations, ils ont construit une infrastructure pour générer automatiquement des architectures d'agents et des flux de travail divers à partir de spécifications en langage naturel. Le système a trois composants. NexAU (Agent Universe) fournit un cadre d'agent universel qui génère des hiérarchies d'agents complexes à partir de configurations simples. NexA4A (Agent for Agent) synthétise automatiquement des architectures d'agents divers à partir de langage naturel. NexGAP comble le fossé simulation-réalité en intégrant des outils MCP du monde réel pour la synthèse de trajectoires ancrées. Résultats : - Sur le τ2-bench, Nex-N1 construit sur DeepSeek-V3.1 obtient un score de 80.2, surpassant le modèle de base qui a 42.8. - Sur SWE-bench Vérifié, Qwen3-32B-Nex-N1 atteint 50.5% par rapport à 12.9% pour le modèle de base. - Sur BFCL v4 pour l'utilisation d'outils, Nex-N1 (65.3) surpasse GPT-5 (61.6). Dans les évaluations humaines sur le développement de projets réels à travers 43 scénarios de codage, Nex-N1 gagne ou fait match nul contre Claude Sonnet 4.5 dans 64.5% des cas et contre GPT-5 dans ~70% des cas. Ils ont également construit un agent de recherche approfondie sur Nex-N1, atteignant 47.0% sur le Deep Research Benchmark, avec des capacités de génération de rapports visualisés, y compris des diapositives et des affiches de recherche. Article :