Aujourd'hui, nous open source Nomos 1. Avec seulement 30 milliards de paramètres, il obtient un score de 87/120 lors du Putnam de cette année, l'une des compétitions mathématiques les plus prestigieuses au monde. Ce score le classerait #2/3988 en 2024 et marque notre premier pas avec @hillclimbai vers la création d'un mathématicien AI SOTA.
Nomos 1 a obtenu un score de 87/120 avec 8 scores parfaits, tandis que Qwen3-30ba3b-Thinking-2507 a marqué 24/120 lorsqu'il a été exécuté dans le même harnais dans les mêmes conditions, indiquant que la performance est largement due à l'après-formation et à la qualité des données plutôt qu'au harnais.
Les soumissions ont été notées à l'aveugle par un participant humain du top 200 de Putnam qui a reçu des soumissions anonymisées. Les fichiers exacts envoyés à nos annotateurs humains pour la notation sont disponibles ici dé-anonymisés : , ainsi que les manuels utilisés pour les générer. Nous avons utilisé les mêmes limites de temps que les concurrents - 3 heures pour chacune des deux parties.
Notre système de raisonnement open source se compose d'une phase de résolution, où les travailleurs tentent de résoudre un problème le moins résolu et s'auto-évaluent, suivie d'une phase de finalisation, qui consolide les soumissions pour choisir une soumission finale pour chaque problème. Nous avons utilisé les paramètres d'échantillonnage par défaut de Qwen3 et aucun prompt système.
Nous open-source notre modèle ici et notre raisonnement ici. Ce modèle a été entraîné par @rogershijin sur une infrastructure construite par @theemozilla et @dmayhem93 avec les conseils de @nullvaluetensor et le leadership de @teknium et @theemozilla.
447,44K