DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Un excellent article de NVIDIA. Former des modèles de raisonnement à usage général avec le RL est compliqué. Différents domaines ont des longueurs de réponse et des temps de vérification très différents. Les mathématiques utilisent une vérification symbolique rapide. Le code nécessite une vérification basée sur l'exécution plus lente. L'alignement nécessite des scores de modèle de récompense. Mélanger tous ces prompts hétérogènes rend l'infrastructure complexe, ralentit l'entraînement et rend l'ajustement des hyperparamètres difficile. Cette nouvelle recherche introduit Cascade RL, un cadre qui entraîne les modèles de manière séquentielle à travers les domaines plutôt que de tout mélanger. D'abord RLHF pour l'alignement, puis RL suivant les instructions, puis RL mathématique, puis RL de code, puis RL en ingénierie logicielle. Cette approche séquentielle est résistante à l'oubli catastrophique. Dans le RL, le modèle génère sa propre expérience, donc les anciens comportements restent s'ils restent pertinents pour la récompense. Contrairement à l'apprentissage supervisé, où les données précédentes disparaissent, le RL optimise la récompense cumulative plutôt que d'ajuster des cibles exactes. RLHF, en tant qu'étape préliminaire, améliore en fait la capacité de raisonnement bien au-delà d'une simple optimisation des préférences en réduisant la verbosité et la répétition. Les étapes RL spécifiques à un domaine qui suivent dégradent rarement les performances antérieures et peuvent même les améliorer. Voici les résultats : Leur modèle 14B surpasse son propre enseignant SFT, DeepSeek-R1-0528 (671B), sur LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B atteint 71,1 % sur LiveCodeBench v6, comparable à DeepSeek-R1-0528 à 73,3 % malgré une taille 84 fois plus petite. Le modèle 14B a obtenu une performance de médaille d'argent à l'IOI 2025. Ils démontrent également que les modèles de raisonnement unifiés peuvent fonctionner efficacement à la fois en modes de réflexion et non-réflexion, comblant l'écart avec les modèles de réflexion dédiés tout en gardant tout dans un seul modèle. Article : Apprenez à construire des agents IA efficaces dans notre académie :

Meilleurs

Classement

Favoris