Banger paper van NVIDIA. Het trainen van algemene redeneermodellen met RL is gecompliceerd. Verschillende domeinen hebben wild verschillende responstijden en verificatietijden. Wiskunde gebruikt snelle symbolische verificatie. Code vereist langzame op uitvoering gebaseerde verificatie. Afstemming heeft beloningsmodel scores nodig. Het samenvoegen van al deze heterogene prompts maakt de infrastructuur complex, vertraagt de training en maakt hyperparameter tuning moeilijk. Dit nieuwe onderzoek introduceert Cascade RL, een framework dat modellen sequentieel over domeinen traint in plaats van alles samen te voegen. Eerst RLHF voor afstemming, dan instructie-volgend RL, dan wiskunde RL, dan code RL, dan software engineering RL. Deze sequentiële aanpak is bestand tegen catastrofaal vergeten. In RL genereert het model zijn eigen ervaring, zodat oude gedragingen blijven bestaan als ze relevant blijven voor beloningen. In tegenstelling tot supervisie leren, waar eerdere gegevens verdwijnen, optimaliseert RL cumulatieve beloning in plaats van exacte doelen te passen. RLHF, als een voorafgaande stap, verhoogt daadwerkelijk het redeneervermogen ver boven louter voorkeuroptimalisatie door de lengte en herhaling te verminderen. Latere domeinspecifieke RL-fases degraderen zelden eerdere prestaties en kunnen deze zelfs verbeteren. Hier zijn de resultaten: Hun 14B model presteert beter dan zijn eigen SFT-docent, DeepSeek-R1-0528 (671B), op LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B behaalt 71,1% op LiveCodeBench v6, vergelijkbaar met DeepSeek-R1-0528 met 73,3% ondanks dat het 84x kleiner is. Het 14B model behaalde zilveren medailleprestaties op IOI 2025. Ze tonen ook aan dat verenigde redeneermodellen effectief kunnen opereren in zowel denk- als niet-denkmodi, waardoor de kloof met toegewijde denkmodellen wordt gedicht terwijl alles in één model blijft. Paper: Leer effectieve AI-agenten te bouwen in onze academie: