🚀We zijn enthousiast om ons nieuwe werk te delen! 💊Probleem: De BF16-precisie veroorzaakt een grote mismatch tussen training en inferentie, wat leidt tot onstabiele RL-training. 💡Oplossing: Gewoon overschakelen naar FP16. 🎯Dat is het. 📰Paper: ⭐️Code: