🚀Cieszę się, że mogę podzielić się naszą nową pracą! 💊Problem: Precyzja BF16 powoduje dużą rozbieżność między treningiem a wnioskowaniem, co prowadzi do niestabilnego treningu RL. 💡Rozwiązanie: Po prostu przełącz się na FP16. 🎯To wszystko. 📰Artykuł: ⭐️Kod: