Lưỡi dao của RL: RL theo chính sách quên ít hơn SFT. Ngay cả khi độ chính xác được khớp, RL cho thấy ít sự quên thảm khốc hơn. Yếu tố chính: Các cập nhật theo chính sách của RL thiên về các giải pháp tối thiểu KL. Lý thuyết + LLM & các thí nghiệm đồ chơi xác nhận RL gần gũi hơn với mô hình cơ sở.
103,11K