Các mô hình nhỏ cũng có thể là những lý do tốt. Dưới đây là vấn đề và giải pháp đề xuất: Các mô hình nhỏ thường trở nên tệ hơn khi bạn SFT chúng trên các dấu vết CoT của giáo viên. Bài báo này chỉ ra rằng sự thất bại là do sự không đồng nhất phân phối và giới thiệu Giải mã Đầu cơ Đảo ngược (RSD): trong quá trình tạo dấu vết, giáo viên đề xuất các token, nhưng học sinh chỉ chấp nhận các token có xác suất đủ cao theo phân phối của chính nó. Kết quả là các dấu vết thân thiện với học sinh mà vẫn giữ được tính chính xác trong khi giữ cho sự ngạc nhiên từng bước có thể quản lý được. RSD sử dụng lấy mẫu từ chối để chọn các dấu vết chính xác, đồng nhất và kết hợp nó với các tiền tố UPFT cho các mục chưa giải quyết: huấn luyện các dấu vết đầy đủ nơi RSD tìm thấy một giải pháp chính xác và huấn luyện 128 token đầu tiên nơi nó không tìm thấy. Khi áp dụng cho Qwen3-0.6B, việc chưng cất trực tiếp dữ liệu dấu vết lý luận s1K-1.1 làm giảm hiệu suất trung bình 20.5%, trong khi cùng một mô hình được huấn luyện trên các dấu vết lý luận do RSD tạo ra đạt được những cải tiến có ý nghĩa 4.9%. Bài báo: