Bài báo tuyệt vời từ NVIDIA. Việc đào tạo các mô hình lý luận đa mục đích với RL là phức tạp. Các lĩnh vực khác nhau có độ dài phản hồi và thời gian xác minh khác nhau một cách đáng kể. Toán học sử dụng xác minh biểu tượng nhanh. Mã yêu cầu xác minh dựa trên thực thi chậm. Sự căn chỉnh cần điểm số mô hình thưởng. Việc kết hợp tất cả những lời nhắc không đồng nhất này lại với nhau làm cho cơ sở hạ tầng trở nên phức tạp, làm chậm quá trình đào tạo và khiến việc điều chỉnh siêu tham số trở nên khó khăn. Nghiên cứu mới này giới thiệu Cascade RL, một khung đào tạo các mô hình theo thứ tự qua các lĩnh vực thay vì trộn lẫn mọi thứ lại với nhau. Đầu tiên là RLHF cho sự căn chỉnh, sau đó là RL theo hướng dẫn, rồi đến RL toán học, tiếp theo là RL mã, và cuối cùng là RL kỹ thuật phần mềm. Cách tiếp cận tuần tự này chống lại việc quên thảm khốc. Trong RL, mô hình tự tạo ra trải nghiệm của mình, vì vậy các hành vi cũ vẫn tồn tại nếu chúng vẫn liên quan đến phần thưởng. Khác với học có giám sát, nơi dữ liệu trước đó biến mất, RL tối ưu hóa phần thưởng tích lũy thay vì phù hợp với các mục tiêu chính xác. RLHF, như một bước trước, thực sự nâng cao khả năng lý luận vượt xa việc tối ưu hóa sở thích đơn thuần bằng cách giảm độ dài và sự lặp lại. Các giai đoạn RL theo lĩnh vực cụ thể sau đó hiếm khi làm giảm hiệu suất trước đó và thậm chí có thể cải thiện nó. Dưới đây là kết quả: Mô hình 14B của họ vượt trội hơn so với giáo viên SFT của chính nó, DeepSeek-R1-0528 (671B), trên LiveCodeBench v5/v6/Pro. Nemotron-Cascade-8B đạt 71.1% trên LiveCodeBench v6, tương đương với DeepSeek-R1-0528 ở mức 73.3% mặc dù nhỏ hơn 84 lần. Mô hình 14B đạt hiệu suất huy chương bạc tại IOI 2025. Họ cũng chứng minh rằng các mô hình lý luận thống nhất có thể hoạt động hiệu quả cả trong chế độ suy nghĩ và không suy nghĩ, thu hẹp khoảng cách với các mô hình suy nghĩ chuyên dụng trong khi giữ mọi thứ trong một mô hình duy nhất. Bài báo: Học cách xây dựng các tác nhân AI hiệu quả trong học viện của chúng tôi: