Gần đây có nhiều tài liệu về RL cho việc tiền huấn luyện. Tôi không biết, rõ ràng điều này hoạt động, nhưng cảm giác thật tệ khi chúng ta thực sự đang lấy mẫu CoTs cho các token. Đây là một nơi mà lý luận tiềm ẩn rõ ràng là điều mong muốn. Tuy nhiên, điều này vẫn hợp lệ. Một phản biện khác đối với Sutton.