🚨DeepSeek China baru saja menjatuhkan satu-satunya model open-source yang cukup baik dalam matematika untuk memenangkan IMO Gold, dan laporan yang harus dibaca! Ide kuncinya diambil dari hal-hal yang telah dibicarakan Karpathy dan yang lainnya: bergerak melampaui "jawaban akhir RL" ke dalam lingkaran generator-verifier-meta-verifier dalam bahasa murni. – Seorang verifikator dilatih RL untuk menilai bukti. – Seorang meta-verifier memeriksa kritik verifikat. – Generator dilatih RL pada sinyal hadiah verifikator untuk menulis dan memeriksa sendiri bukti yang lebih baik. Karena semuanya hidup dalam bahasa alami (tidak ada Lean), resep ini HARUS meluas ke banyak domain yang dapat diverifikasi: sains, kode, di mana saja di mana pengecekan lebih mudah daripada memecahkan!