DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Model kecil juga bisa menjadi penalaran yang baik. Berikut adalah masalah dan solusi yang diusulkan: Model kecil sering menjadi lebih buruk ketika Anda SFT-nya pada jejak CoT guru. Makalah ini menyematkan kegagalan pada ketidaksejajaran distribusi dan memperkenalkan Reverse Speculative Decoding (RSD): selama pembuatan jejak, guru mengusulkan token, tetapi siswa hanya menerima token yang cukup mungkin di bawah distribusinya sendiri. Hasilnya adalah jejak ramah siswa yang menjaga kebenaran sambil menjaga kejutan langkah ke langkah dapat dikelola. RSD menggunakan pengambilan sampel penolakan untuk memilih jejak yang benar dan selaras dan memasangkannya dengan awalan UPFT untuk item yang belum terpecahkan: latih jejak penuh di mana RSD menemukan solusi yang benar dan melatih 128 token pertama di tempat yang tidak. Ketika diterapkan pada Qwen3-0,6B, penyulingan langsung data jejak penalaran s1K-1.1 menurunkan kinerja rata-rata sebesar 20,5%, sementara model yang sama yang dilatih pada jejak penalaran yang dihasilkan RSD mencapai peningkatan yang berarti sebesar 4,9%. Kertas:

Teratas

Peringkat

Favorit