Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Маленькі моделі також можуть бути хорошими міркуваннями.
Ось проблема та запропоноване рішення:
Маленькі моделі часто погіршуються, коли ви наносите їх на траси CoT вчителя.
У цій статті пояснюється невдача неузгодженістю розподілу та вводиться зворотне спекулятивне декодування (RSD): під час генерації трас учитель пропонує токени, але учень приймає лише ті токени, які є достатньо ймовірними при його власному розподілі.
Результатом є зручні для учнів траси, які зберігають правильність, зберігаючи при цьому керованість покрокового сюрпризу.
RSD використовує вибірку відхилення для вибору правильних, вирівняних трасувань і поєднує її з префіксами UPFT для невирішених елементів: тренує повні траси, де RSD знаходить правильне рішення, і тренує перші 128 токенів там, де це не потрібно.
При застосуванні до Qwen3-0.6B пряма дистиляція даних слідів міркувань s1K-1.1 погіршує середню продуктивність на 20,5%, тоді як та сама модель, навчена на слідах міркувань, згенерованих RSD, досягає значних поліпшень на 4,9%.
Папір:

Найкращі
Рейтинг
Вибране