Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Малые модели также могут быть хорошими рассуждателями.
Вот проблема и предложенное решение:
Малые модели часто показывают худшие результаты, когда вы обучаете их на следах учителя CoT.
В этой статье неудача связывается с распределительной несоответствием и вводит Обратное Спекулятивное Декодирование (RSD): во время генерации следов учитель предлагает токены, но студент принимает только те токены, которые достаточно вероятны в соответствии с его собственным распределением.
Результат — следы, удобные для студента, которые сохраняют правильность, при этом управляя удивлением на каждом шаге.
RSD использует отбор с отбраковкой для выбора правильных, согласованных следов и сочетает их с префиксами UPFT для нерешенных задач: обучайте полные следы, где RSD находит правильное решение, и обучайте первые 128 токенов, где это не так.
При применении к Qwen3-0.6B, прямая дистилляция данных следов рассуждений s1K-1.1 ухудшает среднюю производительность на 20.5%, в то время как та же модель, обученная на следах рассуждений, сгенерированных RSD, достигает значительных улучшений на 4.9%.
Статья:

Топ
Рейтинг
Избранное