Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Małe modele mogą być również dobrymi rozumującymi.
Oto problem i proponowane rozwiązanie:
Małe modele często działają gorzej, gdy są trenowane na śladach CoT nauczyciela.
Ten artykuł przypisuje porażkę niezgodności rozkładów i wprowadza Odwrócone Spekulacyjne Dekodowanie (RSD): podczas generowania śladów nauczyciel proponuje tokeny, ale uczeń akceptuje tylko te tokeny, które są wystarczająco prawdopodobne w jego własnym rozkładzie.
Wynikiem są przyjazne dla ucznia ślady, które zachowują poprawność, jednocześnie utrzymując zaskoczenie na każdym kroku na rozsądnym poziomie.
RSD wykorzystuje próbkowanie odrzucające do wyboru poprawnych, zgodnych śladów i łączy je z prefiksami UPFT dla nierozwiązanych elementów: trenuj pełne ślady, gdzie RSD znajduje poprawne rozwiązanie, i trenuj pierwsze 128 tokenów, gdzie go nie znajduje.
Gdy zastosowano to do Qwen3-0.6B, bezpośrednia destylacja danych śladów rozumowania s1K-1.1 pogarsza średnią wydajność o 20,5%, podczas gdy ten sam model trenowany na śladach rozumowania generowanych przez RSD osiąga znaczące poprawy o 4,9%.
Artykuł:

Najlepsze
Ranking
Ulubione