Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pienet mallit voivat myös olla hyviä järkeilijöitä.
Tässä on ongelma ja ehdotettu ratkaisu:
Pienet mallit huononevat usein, kun SFT ne opettajan CoT-jäljillä.
Tämä artikkeli kiinnittää epäonnistumisen jakaumavirheeseen ja esittelee käänteisen spekulatiivisen dekoodauksen (RSD): jäljityksen luomisen aikana opettaja ehdottaa tokeneita, mutta oppilas hyväksyy vain tokeneita, jotka ovat riittävän todennäköisiä sen omassa jakaumassa.
Tuloksena on opiskelijaystävällisiä jälkiä, jotka säilyttävät oikeellisuuden ja pitävät vaiheittaiset yllätykset hallittavissa.
RSD käyttää hylkäysnäytteenottoa valitakseen oikeat, kohdistetut jäljet ja yhdistääkseen sen UPFT-etuliitteisiin ratkaisemattomille kohteille: kouluta täydet jäljet siellä, missä RSD löytää oikean ratkaisun, ja kouluta ensimmäiset 128 merkkiä, joissa se ei löydy.
Qwen3-0.6B:hen sovellettuna s1K-1.1-päättelyjälketietojen suora tislaus heikentää keskimääräistä suorituskykyä 20.5 %, kun taas sama RSD:n luomilla päättelyjäljillä koulutettu malli saavuttaa merkittäviä 4.9 %:n parannuksia.
Paperi:

Johtavat
Rankkaus
Suosikit