I vår nye forskning presenterer vi AutoJudge — en metode for inferensakselerasjon som lærer hvilke tokens som er viktige for svaret. Resultatet? 1,5-2x hastighetsøkning sammenlignet med spekulativ dekoding, og jevne gevinster når det kombineres med avanserte teknikker. 🚀
Les også tråden med detaljer fra artikkelforfatterne:
Max Ryabinin
Max Ryabinin5. des., 02:02
Gleder meg til å dele vår nylige forskning på AutoJudge, en dekodingsteknikk som kombinerer: - Akselerasjon av inferensen ved å slakke på fordelingsmatchbetingelsen - Brukervennlighet og skalerbarhet takket være en selvovervåket treningsprotokoll Presenterer på #NeurIPS2025 i dag! (1/9)
Forfatterne vil presentere AutoJudge på #NeurIPS2025 i San Diego. Møt teamet og lær mer om tilnærmingen! 🕑4. des, 16:30 PST 🗺️Utstillingshall C,D,E #2010
2,28K