Раді поділитися нашими недавніми дослідженнями про AutoJudge — техніку декодування, яка поєднує: - Прискорення висновку шляхом послаблення обмеження на відповідність розподілу - Простота використання та масштабованість завдяки самоконтрольованому протоколу навчання Сьогодні виступаю на #NeurIPS2025! (1/9)
Ми виявляємо, що можемо автоматично добувати мітки для класифікатора прийняття. Зокрема, ми беремо набір даних і запускаємо цільові та чернеткові генерації моделей. Потім ми перевіряємо всі невідповідні токени між цільовою та чернетковою моделями. Якщо збереження токена з чернеткової моделі призводить до неправильної відповіді, це позначається як важливе (3/9)
Використовуючи ці мітки, ми можемо навчити простий класифікатор знаходити важливі токени в момент виведення. Якщо початкове спекулятивне декодування відхиляє токен, ми даємо йому другий шанс, запитавши класифікатора. Для неважливих токенів ми продовжуємо генерацію, а для інших запускаємо новий спекулятивний цикл (4/9)
Наші основні оцінки AutoJudge зосереджені на завданнях, для яких легко виміряти правильність відповідей — програмуванні (LiveCodeBench) та математиці (GSM8K). З парами моделей, такими як 8B/70B, ми можемо досягти до 40 прийнятих токенів за цикл із <1% зниження точності! (5/9)
AutoJudge також легко інтегрується з відкритими фреймворками для висновків, такими як vLLM. Покращення рівня прийняття означає повне прискорення: якщо ми пожертвуємо точністю на 2%, отримаємо майже на 50% більше токенів за секунду! (6/9)
Перевірка анотувань на наявність важливих токенів виявляє цікаву закономірність: чіткі помилки позначаються як негативні вибірки (=> потрібно регенерувати), тоді як семантично еквівалентні токени дозволяють припущенню продовжуватися (7/9)
Щоб дізнатися більше, перегляньте: Папір: Код: Блог-пост: Попередньо обчислені активації для GSM8K та LiveCodeBench: (8/9)
Цю роботу очолили мої дивовижні співавтори @garipovroma, @MightyNeighbour Іван Єрмаков, Руслан Свірщевський і Ваге Егіазарян. Команда цього тижня перебуває в Сан-Дієго на NeurIPS — завітайте сьогодні на постерній сесії! 16:30, постер #2010 (9/9)
2,52K