Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Раді поділитися нашими недавніми дослідженнями про AutoJudge — техніку декодування, яка поєднує:
- Прискорення висновку шляхом послаблення обмеження на відповідність розподілу
- Простота використання та масштабованість завдяки самоконтрольованому протоколу навчання
Сьогодні виступаю на #NeurIPS2025! (1/9)

Ми виявляємо, що можемо автоматично добувати мітки для класифікатора прийняття. Зокрема, ми беремо набір даних і запускаємо цільові та чернеткові генерації моделей.
Потім ми перевіряємо всі невідповідні токени між цільовою та чернетковою моделями. Якщо збереження токена з чернеткової моделі призводить до неправильної відповіді, це позначається як важливе (3/9)

Використовуючи ці мітки, ми можемо навчити простий класифікатор знаходити важливі токени в момент виведення.
Якщо початкове спекулятивне декодування відхиляє токен, ми даємо йому другий шанс, запитавши класифікатора. Для неважливих токенів ми продовжуємо генерацію, а для інших запускаємо новий спекулятивний цикл (4/9)

Наші основні оцінки AutoJudge зосереджені на завданнях, для яких легко виміряти правильність відповідей — програмуванні (LiveCodeBench) та математиці (GSM8K).
З парами моделей, такими як 8B/70B, ми можемо досягти до 40 прийнятих токенів за цикл із <1% зниження точності! (5/9)

AutoJudge також легко інтегрується з відкритими фреймворками для висновків, такими як vLLM. Покращення рівня прийняття означає повне прискорення: якщо ми пожертвуємо точністю на 2%, отримаємо майже на 50% більше токенів за секунду! (6/9)

Перевірка анотувань на наявність важливих токенів виявляє цікаву закономірність: чіткі помилки позначаються як негативні вибірки (=> потрібно регенерувати), тоді як семантично еквівалентні токени дозволяють припущенню продовжуватися (7/9)

Щоб дізнатися більше, перегляньте:
Папір:
Код:
Блог-пост:
Попередньо обчислені активації для GSM8K та LiveCodeBench:
(8/9)
Цю роботу очолили мої дивовижні співавтори @garipovroma, @MightyNeighbour Іван Єрмаков, Руслан Свірщевський і Ваге Егіазарян.
Команда цього тижня перебуває в Сан-Дієго на NeurIPS — завітайте сьогодні на постерній сесії!
16:30, постер #2010 (9/9)
2,52K
Найкращі
Рейтинг
Вибране

