Dans notre nouvelle recherche, nous présentons AutoJudge — une méthode d'accélération d'inférence qui apprend quels tokens sont importants pour la réponse. Le résultat ? Des gains de vitesse de 1,5 à 2 fois par rapport au décodage spéculatif, et des gains constants lorsqu'elle est combinée avec des techniques avancées. 🚀
De plus, lisez le fil de discussion avec les détails des auteurs de l'article :
Max Ryabinin
Max Ryabinin5 déc., 02:02
Ravi de partager notre récente recherche sur AutoJudge, une technique de décodage qui combine : - Accélération de l'inférence grâce à l'assouplissement de la contrainte d'adéquation de distribution - Facilité d'utilisation et évolutivité grâce à un protocole d'entraînement auto-supervisé Présentation à #NeurIPS2025 aujourd'hui ! (1/9)
Les auteurs présenteront AutoJudge à #NeurIPS2025 à San Diego. Rencontrez l'équipe et découvrez l'approche ! 🕑4 déc, 16h30 PST 🗺️Salle d'exposition C,D,E #2010
2,27K