In unserer neuen Forschung präsentieren wir AutoJudge – eine Methode zur Beschleunigung von Inferenz, die lernt, welche Tokens für die Antwort wichtig sind. Das Ergebnis? 1,5-2x Geschwindigkeitssteigerungen im Vergleich zu spekulativer Dekodierung und stetige Gewinne, wenn sie mit fortschrittlichen Techniken kombiniert wird. 🚀
Lies auch den Thread mit Details von den Autoren des Papiers:
Max Ryabinin
Max Ryabinin5. Dez., 02:02
Ich freue mich, unsere aktuelle Forschung zu AutoJudge zu teilen, einer Decodierungstechnik, die Folgendes kombiniert: - Beschleunigung der Inferenz durch Lockerung der Verteilungsübereinstimmungsbeschränkung - Benutzerfreundlichkeit und Skalierbarkeit dank eines selbstüberwachten Trainingsprotokolls Präsentation heute bei #NeurIPS2025! (1/9)
Die Autoren werden AutoJudge auf der #NeurIPS2025 in San Diego vorstellen. Treffen Sie das Team und erfahren Sie mehr über den Ansatz! 🕑4. Dez, 16:30 Uhr PST 🗺️Ausstellungsbereich C,D,E #2010
2,28K