Mohl bys AI odvodit 3x rychleji bez dalšího tréninku. Výzkumníci ze SJTU a Huawei představují LoPA právě pro to! Jejich nová metoda "Lookahead Parallel Decoding" je trik typu plug-and-play. Chytře předpovídá nejlepší pořadí pro generování více tokenů najednou, místo jednoho po druhém, čímž odemkl masivní paralelní výpočty. Model D2F-Dream je supervýkonnější a generuje 10+ tokenů za krok, čímž dosahuje přes 1070 tokenů za sekundu – což výrazně překoná ostatní špičkové inferenční systémy v benchmarkech v kódování (MBPP) a matematice (GSM8K). LoPA: Škálování inference dLLM pomocí paralelního dekódování Lookahead Článek: Kód: Blog: Naše zpráva: 📬 #PapersAccepted od Jiqizhixina