Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Você poderia fazer a inferência da IA 3x mais rápida sem nenhum treinamento extra.
Pesquisadores da SJTU e Huawei apresentam a LoPA justamente por isso!
O novo método "Decodificação Paralela Antecipada" deles é um truque plug-and-play. Ele prevê de forma inteligente a melhor ordem para gerar múltiplos tokens ao mesmo tempo, em vez de um a um, desbloqueando uma computação paralela massiva.
Ele supercarrega o modelo D2F-Dream para gerar 10+ tokens por passo, alcançando mais de 1070 tokens/seg — superando significativamente outros sistemas de inferência de ponta em benchmarks de codificação (MBPP) e matemática (GSM8K).
LoPA: Inferência de Escalonamento de dLLM via Decodificação Paralela de Antecipação
Papel:
Código:
Blog:
Nosso relatório:
📬 #PapersAccepted por Jiqizhixin

Melhores
Classificação
Favoritos
