Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il documento più importante del 2025 non riguarda miglioramenti incrementali all'architettura Transformer.
Riguarda la sostituzione del suo paradigma sequenziale e autoregressivo con uno parallelo e bidirezionale.
Il documento LLaDA 2.0 riformula completamente il modo in cui penso ai modelli di diffusione.
Fino ad ora, i LLM di diffusione sembravano un'idea interessante, ma lontana da qualcosa che potresti eseguire su scala 100B.
Questo documento cambia tutto.
La loro idea è molto semplice:
Prendere un forte modello autoregressivo e convertirlo in un modello di diffusione, piuttosto che addestrarne uno da zero.
Gli autori hanno scoperto come farlo senza distruggere la conoscenza del modello originale. Lo chiamano "Il programma Warmup-Stable-Decay."
Il motivo per cui questo è enorme:
Un modello di diffusione ha molti vantaggi: decodifica parallela, forte prestazione di ragionamento, velocità, ecc.
Sto linkando il documento qui sotto.
Continua a leggere per vedere come potremmo costruire la prossima generazione di modelli.

Principali
Ranking
Preferiti
