¡Los modelos de lenguaje de difusión (DLM) son muestreadores paralelos demostrablemente óptimos. En mi nuevo artículo con @nhaghtal y @wjmzbmr1 mostramos que los DLM pueden muestrear distribuciones con el menor número posible de pasos y, más adelante, con la menor memoria posible mediante revisión/reenmascaramiento.
¿Pueden los Transformers hacer todo y deshacerlo también?
¡Echa un vistazo a mi blog sobre si los modelos de lenguaje son sobreyectivos, inyectivos o invertibles!