Les modèles de langage de diffusion (DLM) sont des échantillonneurs parallèles optimalement prouvés ! Dans mon nouvel article avec @nhaghtal et @wjmzbmr1, nous montrons que les DLM peuvent échantillonner des distributions avec le moins d'étapes possible, et de plus avec la mémoire la plus réduite possible grâce à la révision/remasking.
Les Transformers peuvent-ils tout faire, et le défaire aussi ?
Découvrez mon blog sur la question de savoir si les modèles de langage sont surjectifs, injectifs ou inversibles !