¡BERT es solo un paso de difusión de texto único! (1/n) Cuando leí por primera vez sobre los modelos de difusión del lenguaje, me sorprendió descubrir que su objetivo de entrenamiento era solo una generalización del modelado de lenguaje enmascarado (MLM), algo que hemos estado haciendo desde BERT desde 2018. El primer pensamiento que tuve fue: "¿podemos ajustar un modelo similar a BERT para generar texto?"