I modelli di linguaggio di diffusione (DLM) sono provabilmente i campionatori paralleli ottimali! Nel mio nuovo articolo con @nhaghtal e @wjmzbmr1 mostriamo che i DLM possono campionare distribuzioni con il minor numero possibile di passaggi e, ulteriormente, con la minor quantità possibile di memoria con revisione/rimodellamento.
I Trasformatori possono fare tutto e disfarlo anche?
Dai un'occhiata al mio blog su se i modelli linguistici siano suriettivi, iniettivi o invertibili!