Языковые модели диффузии (DLM) являются доказательно оптимальными параллельными выборщиками! В моей новой статье с @nhaghtal и @wjmzbmr1 мы показываем, что DLM могут выбирать распределения с наименьшим количеством шагов, а также с наименьшими затратами памяти с пересмотром/ремаскировкой.
Могут ли трансформеры делать всё и отменять это тоже?
Посмотрите мой блог о том, являются ли языковые модели сюръективными, инъективными или обратимыми!