Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Самая важная работа 2025 года не о постепенных улучшениях архитектуры Transformer.
Она о замене последовательной, авторегрессионной парадигмы на параллельную, двунаправленную.
Статья LLaDA 2.0 полностью меняет мое представление о диффузионных моделях.
До сих пор диффузионные LLM казались интересной идеей, но далеко не чем-то, что можно было бы запустить на масштабе 100B.
Эта работа меняет ситуацию.
Их идея очень проста:
Взять сильную авторегрессионную модель и преобразовать ее в диффузионную модель, а не обучать одну с нуля.
Авторы выяснили, как это сделать, не разрушая знания оригинальной модели. Они называют это "График Разогрева-Устойчивого-Убывания."
Причина, по которой это огромно:
Диффузионная модель имеет много преимуществ: параллельное декодирование, сильная производительность в рассуждениях, скорость и т.д.
Я прикрепляю ссылку на статью ниже.
Читать дальше, чтобы увидеть, как мы можем построить следующее поколение моделей.

Топ
Рейтинг
Избранное
