Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Универсальная модель рассуждений Универсальные трансформеры превосходят стандартные трансформеры в задачах рассуждения. Но почему? Предыдущие исследования связывали приросты с сложными архитектурными инновациями, такими как иерархические конструкции и сложные механизмы управления. Но эти исследователи нашли более простое объяснение. Это новое исследование демонстрирует, что приросты производительности на ARC-AGI в основном обусловлены двумя часто упускаемыми из виду факторами: рекуррентным индуктивным уклоном и сильной нелинейностью. Применение одной и той же трансформации многократно работает гораздо лучше, чем наслоение различных слоев для задач рассуждения. С всего лишь 4x параметрами универсальный трансформер достигает 40% pass@1 на ARC-AGI 1. Ванильные трансформеры с 32x параметрами набирают всего 23.75%. Простое увеличение глубины или ширины в стандартных трансформерах дает убывающую отдачу и может даже ухудшить производительность. Они представляют универсальную модель рассуждений (URM), которая улучшает это с помощью двух техник. Во-первых, ConvSwiGLU добавляет глубинную короткую свертку после расширения MLP, вводя локальное смешивание токенов в нелинейный путь. Во-вторых, усеченное обратное распространение через петли пропускает вычисление градиента для ранних рекуррентных итераций, стабилизируя оптимизацию. Результаты: 53.8% pass@1 на ARC-AGI 1, увеличившись с 40% (TRM) и 34.4% (HRM). На ARC-AGI 2 URM достигает 16% pass@1, почти утроив HRM и более чем удвоив TRM. Точность Судоку достигает 77.6%. Абляции: - Удаление короткой свертки снижает pass@1 с 53.8% до 45.3%. Удаление усеченного обратного распространения снижает его до 40%. - Замена SwiGLU на более простые активации, такие как ReLU, резко снижает производительность до 28.6%. - Полное удаление внимания softmax полностью разрушает точность до 2%. Рекуррентная структура преобразует вычисления в эффективную глубину. Стандартные трансформеры тратят FLOPs на избыточное уточнение на более высоких слоях. Рекуррентные вычисления концентрируют тот же бюджет на итеративном рассуждении. Сложные рассуждения больше выигрывают от итеративных вычислений, чем от масштаба. Малые модели с рекуррентной структурой превосходят большие статические модели в задачах, требующих многоступенчатой абстракции.

Топ

Рейтинг

Избранное