Тихе навчання функцій у трансформерах Це одна з найцікавіших статей, які я читав цього тижня. Дозвольте пояснити: Вона стверджує, що криві втрат можуть вводити в оману щодо того, чого модель навчається. Стандартний підхід до моніторингу навчання нейронних мереж базується на втратах як основному показнику прогресу. Якщо втрати незмінні, нічого не відбувається. Якщо втрати падають, відбувається навчання. Але це припущення розбивається на алгоритмічні завдання. Це нове дослідження навчило трансформерів десяти фундаментальним алгоритмічним завданням і виявило «тихі особливості»: внутрішні представлення, що розвиваються, коли втрати здаються застиглими. Вони виявили, що моделі навчаються проміжним обчислювальним крокам задовго до того, як ці кроки покращують продуктивність виходу. Додатково переносять біти, членство в черзі в BFS, часткові добутки у множенні. Ці особливості виникають під час тривалих плато, а потім раптово об'єднуються для вирішення завдання. Дослідники досліджували внутрішні представлення в бінарній арифметиці (додавання, множення), алгоритмах графів (BFS, найкоротший шлях, топологічне сортування, MST) та оптимізації послідовностей (максимальний підмасив, вибір активності). Шість завдань показали чіткі двофазні переходи: тривалий застій за різким підвищенням продуктивності. Експерименти з абляції підтвердили причинність. Видалення функцій переносу з 64-бітної моделі додавання призвело до зниження точності на 75,1%. Аблація членства в черзі в BFS знизилася точність на 43,6%. Алгоритмічні завдання вимагають спільної роботи кількох підпрограм. Окремі правильні компоненти не зменшують втрати, доки всі деталі не вирівняються. Моделі накопичують приховані можливості під плоскими кривими втрат. Схоже, що втрата через крос-ентропію є неповною діагностикою. Суттєве внутрішнє навчання може відбуватися, поки метрики здаються застиглими. Це мотивує більш багаті інструменти моніторингу, що виходять за межі кривих втрат. 🔖 (зберіть у закладки) Папір: