Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Створення за допомогою агентів штучного інтелекту @dair_ai • Попередня: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Я ділюся думками про те, як створювати за допомогою LLM та AI Agents ⬇️
Тихе навчання функцій у трансформерах
Це одна з найцікавіших статей, які я читав цього тижня.
Дозвольте пояснити:
Вона стверджує, що криві втрат можуть вводити в оману щодо того, чого модель навчається.
Стандартний підхід до моніторингу навчання нейронних мереж базується на втратах як основному показнику прогресу. Якщо втрати незмінні, нічого не відбувається. Якщо втрати падають, відбувається навчання.
Але це припущення розбивається на алгоритмічні завдання.
Це нове дослідження навчило трансформерів десяти фундаментальним алгоритмічним завданням і виявило «тихі особливості»: внутрішні представлення, що розвиваються, коли втрати здаються застиглими.
Вони виявили, що моделі навчаються проміжним обчислювальним крокам задовго до того, як ці кроки покращують продуктивність виходу. Додатково переносять біти, членство в черзі в BFS, часткові добутки у множенні. Ці особливості виникають під час тривалих плато, а потім раптово об'єднуються для вирішення завдання.
Дослідники досліджували внутрішні представлення в бінарній арифметиці (додавання, множення), алгоритмах графів (BFS, найкоротший шлях, топологічне сортування, MST) та оптимізації послідовностей (максимальний підмасив, вибір активності).
Шість завдань показали чіткі двофазні переходи: тривалий застій за різким підвищенням продуктивності.
Експерименти з абляції підтвердили причинність. Видалення функцій переносу з 64-бітної моделі додавання призвело до зниження точності на 75,1%. Аблація членства в черзі в BFS знизилася точність на 43,6%.
Алгоритмічні завдання вимагають спільної роботи кількох підпрограм. Окремі правильні компоненти не зменшують втрати, доки всі деталі не вирівняються. Моделі накопичують приховані можливості під плоскими кривими втрат.
Схоже, що втрата через крос-ентропію є неповною діагностикою. Суттєве внутрішнє навчання може відбуватися, поки метрики здаються застиглими. Це мотивує більш багаті інструменти моніторингу, що виходять за межі кривих втрат.
🔖 (зберіть у закладки)
Папір:

11,65K
Чого бракує, щоб створити корисні агенти для глибоких досліджень?
Агенти глибоких досліджень обіцяють аналітичні звіти через автоматизований пошук і синтез. Однак сучасні системи не мають справді корисних досліджень.
Питання в тому: де саме вони зазнають невдачі?
У цій новій статті представлено FINDER — еталонний комплекс із 100 дослідницьких завдань, підібраних людиною, з 419 структурованими пунктами чек-листа для оцінки якості звітів. На відміну від бенчмарків QA, FINDER зосереджений на комплексному генеруванні звітів.
Дослідники проаналізували приблизно 1000 звітів від основних агентів глибоких досліджень. Їхні результати кидають виклик припущенням про те, де ці глибокі дослідницькі системи борються.
Поточні агенти не мають проблем із розумінням завдань. Вони не справляються з інтеграцією доказів, перевіркою та плануванням, стійким до логіки. Вони розуміють, про що ви питаєте. Вони просто не можуть надійно сформулювати відповідь.
У статті представлено DEFT — першу таксономію невдач для агентів глибоких досліджень. Він визначає 14 різних режимів відмов у трьох категоріях: збоїв мислення, невдачі у пошуку та помилки генерації.
Цей систематичний аналіз показує, що розрив між поточними можливостями та корисними дослідженнями полягає не в розумнішому пошуку чи кращих мовних моделях. Йдеться про архітектуру мислення, яка пов'язує пошук із синтезом.
(зберіть у закладки)
Папір:

19,63K
Найкращі
Рейтинг
Вибране

