Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Просто прочитайте нову статтю LeJEPA Янна Лекуна та Рендалла Балестрієро. Мені було цікаво дізнатися, над чим Янн працює останнім часом, особливо з огляду на всю його критику LLM (з чим я не згоден, оскільки я думаю, що LLM продовжуватимуть вдосконалюватися і досить скоро приведуть нас до ASI).
У всякому разі, на Х вже є кілька ниток про папір і про те, що він вводить. Коротка версія полягає в тому, що це принциповий, теоретично обґрунтований і стриманий підхід до самоконтрольованого навчання, який замінює складну мішанину ситуативних, хакерських евристик для запобігання колапсу режиму, який є прокляттям самоконтрольованого навчання.
Ось тут модель закручується і починає відображати всі вхідні дані на майже ідентичні вкладення або на вузький підпростір вкладень, згортаючи все багатство проблеми в патологічно просту і неправильну відповідність.
Першим стовпом нового підходу є їх доказ того, що ізотропні розподіли Гаусса однозначно мінімізують ризик прогнозування в найгіршому випадку.
Як тільки я прочитав це, я відразу ж подумав про CMA-ES, найкращий доступний алгоритм оптимізації чорного ящика, коли у вас немає доступу до градієнта функції, яку ви намагаєтеся мінімізувати, але ви можете виконувати лише (дорогі/повільні) оцінки функцій.
Ніколаус Хансен працює над CMA-ES з того часу, як представив його ще в 1996 році. Я завжди захоплювався цим підходом і використовував його з великим успіхом для ефективного дослідження гіперпараметрів глибоких нейронних мереж ще у 2011 році замість того, щоб виконувати неефективні пошуки по сітці.
У будь-якому випадку, причина, чому я піднімаю це питання, полягає в тому, що існує разюча паралель і глибокий зв'язок між цим підходом і суттю LeJEPA.
CMA-ES говорить: Почніть з ізотропного гаусса, оскільки це розподіл максимальної ентропії (найменш зміщеного) за наявності лише дисперсійних обмежень. Потім адаптуйте коваріацію, щоб вивчити геометрію задачі.
LeJEPA говорить: Підтримуйте ізотропний Гаусс, оскільки це максимальний ентропійний (найменш зміщений) розподіл для невідомих майбутніх завдань.
Обидва визнають, що ізотропія є оптимальною в умовах невизначеності з трьох причин:
Принцип максимальної ентропії; Серед усіх розподілів з фіксованою дисперсією ізотропний гауссів має максимальну ентропію; Тобто він робить найменшу кількість припущень.
Немає спрямованого зміщення; Однакова дисперсія у всіх напрямках означає, що ви не зобов'язуєтеся заздалегідь дотримуватися якоїсь конкретної структури проблеми.
Ви отримуєте оптимальність у найгіршому випадку; Мінімізуйте максимум шкоди у всіх можливих геометріях проблеми.
Так в чому ж тоді різниця? Все зводиться до термінів адаптації. CMA-ES може адаптуватися під час оптимізації; Він починає ізотропно, але потім стає анізотропним, вивчаючи конкретний ландшафт оптимізації.
На противагу цьому, LeJEPA має залишатися ізотропним, оскільки він готується до невідомих завдань, які ще не були помічені.
...

Найкращі
Рейтинг
Вибране

