Просто прочитайте нову статтю LeJEPA Янна Лекуна та Рендалла Балестрієро. Мені було цікаво дізнатися, над чим Янн працює останнім часом, особливо з огляду на всю його критику LLM (з чим я не згоден, оскільки я думаю, що LLM продовжуватимуть вдосконалюватися і досить скоро приведуть нас до ASI). У всякому разі, на Х вже є кілька ниток про папір і про те, що він вводить. Коротка версія полягає в тому, що це принциповий, теоретично обґрунтований і стриманий підхід до самоконтрольованого навчання, який замінює складну мішанину ситуативних, хакерських евристик для запобігання колапсу режиму, який є прокляттям самоконтрольованого навчання. Ось тут модель закручується і починає відображати всі вхідні дані на майже ідентичні вкладення або на вузький підпростір вкладень, згортаючи все багатство проблеми в патологічно просту і неправильну відповідність. Першим стовпом нового підходу є їх доказ того, що ізотропні розподіли Гаусса однозначно мінімізують ризик прогнозування в найгіршому випадку. Як тільки я прочитав це, я відразу ж подумав про CMA-ES, найкращий доступний алгоритм оптимізації чорного ящика, коли у вас немає доступу до градієнта функції, яку ви намагаєтеся мінімізувати, але ви можете виконувати лише (дорогі/повільні) оцінки функцій. Ніколаус Хансен працює над CMA-ES з того часу, як представив його ще в 1996 році. Я завжди захоплювався цим підходом і використовував його з великим успіхом для ефективного дослідження гіперпараметрів глибоких нейронних мереж ще у 2011 році замість того, щоб виконувати неефективні пошуки по сітці. У будь-якому випадку, причина, чому я піднімаю це питання, полягає в тому, що існує разюча паралель і глибокий зв'язок між цим підходом і суттю LeJEPA. CMA-ES говорить: Почніть з ізотропного гаусса, оскільки це розподіл максимальної ентропії (найменш зміщеного) за наявності лише дисперсійних обмежень. Потім адаптуйте коваріацію, щоб вивчити геометрію задачі. LeJEPA говорить: Підтримуйте ізотропний Гаусс, оскільки це максимальний ентропійний (найменш зміщений) розподіл для невідомих майбутніх завдань. Обидва визнають, що ізотропія є оптимальною в умовах невизначеності з трьох причин: Принцип максимальної ентропії; Серед усіх розподілів з фіксованою дисперсією ізотропний гауссів має максимальну ентропію; Тобто він робить найменшу кількість припущень. Немає спрямованого зміщення; Однакова дисперсія у всіх напрямках означає, що ви не зобов'язуєтеся заздалегідь дотримуватися якоїсь конкретної структури проблеми. Ви отримуєте оптимальність у найгіршому випадку; Мінімізуйте максимум шкоди у всіх можливих геометріях проблеми. Так в чому ж тоді різниця? Все зводиться до термінів адаптації. CMA-ES може адаптуватися під час оптимізації; Він починає ізотропно, але потім стає анізотропним, вивчаючи конкретний ландшафт оптимізації. На противагу цьому, LeJEPA має залишатися ізотропним, оскільки він готується до невідомих завдань, які ще не були помічені. ...