Только что прочитал новую статью LeJEPA от Янна ЛеКуна и Рандалла Балестриеро. Мне было интересно узнать, над чем Янн работает в последнее время, особенно учитывая все его критики LLM (с которыми я не согласен, так как считаю, что LLM будут продолжать улучшаться и приведут нас к ASI довольно скоро). В любом случае, уже есть несколько обсуждений на X о статье и том, что она вводит. Краткая версия заключается в том, что это принципиальный, теоретически обоснованный и экономный подход к самообучению, который заменяет сложную мешанину произвольных, хакерских эвристик для предотвращения коллапса режимов, что является бедствием самообучения. Это то место, где модель ошибается и начинает сопоставлять все входные данные с почти идентичными встраиваниями или с узким подпространством встраиваний, сводя все богатство проблемы к патологически простой и неправильной корреспонденции. Первый столп нового подхода — это их доказательство того, что изотропные гауссовские распределения уникально минимизируют риск предсказания в худшем случае. Как только я это прочитал, я сразу подумал о CMA-ES, лучшем доступном алгоритме черного ящика для оптимизации, когда у вас нет доступа к градиенту функции, которую вы пытаетесь минимизировать, но вы можете только выполнять (дорогие/медленные) оценки функции. Николаус Хансен работает над CMA-ES с тех пор, как он представил его еще в 1996 году. Меня всегда fascinировала этот подход, и я использовал его с большим успехом для эффективного исследования гиперпараметров глубоких нейронных сетей в 2011 году вместо того, чтобы проводить неэффективные поиски по сетке. В любом случае, причина, по которой я это упоминаю, заключается в том, что существует поразительное сходство и глубокая связь между этим подходом и ядром LeJEPA. CMA-ES говорит: Начните с изотропного гауссовского распределения, потому что это распределение с максимальной энтропией (наименее предвзятое) с учетом только ограничений по дисперсии. Затем адаптируйте ковариацию, чтобы изучить геометрию проблемы. LeJEPA говорит: Поддерживайте изотропное гауссовское распределение, потому что это распределение с максимальной энтропией (наименее предвзятое) для неизвестных будущих задач. Оба признают, что изотропия оптимальна в условиях неопределенности по трем причинам: Принцип максимальной энтропии; Среди всех распределений с фиксированной дисперсией изотропный гаусс имеет максимальную энтропию; т.е. он делает наименьшее количество предположений. Нет направленной предвзятости; Равная дисперсия во всех направлениях означает, что вы не предопределяете какую-либо конкретную структуру проблемы. Вы получаете оптимальность в худшем случае; Минимизируйте максимальное сожаление по всем возможным геометриям проблемы. Так в чем же разница? Это сводится к времени адаптации. CMA-ES может адаптироваться во время оптимизации; он начинает изотропным, но затем становится анизотропным, когда изучает конкретный ландшафт оптимизации. В отличие от этого, LeJEPA должен оставаться изотропным, потому что он готовится к неизвестным задачам, которые еще не были увидены. ...