Yann LeCun ve Randall Balestriero'nun yeni LeJEPA makalesini okuyun. Yann'ın son zamanlarda ne üzerinde çalıştığını merak ediyorum, özellikle de LLM'lere yönelik tüm eleştirilerini göz önünde bulundurarak (ki buna katılmıyorum, çünkü LLM'lerin gelişmeye devam edeceğini ve bizi oldukça yakında ASI'ye götüreceğini düşünüyorum). Her neyse, X'te makale ve tanıttığı şeyler hakkında zaten birkaç konu var. Kısa versiyon, kendi kendini denetleyen öğrenmenin belası olan mod çöküşünü önlemek için karmaşık bir geçici, hileli buluşsal yöntemler karmaşasının yerini alan, kendi kendini denetleyen öğrenmeye yönelik ilkeli, teorik olarak gerekçelendirilmiş ve cimri bir yaklaşım olmasıdır. İşte bu noktada model hata yapar ve tüm girdileri neredeyse aynı yerleştirmelere veya dar bir gömme alt uzayına eşlemeye başlar ve sorunun tüm zenginliğini patolojik olarak basit ve yanlış bir yazışmaya dönüştürür. Yeni yaklaşımın ilk ayağı, izotropik Gauss dağılımlarının en kötü durum aşağı yönlü tahmin riskini benzersiz bir şekilde en aza indirdiğinin kanıtıdır. Bunu okur okumaz, hemen CMA-ES'yi düşündüm, küçültmeye çalıştığınız fonksiyonun gradyanına erişiminiz olmadığı, ancak yalnızca (pahalı/yavaş) fonksiyon değerlendirmeleri yapabildiğiniz zamanlar için mevcut en iyi kara kutu optimizasyon algoritması. Nikolaus Hansen, 1996 yılında tanıttığından beri CMA-ES üzerinde çalışıyor. Bu yaklaşımdan her zaman etkilenmişimdir ve 2011'de verimsiz ızgara aramaları yapmak yerine derin sinir ağlarının hiper parametrelerini verimli bir şekilde keşfetmek için büyük bir başarı ile kullandım. Her neyse, bu konuyu gündeme getirmemin nedeni, bu yaklaşım ile LeJEPA'nın özü arasında çarpıcı bir paralellik ve derin bir bağlantı olmasıdır. CMA-ES diyor ki: İzotropik bir Gauss ile başlayın çünkü bu, yalnızca varyans kısıtlamaları verilen maksimum entropi (en az önyargılı) dağılımıdır. Daha sonra problemin geometrisini öğrenmek için kovaryansı uyarlayın. LeJEPA diyor ki: İzotropik bir Gauss koruyun çünkü bu, gelecekteki bilinmeyen görevler için maksimum entropi (en az önyargılı) dağılımıdır. Her ikisi de izotropinin belirsizlik altında üç nedenden dolayı optimal olduğunu kabul eder: Maksimum entropi ilkesi; Sabit varyanslı tüm dağılımlar arasında, izotropik Gauss maksimum entropiye sahiptir; Yani, en az varsayımda bulunur. Yön önyargısı yoktur; Tüm yönlerde eşit varyans, belirli bir problem yapısına önceden bağlı olmadığınız anlamına gelir. En kötü durum optimalliğini elde edersiniz; Olası tüm problem geometrilerinde maksimum pişmanlığı en aza indirin. Peki o zaman fark nedir? Adaptasyon zamanlamasına bağlı. CMA-ES, optimizasyon sırasında uyum sağlayabilir; izotropik başlar ancak daha sonra spesifik optimizasyon ortamını öğrendikçe anizotropik hale gelir. Buna karşılık LeJEPA'nın izotropik kalması gerekiyor çünkü henüz görülmemiş, bilinmeyen alt görevlere hazırlanıyor. ...