Tôi vừa đọc qua bài báo mới của LeJEPA do Yann LeCun và Randall Balestriero viết. Tôi đã rất tò mò muốn biết gần đây Yann đang làm gì, đặc biệt là khi xem xét tất cả những chỉ trích của ông về LLM (mà tôi không đồng ý, vì tôi nghĩ LLM sẽ tiếp tục cải thiện và sẽ đưa chúng ta đến ASI khá sớm). Dù sao đi nữa, đã có nhiều chủ đề trên X về bài báo và những gì nó giới thiệu. Phiên bản ngắn gọn là đây là một cách tiếp cận có nguyên tắc, được lý thuyết hóa và tiết kiệm cho việc học tự giám sát, thay thế cho một mớ hỗn độn phức tạp của các phương pháp ngẫu nhiên, không chính thức để ngăn chặn sự sụp đổ chế độ, điều này là nỗi ám ảnh của việc học tự giám sát. Đó là nơi mà mô hình gặp sai lầm và bắt đầu ánh xạ tất cả các đầu vào thành các nhúng gần như giống hệt nhau hoặc vào một không gian con hẹp của các nhúng, làm giảm tất cả sự phong phú của vấn đề thành một sự tương ứng đơn giản và sai lầm một cách bệnh lý. Trụ cột đầu tiên của cách tiếp cận mới là bằng chứng của họ rằng các phân phối Gaussian đồng nhất tối thiểu hóa duy nhất rủi ro dự đoán tồi tệ nhất trong trường hợp xấu nhất. Ngay khi tôi đọc điều đó, tôi ngay lập tức nghĩ đến CMA-ES, thuật toán tối ưu hóa hộp đen tốt nhất hiện có cho khi bạn không có quyền truy cập vào đạo hàm của hàm mà bạn đang cố gắng tối thiểu hóa, mà chỉ có thể thực hiện (đánh giá hàm tốn kém/chậm). Nikolaus Hansen đã làm việc trên CMA-ES kể từ khi ông giới thiệu nó từ năm 1996. Tôi luôn bị cuốn hút bởi cách tiếp cận này và đã sử dụng nó với nhiều thành công để khám phá hiệu quả các siêu tham số của mạng nơ-ron sâu vào năm 2011 thay vì thực hiện các tìm kiếm lưới không hiệu quả. Dù sao đi nữa, lý do tôi đề cập đến điều này là vì có một sự tương đồng nổi bật và mối liên hệ sâu sắc giữa cách tiếp cận đó và cốt lõi của LeJEPA. CMA-ES nói: Bắt đầu với một phân phối Gaussian đồng nhất vì đó là phân phối có entropy tối đa (ít thiên lệch nhất) chỉ với các ràng buộc về phương sai. Sau đó điều chỉnh hiệp phương sai để học hình học của vấn đề. LeJEPA nói: Duy trì một phân phối Gaussian đồng nhất vì đó là phân phối có entropy tối đa (ít thiên lệch nhất) cho các nhiệm vụ tương lai chưa biết. Cả hai đều nhận ra rằng tính đồng nhất là tối ưu trong điều kiện không chắc chắn vì ba lý do: Nguyên tắc entropy tối đa; Trong số tất cả các phân phối có phương sai cố định, phân phối Gaussian đồng nhất có entropy tối đa; Nghĩa là, nó đưa ra ít giả định nhất. Không có thiên lệch hướng; Phương sai bằng nhau ở tất cả các hướng có nghĩa là bạn không cam kết trước cho bất kỳ cấu trúc vấn đề cụ thể nào. Bạn có tính tối ưu tồi tệ nhất; Tối thiểu hóa sự hối tiếc tối đa trên tất cả các hình học vấn đề có thể. Vậy thì sự khác biệt là gì? Nó phụ thuộc vào thời điểm thích ứng. CMA-ES có thể thích ứng trong quá trình tối ưu hóa; nó bắt đầu đồng nhất nhưng sau đó trở thành không đồng nhất khi nó học được cảnh quan tối ưu hóa cụ thể. Ngược lại, LeJEPA phải giữ nguyên tính đồng nhất vì nó đang chuẩn bị cho các nhiệm vụ hạ nguồn chưa biết mà chưa được thấy. ...