Học Tính Năng Im Lặng trong Transformers Đây là một trong những bài báo thú vị nhất mà tôi đã đọc trong tuần này. Hãy để tôi giải thích: Nó lập luận rằng các đường cong mất mát có thể gây hiểu lầm về những gì một mô hình đang học. Cách tiếp cận mặc định để theo dõi việc đào tạo mạng nơ-ron dựa vào mất mát như một thước đo tiến trình chính. Nếu mất mát phẳng, không có gì xảy ra. Nếu mất mát giảm, việc học đang diễn ra. Nhưng giả định này bị phá vỡ trong các nhiệm vụ thuật toán. Nghiên cứu mới này đã đào tạo Transformers trên mười nhiệm vụ thuật toán cơ bản và phát hiện ra "các tính năng im lặng": các biểu diễn nội bộ phát triển trong khi mất mát có vẻ như không thay đổi. Họ phát hiện rằng các mô hình học các bước tính toán trung gian lâu trước khi những bước đó cải thiện hiệu suất đầu ra. Các bit mang trong phép cộng, thành viên hàng đợi trong BFS, các sản phẩm một phần trong phép nhân. Những tính năng này xuất hiện trong các cao nguyên kéo dài, sau đó đột ngột kết hợp để giải quyết nhiệm vụ. Các nhà nghiên cứu đã kiểm tra các biểu diễn nội bộ qua số học nhị phân (phép cộng, phép nhân), các thuật toán đồ thị (BFS, đường đi ngắn nhất, sắp xếp topo, MST), và tối ưu hóa chuỗi (mảng con lớn nhất, lựa chọn hoạt động). Sáu nhiệm vụ cho thấy rõ ràng hai giai đoạn chuyển tiếp: sự trì trệ kéo dài tiếp theo là sự gia tăng hiệu suất đột ngột. Các thí nghiệm loại bỏ đã xác nhận mối quan hệ nguyên nhân. Việc loại bỏ các tính năng mang từ một mô hình phép cộng 64-bit đã gây ra sự giảm 75,1% độ chính xác. Việc loại bỏ thành viên hàng đợi trong BFS đã giảm độ chính xác 43,6%. Các nhiệm vụ thuật toán yêu cầu nhiều tiểu quy trình hoạt động cùng nhau. Các thành phần đúng riêng lẻ không làm giảm mất mát cho đến khi tất cả các phần khớp nhau. Các mô hình tích lũy khả năng tiềm ẩn dưới các đường cong mất mát phẳng. Có vẻ như mất mát chéo-entropi là một chẩn đoán không đầy đủ. Việc học nội bộ đáng kể có thể xảy ra trong khi các chỉ số có vẻ như không thay đổi. Điều này thúc đẩy các công cụ giám sát phong phú hơn ngoài các đường cong mất mát. 🔖 (đánh dấu nó) Bài báo: