🚨 DeepMind đã phát hiện ra rằng các mạng nơ-ron có thể được huấn luyện trong hàng nghìn epoch mà không học được gì. Sau đó, đột nhiên, trong một epoch duy nhất, chúng tổng quát một cách hoàn hảo. Hiện tượng này được gọi là "Grokking". Nó đã chuyển từ một lỗi huấn luyện kỳ lạ thành một lý thuyết cốt lõi về cách mà các mô hình thực sự học. Dưới đây là những gì đã thay đổi (và tại sao điều này quan trọng ngay bây giờ):