🚨 DeepMind descubrió que las redes neuronales pueden entrenarse durante miles de épocas sin aprender nada. Luego, de repente, en una sola época, generalizan perfectamente. Este fenómeno se llama "Grokking". Pasó de ser un extraño error de entrenamiento a una teoría central de cómo los modelos realmente aprenden. Aquí está lo que cambió (y por qué esto importa ahora):