🚨 DeepMind descubrió que las redes neuronales pueden entrenar durante miles de épocas sin aprender nada. Luego, de repente, en una sola época, se generalizan perfectamente. Este fenómeno se llama "Grokking". Pasó de ser un extraño fallo de entrenamiento a una teoría central de cómo aprenden realmente los modelos. Esto es lo que cambió (y por qué esto importa ahora):