🚨 DeepMind ontdekte dat neurale netwerken duizenden epochs kunnen trainen zonder iets te leren. Dan generaliseren ze plotseling, in een enkele epoch, perfect. Dit fenomeen wordt "Grokking" genoemd. Het ging van een vreemde trainingsfout naar een kern theorie van hoe modellen daadwerkelijk leren. Hier is wat er veranderd is (en waarom dit nu belangrijk is):