🚨 DeepMind a découvert que les réseaux de neurones peuvent s'entraîner pendant des milliers d'époques sans rien apprendre. Puis soudainement, en une seule époque, ils généralisent parfaitement. Ce phénomène s'appelle "Grokking". Il est passé d'un bug d'entraînement étrange à une théorie centrale de la façon dont les modèles apprennent réellement. Voici ce qui a changé (et pourquoi cela compte maintenant) :