🚨 DeepMind виявила, що нейронні мережі можуть тренуватися тисячі епох, нічого не навчаючись. А потім раптом, за одну епоху, вони ідеально узагальнюються. Це явище називається «Гроккінг». Це перетворилося з дивного збою в тренуванні до основної теорії того, як моделі насправді навчаються. Ось що змінилося (і чому це важливо зараз):