Dlaczego sieci neuronowe uczą się na krawędzi chaosu Kiedy trenujesz sieć neuronową, aktualizacje parametrów nie są rozkładem normalnym. Mają długi ogon — rzadkie duże skoki przerywają wiele małych dostosowań. Ten wzór pojawia się w MLP, CNN i Transformerach, w MNIST i CIFAR-10, wczesnym szybkim uczeniu i późnej konwergencji. Jest podejrzanie uniwersalny. Xin-Ya Zhang i Chao Tang twierdzą, że to nie jest dziwactwo stochastycznego spadku gradientu ani szumów mini-batch. To sygnatura samorganizującej się krytyczności, wynikająca z fundamentalnego kompromisu: zasada maksymalnej entropii popycha sieć do swobodnego eksplorowania, podczas gdy ograniczenie wzajemnej informacji zmusza aktualizacje do pozostawania istotnymi dla zadania. Zrównoważ te dwie siły, a otrzymasz statystyki potęgowe — ten sam wzór skalowania, który można zaobserwować w trzęsieniach ziemi, lawinach neuronalnych i rynkach finansowych. Dowody są przekonujące. Wykładnik potęgowy pozostaje niezwykle stabilny przez cały proces treningu, nawet gdy strata spada o rzędy wielkości. Sam krajobraz straty pokazuje strukturę wieloskalową: eksponencjalna gładkość pod małymi perturbacjami (lokalnie płaskie baseny), przechodząca w szorstkość potęgową na większych skalach. Nawet czas dużych aktualizacji podąża za statystykami o długim ogonie — duże zdarzenia uczenia grupują się razem, zamiast występować losowo, z wykładnikami w okolicach 2.5–2.7. To, co czyni to koncepcyjnie satysfakcjonującym, to teoretyczne wyprowadzenie z pierwszych zasad. Zaczynając od maksymalizacji entropii pod ograniczeniem informacyjnym i używając sformułowania całki ścieżkowej rozbieżności KL przez przestrzeń parametrów, autorzy dokładnie odzyskują zaobserwowane zachowanie skalowania. Żadne dostrajanie, żadnych ad hoc założeń. Implikacje są głębokie: uczenie się sieci neuronowych to nie tylko optymalizacja — to proces fizyczny w stanie nie równowagi, rządzony przez te same zasady statystyczne, które kształtują złożone systemy w całej naturze. Zrozumienie tego może pomóc w projektowaniu bardziej efektywnych algorytmów uczenia i wyjaśnić, dlaczego SGD generalizuje lepiej niż metody adaptacyjne, które tłumią duże eksploracyjne aktualizacje. Artykuł: