Я все больше убеждаюсь, что RL и подобные техники просто заново открывают, как учатся люди. Подумайте об этом: Сначала модель предварительно обучается на формальном языке (по сути, правилах контекстно-свободной грамматики), что создает "синтаксическую подсеть" внутри модели. На эту подсеть затем накладывается "реальный язык" (интернет-датасет) в процессе фактического обучения модели (в контексте формальных языков это в основном называется неограниченной грамматикой). Но затем... Это тот же способ, которым человеческие младенцы учат язык, не так ли? Мы приходим "предварительно обученными" с синтаксической подсетью для понимания основной формы языка (ритм передачи информации, протограмматика), а затем "накладываем" фактический язык, который мы учим, сверху. Удивительные вещи!