Я дедалі більше переконуюся, що RL та подібні техніки — це лише заново відкриття того, як люди навчаються. Подумайте про це: По-перше, модель попередньо тренується на формальній мові (фактично контекстно-вільні граматичні правила), яка генерує «синтаксичну підмережу» всередині моделі. Поверх цієї підмережі «реальна мова» (інтернет-набір даних) накладається у реальне навчання моделей (у контексті формальних мов це фактично називається необмеженою граматикою) Але потім... Це те саме, як людські немовлята вчать мову, чи не так? Ми проходимо «попереднє навчання» з синтаксичною підмережею для розуміння базової форми мови (каденція передачі інформації, протограматика), а потім «нав'язуємо» на неї саму мову, яку вивчаємо. Цікаві речі!