Sto diventando sempre più convinto che RL e tecniche simili stiano semplicemente riscoprendo come gli esseri umani apprendono. Pensaci: Prima un modello viene pre-addestrato su un linguaggio formale (fondamentalmente regole di grammatica libera dal contesto) che genera una "sottorete sintattica" all'interno del modello. Sopra questa sottorete viene poi sovrapposto il "linguaggio reale" (dataset di internet) durante il vero addestramento del modello (nel contesto dei linguaggi formali questo è fondamentalmente chiamato una grammatica non ristretta) Ma poi... Questo è lo stesso modo in cui i neonati umani apprendono il linguaggio, vero? Noi veniamo "pre-addestrati" con una sottorete sintattica per comprendere la forma base del linguaggio (cadenza del trasferimento di informazioni, proto-grammatica) e poi "imponiamo" il linguaggio reale che apprendiamo sopra di essa. Cose affascinanti!