Estou cada vez mais convencido de que RL e técnicas semelhantes estão apenas a redescobrir como os humanos aprendem. Pense nisso: Primeiro, um modelo é pré-treinado em uma linguagem formal (basicamente regras de gramática livre de contexto) que gera uma "sub-rede sintática" dentro do modelo. Em cima desta sub-rede, a "linguagem real" (conjunto de dados da internet) é então sobreposta no treinamento real do modelo (no contexto de linguagens formais, isso é basicamente chamado de gramática irrestrita). Mas então... Esta é a mesma maneira que os bebês humanos aprendem a linguagem, não? Nós viemos "pré-treinados" com uma sub-rede sintática para entender a forma básica da linguagem (cadência da transferência de informação, proto-gramática) e então "impondo" a linguagem real que aprendemos em cima disso. Coisas fascinantes!