Estou cada vez mais convencido de que o RL e técnicas similares estão apenas redescobrindo como os humanos aprendem. Pense bem: Primeiro, um modelo é pré-pré-treinado em uma linguagem formal (basicamente regras gramaticais livres de contexto) que gera uma "sub-rede sintática" dentro do modelo. Sobre essa sub-rede, a "linguagem real" (conjunto de dados da internet) é então sobreposta ao treinamento real do modelo (no contexto das linguagens formais, isso é basicamente chamado de gramática irrestrita) Mas então... É assim que bebês humanos aprendem linguagem, não é? Nós viemos "pré-pré-treinados" com uma sub-rede sintática para entender a forma básica da linguagem (cadência da transferência de informação, protogramática) e então "impõemos" a linguagem que aprendemos por cima. Coisas fascinantes!