Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je deviens de plus en plus convaincu que l'apprentissage par renforcement (RL) et des techniques similaires ne font que redécouvrir comment les humains apprennent.
Pensez-y :
D'abord, un modèle est pré-entraîné sur un langage formel (essentiellement des règles de grammaire sans contexte) qui génère un "sous-réseau syntaxique" au sein du modèle.
Sur ce sous-réseau, le "vrai langage" (ensemble de données d'internet) est ensuite superposé lors de l'entraînement réel du modèle (dans le contexte des langages formels, cela s'appelle essentiellement une grammaire non restreinte).
Mais ensuite... C'est la même façon dont les bébés humains apprennent le langage, non ?
Nous venons "pré-entraînés" avec un sous-réseau syntaxique pour comprendre la forme de base du langage (cadence du transfert d'information, proto-grammaire) et ensuite nous "imposons" le langage réel que nous apprenons par-dessus.
Des choses fascinantes !
Meilleurs
Classement
Favoris
