Les gens ne veulent pas et n'ont pas besoin de cela
Pourtant, xAI, Meta et maintenant OpenAI s'efforcent tous de le construire.
C'est probablement une mauvaise chose pour l'humanité. Ne le faites pas.
C'est un peu ce que j'aimerais pouvoir utiliser pour entraîner des modèles si c'est vraiment ce que ça semble être - Vous voulez dire "Non, n'appelez pas une méthode asynchrone de cette façon, cela causera des problèmes x, y, z" ou quelque chose comme ça et il apprend, mais je vais devoir creuser cela pour voir si c'est vraiment ce que c'est ?
🚀Les LLMs peuvent apprendre directement à partir de retours verbaux — aucune récompense scalaire n'est nécessaire !
😥Les récompenses scalaires compressent des retours riches — "redondant mais correct" contre "concise mais truffée de fautes" peuvent tous deux être à 0,8
💡Nous proposons d'apprendre la Politique Conditionnelle de Retour (FCP), un paradigme extrêmement évolutif !