🌀Nouveau travail : ère de l'interaction humaine dans le monde réel 🌀 📝 : - RL *directement* à partir des conversations des utilisateurs - Réponses organiques + historique à long terme sont des signaux d'apprentissage - Entraîné sur WildChat, surpasse RLHF au niveau *utilisateur* -> l'avenir de l'intelligence super personnelle ? 🧵1/6