le slop est essentiellement un contenu qui maximise le ratio récompense/perplexité. Mécaniquement, il s'agit d'un hacking de récompense par le biais de l'effondrement de la distribution de sortie dans un bassin avec quelques modèles Pareto-optimaux, construisant essentiellement une grammaire dégénérée spécifique à cette configuration d'entraînement.
Andrej Karpathy
Andrej Karpathy22 nov., 10:11
Quelqu'un a-t-il rencontré une bonne définition de "slop". Dans un sens quantitatif et mesurable. Mon cerveau a un "indice de slop" intuitif que je peux ~estimer de manière fiable, mais je ne suis pas sûr de la façon de le définir. J'ai quelques mauvaises idées qui impliquent l'utilisation de mini-séries LLM et la réflexion sur les budgets de tokens.
Cela explique également la similitude troublante entre l'anglais indien de bas niveau et les sorties des LLM, d'ailleurs.
29,95K