lo slop è fondamentalmente contenuto che massimizza il rapporto tra ricompensa e perplessità. Meccanicamente, questo è un hacking della ricompensa mediante il collasso della distribuzione di output in un bacino con pochi schemi Pareto-ottimali, costruendo essenzialmente una grammatica degenerata specifica per questo setup di addestramento.
Andrej Karpathy
Andrej Karpathy22 nov, 10:11
Qualcuno ha trovato una buona definizione di “slop”. In un senso quantitativo e misurabile. La mia mente ha un “indice di slop” intuitivo che posso ~stimare in modo affidabile, ma non sono sicuro di come definirlo. Ho alcune idee sbagliate che coinvolgono l'uso di miniserie LLM e la pianificazione dei budget dei token.
Questo spiega anche l'incredibile somiglianza tra l'inglese indiano di bassa qualità e gli output dei LLM, tra l'altro.
20,83K