slop 基本上是最大化奖励与困惑度比率的内容。从机制上讲,这是一种通过将输出分布压缩到具有少数帕累托最优模式的盆地来进行的奖励黑客,实质上是在为这个训练设置构建一种退化的语法。
Andrej Karpathy
Andrej Karpathy11月22日 10:11
有没有人遇到过“slop”的好定义?在一个定量、可测量的意义上。我的大脑有一个直观的“slop指数”,我可以~可靠地估计,但我不确定如何定义它。我有一些糟糕的想法,涉及使用LLM迷你剧和思考代币预算。
这也解释了低级印度英语和大型语言模型输出之间的惊人相似性,顺便提一下。
29.93K