slop 基本上是最大化獎勵與困惑度比率的內容。在機械上,這是通過將輸出分佈壓縮到幾個帕累托最優模式的盆地來進行獎勵駭客,實質上是為這個訓練設置構建一種退化的語法。
Andrej Karpathy
Andrej Karpathy11月22日 10:11
有沒有人遇到過對「slop」的好定義?在一個定量、可測量的意義上。我的大腦有一個直觀的「slop 指數」,我可以 ~可靠地估算,但我不確定如何定義它。我有一些糟糕的想法,涉及使用 LLM 小型系列和思考代幣預算。
這也解釋了低級印度英語和大型語言模型(LLM)輸出的奇怪相似性,順便提一下。
33.29K