slop — это, по сути, контент, который максимизирует соотношение вознаграждения к сложности. Механически это взлом вознаграждения путем сжатия распределения выходных данных в бассейн с несколькими парето-оптимальными паттернами, по сути, создавая вырожденную грамматику, специфичную для этой обучающей настройки.
Andrej Karpathy
Andrej Karpathy22 нояб., 10:11
Кто-нибудь встречал хорошее определение "slop"? В количественном, измеримом смысле. В моей голове есть интуитивный "индекс slop", который я могу ~надежно оценить, но не знаю, как его определить. У меня есть несколько плохих идей, которые связаны с использованием мини-сериалов LLM и размышлениями о бюджетах токенов.
Это также объясняет странное сходство между низкокачественным индийским английским и выводами LLM, кстати.
33,3K