Slop — це, по суті, контент, який максимізує співвідношення винагороди до здивування. Механічно це є хакування винагороди шляхом згортання розподілу вихідних даних у басейн із кількома парето-оптимальними патернами, фактично побудовуючи вироджену граматику, специфічну для цієї навчальної системи.
Andrej Karpathy
Andrej Karpathy22 лист., 10:11
Чи хтось стикався з гарним визначенням слова «slop»? У кількісному, вимірюваному сенсі. У моєму мозку є інтуїтивний «індекс помилок», який я можу ~надійно оцінити, але не впевнений, як його визначити. У мене є кілька поганих ідей, пов'язаних із використанням LLM-мінісеріалів і розмірковуванням токенних бюджетів.
Це також пояснює дивовижну схожість низькоякісної індійської англійської та LLM-виходів, до речі.
29,94K