SLOP er i bunn og grunn innhold som maksimerer forholdet mellom belønning og forvirring. Mekanistisk sett er dette belønningshacking ved å kollapse utgangsfordelingen i et basseng med noen få Pareto-optimale mønstre, og i praksis konstruere en degenerert grammatikk spesifikk for dette treningsoppsettet.
Andrej Karpathy
Andrej Karpathy22. nov., 10:11
Har noen kommet over en god definisjon av «slopp»? I en kvantitativ, målbar forstand. Hjernen min har en intuitiv «slop index» jeg kan ~pålitelig estimere, men jeg er ikke sikker på hvordan jeg skal definere den. Jeg har noen dårlige ideer som involverer bruk av LLM-miniserier og å tenke token-budsjetter.
Dette forklarer også den påfallende likheten mellom lavgrads indisk engelsk og LLM-resultater, forresten
29,93K