Har använt Claude Code (opus 4.5) i tre dagar av och till för att försöka arbeta mig igenom ett klassiskt statistikexperiment Den kommer ofta på hackiga idéer, kör simuleringar med subtila buggar eller väljer konstiga degenererade hyperparametrar för att belöna hack När den kör ett experiment har den också en riktigt dålig bullshit-detektor och vidarebefordrar resultat som inte klarar lukttestet Ganska överraskande med tanke på mina erfarenheter med Claude inom andra områden Jag har gjort framsteg med att förbättra selen men en del av detta beror bara på att modellen verkar vara dålig på statistik utanför urvalet av experimentella tester