Ich habe in den letzten drei Tagen sporadisch den Claude-Code (Opus 4.5) verwendet, um ein klassisches Statistikexperiment durchzuführen. Es kommen oft hacky Ideen auf, es führt Simulationen mit subtilen Fehlern durch oder wählt seltsame degenerierte Hyperparameter aus, um Hacks zu belohnen. Außerdem hat es, wenn es ein Experiment durchführt, einen wirklich schlechten Bullshit-Detektor und wird mir Ergebnisse übermitteln, die nicht den Geruchstest bestehen. Echt überraschend, angesichts meiner Erfahrungen mit Claude in anderen Bereichen. Ich habe Fortschritte bei der Verbesserung des Rahmens gemacht, aber ein Teil davon ist einfach, dass das Modell anscheinend schlecht in der experimentellen Statistik außerhalb der Stichprobe ist.