Używam kodu claude (opus 4.5) od trzech dni, na przemian, próbując przejść przez klasyczny eksperyment statystyczny Często pojawiają się pomysły na hacki, przeprowadza symulacje z subtelnymi błędami lub wybiera dziwne degeneracyjne hiperparametry, aby nagradzać hacki Również, gdy przeprowadza eksperyment, ma naprawdę słaby detektor bzdur i przekazuje mi wyniki, które nie przechodzą testu węchu Dość zaskakujące, biorąc pod uwagę moje doświadczenia z claude w innych dziedzinach Poczyniłem postępy w poprawie systemu, ale część z tego wynika po prostu z tego, że model wydaje się być słaby w statystyce eksperymentalnej poza próbką.