Tenho usado Claude Code (opus 4.5) há três dias, de forma intermitente, tentando trabalhar em um experimento de estatística clássica Frequentemente cria ideias hack-hit, roda simulações com bugs sutis ou seleciona hiperparâmetros degenerados estranhos para recompensar hacks Além disso, quando ele roda um experimento, tem um detector de besteira muito ruim e me repassa resultados que não passam no teste de cheiro É bem surpreendente, considerando minhas experiências com Claude em outras áreas Fiz progressos na melhoria do arnês, mas parte disso é que o modelo parece ser ruim em estatísticas experimentais fora da amostra