Tenho usado o código claude (opus 4.5) há três dias, intermitentemente, tentando trabalhar em um experimento de estatística clássica Ele frequentemente apresenta ideias improvisadas, executa simulações com erros sutis ou seleciona hiperparâmetros degenerados estranhos para recompensar a improvisação Além disso, quando executa um experimento, tem um detector de besteiras realmente ruim e me relatará resultados que não passam no teste de realidade É bastante surpreendente, dado as minhas experiências com claude em outros domínios Fiz progresso em melhorar o sistema, mas parte disso é apenas que o modelo parece ser ruim em estatísticas experimentais fora da amostra