He estado usando claude code (opus 4.5) durante tres días de forma intermitente tratando de trabajar en un experimento de estadísticas clásicas A menudo presenta ideas poco convencionales, ejecuta simulaciones con errores sutiles o selecciona hiperparámetros extraños y degenerados para recompensar el hackeo Además, cuando ejecuta un experimento, tiene un detector de tonterías realmente malo y me transmite resultados que no pasan la prueba del olfato Es bastante sorprendente dado mis experiencias con claude en otros dominios He avanzado en la mejora del arnés, pero parte de esto es simplemente que el modelo parece ser malo en estadísticas experimentales fuera de muestra.