Telah menggunakan kode claude (opus 4.5) selama tiga hari secara berhenti-henti, mencoba mengerjakan eksperimen statistik klasik Sering muncul dengan ide-ide hack-y, menjalankan simulasi dengan bug halus, atau memilih hiperparameter merosot aneh untuk menghargai peretasan Juga ketika menjalankan percobaan, ia memiliki detektor omong kosong yang sangat buruk dan akan menyampaikan kepada saya hasil yang tidak lulus tes penciuman Cukup mengejutkan mengingat pengalaman saya dengan claude di domain lain Saya telah membuat kemajuan dalam meningkatkan harness tetapi beberapa di antaranya hanya karena model tampaknya buruk di luar sampel statistik eksperimental