我已经间歇性地使用claude代码(opus 4.5)三天,试图进行一个经典统计实验。 它经常提出一些hack-y的想法,运行带有细微错误的模拟,或者选择奇怪的退化超参数来奖励hack。 而且当它运行实验时,它的胡说八道检测器非常糟糕,会向我传达一些不符合常理的结果。 考虑到我在其他领域与claude的经验,这真是令人惊讶。 我在改进工具方面取得了一些进展,但有些问题只是因为模型似乎在样本外实验统计方面表现不佳。