我已經間歇性地使用 claude code (opus 4.5) 三天,試圖進行一個經典統計實驗。 它經常提出一些駭客式的想法,運行帶有微妙錯誤的模擬,或者選擇奇怪的退化超參數來獎勵駭客。 而且當它運行實驗時,它的胡說八道檢測器非常糟糕,會向我傳遞一些不符合常理的結果。 考慮到我在其他領域與 claude 的經歷,這實在令人驚訝。 我在改善工具方面取得了一些進展,但這部分只是因為該模型似乎在樣本外的實驗統計上表現不佳。