一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我已经间歇性地使用claude代码（opus 4.5）三天，试图进行一个经典统计实验。它经常提出一些hack-y的想法，运行带有细微错误的模拟，或者选择奇怪的退化超参数来奖励hack。而且当它运行实验时，它的胡说八道检测器非常糟糕，会向我传达一些不符合常理的结果。考虑到我在其他领域与claude的经验，这真是令人惊讶。我在改进工具方面取得了一些进展，但有些问题只是因为模型似乎在样本外实验统计方面表现不佳。