热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我已经间歇性地使用claude代码(opus 4.5)三天,试图进行一个经典统计实验。
它经常提出一些hack-y的想法,运行带有细微错误的模拟,或者选择奇怪的退化超参数来奖励hack。
而且当它运行实验时,它的胡说八道检测器非常糟糕,会向我传达一些不符合常理的结果。
考虑到我在其他领域与claude的经验,这真是令人惊讶。
我在改进工具方面取得了一些进展,但有些问题只是因为模型似乎在样本外实验统计方面表现不佳。
热门
排行
收藏
