熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我已經間歇性地使用 claude code (opus 4.5) 三天,試圖進行一個經典統計實驗。
它經常提出一些駭客式的想法,運行帶有微妙錯誤的模擬,或者選擇奇怪的退化超參數來獎勵駭客。
而且當它運行實驗時,它的胡說八道檢測器非常糟糕,會向我傳遞一些不符合常理的結果。
考慮到我在其他領域與 claude 的經歷,這實在令人驚訝。
我在改善工具方面取得了一些進展,但這部分只是因為該模型似乎在樣本外的實驗統計上表現不佳。
熱門
排行
收藏
