熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
現代的 LLM 在預測未來方面表現如何?他們在約 300 個 Kalshi 預測市場上進行了測試。Claude Opus 4.5 的表現最佳。
其 Brier Score(預測概率的均方誤差測量)約為 0.23,仍然低於人類超級預測者(0.15-0.2),但正在接近。

他們使用了2025年10月至11月。Gemini 3 Pro沒有被比較,但GPT 5.2 XHigh讓人失望。
來源:
(ForecastBench 也是這樣的一個嘗試,但已經過時,並且沒有新的模型)
281
熱門
排行
收藏
