一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX | OKX Wallet

熱門話題

現代的 LLM 在預測未來方面表現如何？他們在約 300 個 Kalshi 預測市場上進行了測試。Claude Opus 4.5 的表現最佳。其 Brier Score（預測概率的均方誤差測量）約為 0.23，仍然低於人類超級預測者（0.15-0.2），但正在接近。

他們使用了2025年10月至11月。Gemini 3 Pro沒有被比較，但GPT 5.2 XHigh讓人失望。來源：

(ForecastBench 也是這樣的一個嘗試，但已經過時，並且沒有新的模型)

281

熱門

排行

收藏