現代的 LLM 在預測未來方面表現如何?他們在約 300 個 Kalshi 預測市場上進行了測試。Claude Opus 4.5 的表現最佳。 其 Brier Score(預測概率的均方誤差測量)約為 0.23,仍然低於人類超級預測者(0.15-0.2),但正在接近。
他們使用了2025年10月至11月。Gemini 3 Pro沒有被比較,但GPT 5.2 XHigh讓人失望。 來源:
(ForecastBench 也是這樣的一個嘗試,但已經過時,並且沒有新的模型)
281