现代大型语言模型(LLMs)在预测未来方面表现如何?他们在大约300个Kalshi预测市场上进行了测试。Claude Opus 4.5表现最佳。 其Brier Score(预测概率的均方误差度量)约为0.23,仍然低于人类超级预测者(0.15-0.2),但正在接近。
他们使用了2025年10月至11月。Gemini 3 Pro没有被比较,但GPT 5.2 XHigh让人失望。 来源:
(ForecastBench 也是一个尝试,但已经过时,且没有新的模型)
257