一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

现代大型语言模型（LLMs）在预测未来方面表现如何？他们在大约300个Kalshi预测市场上进行了测试。Claude Opus 4.5表现最佳。其Brier Score（预测概率的均方误差度量）约为0.23，仍然低于人类超级预测者（0.15-0.2），但正在接近。

他们使用了2025年10月至11月。Gemini 3 Pro没有被比较，但GPT 5.2 XHigh让人失望。来源：

(ForecastBench 也是一个尝试，但已经过时，且没有新的模型)

257

热门

排行

收藏