热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
现代大型语言模型(LLMs)在预测未来方面表现如何?他们在大约300个Kalshi预测市场上进行了测试。Claude Opus 4.5表现最佳。
其Brier Score(预测概率的均方误差度量)约为0.23,仍然低于人类超级预测者(0.15-0.2),但正在接近。

他们使用了2025年10月至11月。Gemini 3 Pro没有被比较,但GPT 5.2 XHigh让人失望。
来源:
(ForecastBench 也是一个尝试,但已经过时,且没有新的模型)
257
热门
排行
收藏
