Quão bem os LLMs modernos preveem o futuro? Eles testavam em ~300 mercados de previsão Kalshi. Claude Opus 4.5 foi o que teve melhor desempenho. Seu Score de Brier (uma medida do erro quadrático médio das probabilidades de previsão) de ~0,23 ainda está fora dos superprevisores humanos (0,15-0,2), mas está se aproximando.
Eles usaram de outubro a novembro de 2025. Gemini 3 Pro não foi comparado, mas o GPT 5.2 XHigh decepcionou. Fonte:
(O ForecastBench também é uma tentativa de fazer isso, mas é desgastado e não tem os novos modelos)
215