Quão bem os LLMs modernos preveem o futuro? Eles testaram em ~300 mercados de previsão da Kalshi. O Claude Opus 4.5 teve o melhor desempenho. Seu Brier Score (uma medida do erro quadrático médio das probabilidades de previsão) de ~0.23 ainda está abaixo dos superprevisores humanos (0.15-0.2), mas está se aproximando.
Eles usaram Outubro-Novembro de 2025. O Gemini 3 Pro não foi comparado, mas o GPT 5.2 XHigh desapontou. Fonte:
(ForecastBench também é uma tentativa de fazer isso, mas está desatualizado e não possui os novos modelos)
256