¿Qué tan bien predicen los LLM modernos el futuro? Analizaron en ~300 mercados de predicción de Kalshi. Claude Opus 4.5 fue el que mejor rindió. Su puntuación de Brier (una medida del error cuadrático medio de las probabilidades de predicción) de ~0,23 sigue desajustándose a los superpronosticadores humanos (0,15-0,2), pero se está acercando.
Usaron de octubre a noviembre de 2025. Gemini 3 Pro no fue comparado, pero GPT 5.2 XHigh decepcionó. Fuente:
(ForecastBench también es un intento de hacer esto, pero está aburrido y no tiene los nuevos modelos)
291