¿Qué tan bien predicen los LLM modernos el futuro? Se probaron en ~300 mercados de predicción de Kalshi. Claude Opus 4.5 fue el que mejor se desempeñó. Su Brier Score (una medida del error cuadrático medio de las probabilidades de predicción) de ~0.23 todavía está por encima de los superpredictores humanos (0.15-0.2) pero se está acercando.
Usaron octubre-noviembre de 2025. Gemini 3 Pro no fue comparado, pero GPT 5.2 XHigh decepcionó. Fuente:
(ForecastBench también es un intento de hacer esto, pero está desactualizado y no tiene los nuevos modelos)
205