Kuinka hyvin nykyaikaiset LLM:t ennustavat tulevaisuutta? He testasivat ~300 Kalshi-ennustemarkkinalla. Claude Opus 4.5 suoriutui parhaiten. Sen Brier-piste (ennustustodennäköisten keskimääräisen neliövirheen mittari) ~0,23 on edelleen ihmisten superennustajien (0,15–0,2) ulkopuolella, mutta lähestyy sitä.
He käyttivät loka–marraskuuta 2025. Gemini 3 Prota ei verrattu, mutta GPT 5.2 XHigh pettyi. Lähde:
(ForecastBench yrittää myös tehdä tämän, mutta on vanhentunut eikä siinä ole uusia malleja)
254