Hoe goed voorspellen moderne LLM's de toekomst? Ze hebben getest op ~300 Kalshi-voorspellingsmarkten. Claude Opus 4.5 presteerde het beste. De Brier Score (een maat voor de gemiddelde kwadratische fout van voorspellingsprobs) van ~0,23 ligt nog steeds boven die van menselijke supervoorspellers (0,15-0,2), maar komt er wel dichtbij.
Ze gebruikten oktober-november 2025. Gemini 3 Pro werd niet vergeleken, maar GPT 5.2 XHigh viel tegen. Bron:
(ForecastBench is ook een poging om dit te doen, maar is verouderd en heeft de nieuwe modellen niet)
216