現代のLLMはどれほど効果的に未来を予測できるのでしょうか?彼らは約300のカルシ予測市場でテストを行いました。クロード作品4.5が最も優れた演奏を披露しました。 そのBrier Score(予測確率の平均二乗誤差の指標)は~0.23で、人間のスーパープレッサー(0.15〜0.2)からはまだ遅れていますが、近づいています。
2025年10月から11月まで使われていました。Gemini 3 Proは比較されませんでしたが、GPT 5.2 XHighは期待外れでした。 出典:
(ForecastBenchもこれを実現しようとしていますが、古く新しいモデルがありません)
255