分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

METRは100%「安全」ではありませんが、有能で十分なリソースを持つチームが運営しており、多くの多様なタスクを含み、一般に訓練できないため、最も価値のあるベンチマークの一つとして残っています。他のベンチマークは、AIが事前に答えを知っていること(プライベートホールドアウト集合で解く)や、タスクに対して強化学習(多様なタスクで解く)によって"操作"されることがあります。...ベンチマークもまた、いくつかの点で混乱することもあります(例えば、「SWE-Bench Verified」以前の元のSWE-Benchには、偶然解決不能な問題が発生していました)。ベンチマークごとに階層が当てはまると思います。METRはTier 1のゴールドスタンダード評価のように感じます。ARC-AGIやFrontierMathもそれほど悪くなく、おそらくTier 2くらいです。すでにMETRを持っているので、SWE-Benchはあまり重要視されない気がします。数学や工学以外のトップベンチマークをもっと強く求めています。私はARC-AGI-3(ビデオゲーム版)にワクワクしています。

トップ

ランキング

お気に入り