トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
METRは100%「安全」ではありませんが、有能で十分なリソースを持つチームが運営しており、多くの多様なタスクを含み、一般に訓練できないため、最も価値のあるベンチマークの一つとして残っています。
他のベンチマークは、AIが事前に答えを知っていること(プライベートホールドアウト集合で解く)や、タスクに対して強化学習(多様なタスクで解く)によって"操作"されることがあります。...ベンチマークもまた、いくつかの点で混乱することもあります(例えば、「SWE-Bench Verified」以前の元のSWE-Benchには、偶然解決不能な問題が発生していました)。
ベンチマークごとに階層が当てはまると思います。METRはTier 1のゴールドスタンダード評価のように感じます。ARC-AGIやFrontierMathもそれほど悪くなく、おそらくTier 2くらいです。すでにMETRを持っているので、SWE-Benchはあまり重要視されない気がします。数学や工学以外のトップベンチマークをもっと強く求めています。私はARC-AGI-3(ビデオゲーム版)にワクワクしています。
トップ
ランキング
お気に入り
