Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O METR não é 100% "seguro", mas continua a ser um dos benchmarks mais valiosos porque é gerido por uma equipa competente e bem equipada que inclui muitas tarefas diversas que não estão disponíveis publicamente para treinar.
Outros benchmarks podem ser "manipulados" por AIs que conhecem as respostas com antecedência (resolvido por conjuntos de retenção privados) ou fazendo RL nas tarefas (resolvido tendo uma diversidade de tarefas). ...Os benchmarks também podem acabar por ser prejudicados de algumas maneiras (por exemplo, o SWE-Bench original antes do "SWE-Bench Verified" tinha alguns problemas acidentalmente insolúveis).
Acho que diferentes benchmarks se encaixam em níveis. O METR parece uma avaliação de padrão ouro de Nível 1. O ARC-AGI e o FrontierMath também não são tão maus, provavelmente como Nível 2. O SWE-Bench parece um pouco menos importante de se olhar quando já se tem o METR. Eu quero desesperadamente mais benchmarks de topo fora da matemática e engenharia. Estou animado com o ARC-AGI-3 (o dos videojogos).
Top
Classificação
Favoritos
