METR не является на 100% "безопасным", но остается одним из самых ценных эталонов, потому что им управляет компетентная команда с хорошими ресурсами, которая включает в себя множество разнообразных задач, недоступных для публичного обучения. Другие эталоны могут быть "обмануты" ИИ, зная ответы заранее (решается с помощью частных наборов данных) или выполняя RL по задачам (решается наличием разнообразия задач). ...Эталоны также могут оказаться испорченными в некоторых аспектах (например, оригинальный SWE-Bench до "SWE-Bench Verified" имел некоторые случайно неразрешимые проблемы). Я думаю, что разные эталоны относятся к разным уровням. METR кажется золотым стандартом оценки первого уровня. ARC-AGI и FrontierMath тоже не так плохи, вероятно, на уровне 2. SWE-Bench кажется менее важным для анализа, когда у вас уже есть METR. Я отчаянно хочу больше лучших эталонов вне математики и инженерии. Я в восторге от ARC-AGI-3 (по видеоиграм).