METR non è 100% "sicuro", ma rimane uno dei benchmark più preziosi perché è gestito da un team competente e ben finanziato che include molte attività diverse che non sono disponibili pubblicamente per l'addestramento. Altri benchmark possono essere "manipolati" dalle IA che conoscono le risposte in anticipo (risolto da set di dati privati) o facendo RL sui compiti (risolto avendo una diversità di compiti). ...I benchmark possono anche finire per essere compromessi in alcuni modi (ad esempio, il SWE-Bench originale prima di "SWE-Bench Verified" aveva alcuni problemi accidentalmente irrisolvibili). Penso che i diversi benchmark rientrino in livelli. METR sembra una valutazione di livello 1 di standard d'oro. ARC-AGI e FrontierMath non sono così male, probabilmente come livello 2. SWE-Bench sembra un po' meno importante da considerare quando hai già METR. Desidero disperatamente più benchmark di alto livello al di fuori della matematica e dell'ingegneria. Sono entusiasta di ARC-AGI-3 (quello dei videogiochi).