METR không hoàn toàn "an toàn" nhưng vẫn là một trong những tiêu chuẩn giá trị nhất vì nó được điều hành bởi một đội ngũ có năng lực và nguồn lực tốt, bao gồm nhiều nhiệm vụ đa dạng mà không có sẵn công khai để đào tạo. Các tiêu chuẩn khác có thể bị "lừa" bởi các AI biết trước câu trả lời (được giải quyết bằng các bộ giữ lại riêng tư) hoặc thực hiện RL trên các nhiệm vụ (được giải quyết bằng cách có sự đa dạng trong các nhiệm vụ). ...Các tiêu chuẩn cũng có thể bị rối loạn theo một số cách (ví dụ, SWE-Bench ban đầu trước khi "SWE-Bench Verified" có một số vấn đề vô tình không thể giải quyết). Tôi nghĩ rằng các tiêu chuẩn khác nhau phù hợp với các cấp độ. METR cảm thấy như một tiêu chuẩn vàng đánh giá cấp 1. ARC-AGI và FrontierMath cũng không tệ lắm, có lẽ như cấp 2. SWE-Bench có vẻ ít quan trọng hơn khi bạn đã có METR. Tôi rất muốn có thêm nhiều tiêu chuẩn hàng đầu ngoài toán học và kỹ thuật. Tôi rất hào hứng về ARC-AGI-3 (tiêu chuẩn về trò chơi điện tử).