هذا المقياس لقدرات الذكاء الاصطناعي العام لم يكن موجودا حتى قبل عام 2020، ومع ذلك فإن السلسلة التقنية التي يقيسها قوية للغاية، ولا تظهر أي علامة على انحناء S قبل أن تتجاوز مستوى الإنسان. هذا هو سيناريو قطار WaitButWhy وهو يمر بسرعة بجانب محطة البشر.
METR
METR‏20 ديسمبر، 10:25
نقدر أنه في مهامنا، فإن أفق زمني ل Claude Opus 4.5 حوالي 50٪ هو حوالي 4 ساعات و49 دقيقة (فترة ثقة 95٪ من ساعة 49 دقيقة إلى 20 ساعة و25 دقيقة). بينما لا نزال نعمل على تقييمات لنماذج حديثة أخرى، هذا هو أعلى أفق زمني منشور لنا حتى الآن.
الغضب الأخير حول احتمال تأجيل الذكاء الاصطناعي 2027 كان يفقد الفكرة تماما
‏‎1.03‏K