Cette échelle de capacité AGI n'existait même pas avant 2020, pourtant la cascade technologique qu'elle mesure est incroyablement robuste et ne montre aucun signe de courbe en S avant de dépasser le niveau humain. C'est le scénario du train WaitButWhy qui file à toute allure devant la station humaine.
METR
METR20 déc., 10:25
Nous estimons que, pour nos tâches, Claude Opus 4.5 a un horizon temporel de 50 % d'environ 4 heures 49 minutes (intervalle de confiance à 95 % de 1 heure 49 minutes à 20 heures 25 minutes). Bien que nous travaillions encore sur les évaluations d'autres modèles récents, c'est notre horizon temporel publié le plus élevé à ce jour.
L'indignation récente concernant le fait que l'IA 2027 pourrait être à quelques années d'intervalle manquait complètement le point.
1,03K