Deze AGI-capaciteitsschaal bestond zelfs niet voor 2020, maar welke technologische cascade het ook meet, deze is ongelooflijk robuust en vertoont geen enkel teken van een S-curve voordat het voorbij het menselijke niveau schiet. Dit is het WaitButWhy-treintje dat met hoge snelheid voorbij het menselijke station raast.
METR
METR20 dec, 10:25
We schatten dat, voor onze taken, Claude Opus 4.5 een 50%-tijdshorizon heeft van ongeveer 4 uur en 49 minuten (95% betrouwbaarheidsinterval van 1 uur en 49 minuten tot 20 uur en 25 minuten). Terwijl we nog bezig zijn met evaluaties voor andere recente modellen, is dit onze hoogste gepubliceerde tijdshorizon tot nu toe.
De recente verontwaardiging over AI 2027 die mogelijk een paar jaar verwijderd is, miste volledig de kern van de zaak.
1,03K