Opus 4.5 și agentul GPT-5 obțin 72,6% succes, aproximativ la nivel uman pe benchmark-ul OSWorld care testează dacă AI poate îndeplini sarcini reale de calcul pe diverse sisteme de operare și aplicații de zi cu zi Aceasta pare o adevărată bornă. Cred că ne apropiem de punctul în care agenții care folosesc calculatoare pot gestiona majoritatea muncii de birou desktop