opus 4.5 e l'agente gpt-5 raggiungono il 72,6% di successo, circa a livello umano sul benchmark OSWorld che testa se l'IA può completare compiti informatici reali su vari sistemi operativi e app quotidiane questo sembra un vero traguardo. credo che stiamo avvicinandoci al punto in cui gli agenti che utilizzano computer possono gestire la maggior parte del lavoro d'ufficio su desktop.