o opus 4.5 e o agente gpt-5 alcançam 72,6% de sucesso, aproximadamente ao nível humano no benchmark OSWorld que testa se a IA consegue completar tarefas reais de computador em vários sistemas operacionais e aplicativos do dia a dia isto parece um verdadeiro marco. acredito que estamos a chegar ao ponto em que agentes que utilizam computadores podem lidar com a maior parte do trabalho de escritório em desktop