O Opus 4.5 e o GPT-5 Agent alcançam 72,6% de sucesso, aproximadamente em nível humano no benchmark OSWorld que testa se a IA consegue realizar tarefas reais de computador em vários sistemas operacionais e aplicativos do dia a dia Isso parece um verdadeiro marco. Acredito que estamos chegando ao ponto em que agentes que usam computador podem cuidar da maior parte do trabalho de escritório desktop