opus 4.5 y el agente gpt-5 logran un 72.6% de éxito, aproximadamente a nivel humano en el benchmark OSWorld que evalúa si la IA puede completar tareas informáticas reales en varios sistemas operativos y aplicaciones cotidianas esto se siente como un verdadero hito. creo que estamos cerca del punto en el que los agentes que utilizan computadoras pueden manejar la mayor parte del trabajo de oficina en el escritorio