opus 4.5 và gpt-5 agent đạt được 72.6% thành công, gần như ở mức độ con người trên benchmark OSWorld kiểm tra xem AI có thể hoàn thành các nhiệm vụ máy tính thực tế trên nhiều hệ điều hành và ứng dụng hàng ngày hay không điều này cảm thấy như một cột mốc thực sự. tôi tin rằng chúng ta đang tiến gần đến thời điểm mà các agent sử dụng máy tính có thể xử lý hầu hết công việc văn phòng trên desktop.