opus 4.5 和 gpt-5 代理達到 72.6% 的成功率,幾乎達到人類水平 在 OSWorld 基準測試中,該測試檢驗 AI 是否能在各種操作系統和日常應用程序中完成真實的計算機任務 這感覺像是一個真正的里程碑。 我相信我們正接近一個點,計算機使用代理可以處理大多數桌面辦公工作