opus 4.5 和 gpt-5 代理的成功率达到了 72.6%,大致相当于人类水平 在 OSWorld 基准测试中,该测试评估 AI 是否能够在各种操作系统和日常应用程序中完成真实的计算机任务 这感觉像是一个真正的里程碑。 我相信我们正接近一个点,计算机使用代理可以处理大多数桌面办公工作