Opus 4.5 та агент GPT-5 досягають 72,6% успіху, приблизно на рівні людини у бенчмарку OSWorld, який перевіряє, чи може ШІ виконувати реальні комп'ютерні завдання на різних операційних системах і повсякденних додатках Це відчувається як справжня віха. Я вважаю, що ми наближаємося до того моменту, коли агенти, що використовують комп'ютер, можуть виконувати більшість офісної роботи на робочому столі