opus 4.5 i agent gpt-5 osiągają 72,6% sukcesu, co jest mniej więcej na poziomie ludzkim w teście OSWorld, który sprawdza, czy AI potrafi wykonać rzeczywiste zadania komputerowe w różnych systemach operacyjnych i codziennych aplikacjach to wydaje się być prawdziwym kamieniem milowym. wierzę, że zbliżamy się do momentu, w którym agenci korzystający z komputerów będą mogli obsługiwać większość pracy biurowej na komputerze.