W Box poświęcamy dużo czasu na testowanie Box AI z nowymi modelami na danych nieustrukturyzowanych, aby zobaczyć, jak dobrze radzą sobie w rzeczywistych obszarach pracy wiedzy. Jak pokazują benchmarki, GPT-5 oferuje znaczący skok w zdolnościach w porównaniu do GPT-4.1 w zakresie rozumowania, matematyki, logiki, kodowania i innych obszarów pracy. Oto kilka przykładów, gdzie te ulepszenia mają zastosowanie w rzeczywistym świecie: *GPT 5 lepiej kontekstualizuje informacje. Przy wydobywaniu danych, takich jak końcowa kwota w USD na fakturze bez etykiet walutowych, ale z adresem w Londynie, GPT 5 poprawnie odpowiada, że potrzebuje kursu wymiany z USD na GBP. W porównaniu, GPT 4.1 zobaczył końcowy rachunek i zwrócił go, zakładając walutę (błędnie). * GPT-5 dostarcza lepszą analizę multimodalną. W przypadku rocznego sprawozdania publicznej firmy, GPT-5 jest proszony o wyizolowanie komórki w tabeli z obrazu pokazującego zmiany w składnikach kapitału firmy. Góra tabeli wyjaśnia, że wszystkie kwoty akcji są w tysiącach, a GPT-5 wyraźnie podaje tę konwersję, podczas gdy GPT-4.1 tego nie robi, myląc się, ponieważ tabela mówi o akcjach, a legenda o udziałach. * GPT-5 lepiej radzi sobie z wysokim poziomem złożoności danych i podpowiedzi. Przy wydobywaniu danych z CV dotyczących wszystkich dat rozpoczęcia pracy, nazw stanowisk i nazw pracodawców, GPT-5 był w stanie wyciągnąć każdy element danych, podczas gdy GPT-4.1 wydaje się być przytłoczony i nie wyciągnął tych samych pól z uwagi na rozmiar podpowiedzi i złożoność dokumentu. * GPT-5 jest znacznie bardziej klarowny i jednoznaczny w swoich odpowiedziach. W umowie outsourcingowej z 6 różnymi usługami omówionymi w sposób wyraźny, gdy zapytano o „5 konkretnych usług w umowie”, GPT-5 zwróci pierwsze 5 i zapyta, czy to było zamierzone, że szósta nie została zapytana. W porównaniu, GPT-4.1 po prostu zwrócił pierwsze 5 bez żadnych dalszych zastrzeżeń, co może prowadzić do późniejszych nieporozumień dla użytkownika. * GPT-5 lepiej interpretuje dane w złożonych dziedzinach. W przypadku wykresu cytometrii przepływowej, zazwyczaj używanego w immunologii, GPT-5 poprawnie zidentyfikował wysoki odsetek martwych komórek i podał prawdopodobne przyczyny, które mogłyby prowadzić do tej sytuacji, podczas gdy GPT-4.1 podał minimalne uzasadnienie, potrzebując dalszej weryfikacji, aby mieć jakiekolwiek przypuszczenia na podstawie surowych danych. * GPT-5 lepiej identyfikuje niespójności w kodzie. Gdy poproszono o zidentyfikowanie problemów w danym pliku kodu python, podczas gdy zarówno GPT-5, jak i 4.1 mogą zidentyfikować rzeczywiste błędy prowadzące do awarii, tylko GPT-5 był w stanie wywnioskować bardziej subtelne problemy, takie jak drukowanie niewłaściwej zmiennej, gdy to nie miałoby sensu w kontekście programu. Te ulepszenia w matematyce, rozumowaniu, logice i jakości odpowiedzi w dłuższych oknach kontekstowych są niezwykle pomocne dla użytkowników końcowych w codziennej pracy, ale będą się jeszcze bardziej ujawniać w przypadku dłużej działających agentów AI, zwłaszcza gdy nie ma człowieka w pętli, aby weryfikować informacje na każdym kroku. Cudownie jest widzieć, jak te ulepszenia wciąż się pojawiają w najnowszej grupie modeli AI, ponieważ doprowadzi to do agentów AI, którzy będą mogli być używani w coraz bardziej krytycznych obszarach pracy.
77,97K