Hos Box bruker vi mye tid på å teste Box AI med nye modeller på ustrukturerte data for å se hva de presterer godt på i reelle områder av kunnskapsarbeid. Som vi har sett fra referansene, tilbyr GPT-5 et meningsfullt hopp i kapasitet i forhold til GPT-4.1 innen resonnement, matematikk, logikk, koding og andre arbeidsområder. Her er noen eksempler på hvor disse forbedringene spiller inn i den virkelige verden: *GPT 5 kontekstualiserer informasjon bedre. Når du utfører datautvinning som det endelige USD-beløpet på en faktura uten valutaetiketter, men med adresse i London, svarer GPT 5 riktig og trenger en konverteringskurs fra USD til GBP. Til sammenligning så GPT 4.1 den endelige regningen og returnerte den, forutsatt valutaen (feil). * GPT-5 gir bedre multimodal analyse. For et offentlig selskaps årlige innlevering blir GPT-5 bedt om å isolere en celle i en tabell fra et bilde som viser endringer i selskapets egenkapitalkomponenter. Toppen av tabellen presiserer at alle aksjebeløp er i tusenvis, og GPT-5 sier tydelig denne konverteringen, mens GPT-4.1 ikke gjør det, og blir forvirret gitt at tabellen sier aksjer og legenden sier aksjer. * GPT-5 yter bedre med høye nivåer av prompt og datakompleksitet. Når GPT-5 gjorde datautvinning på en CV for alle jobbstartdatoer, stillingsnavn og arbeidsgivernavn, var GPT-5 i stand til å trekke ut alle data mens GPT-4.1 ser ut til å bli overveldet og ikke trakk ut de samme feltene gitt størrelsen på ledeteksten og kompleksiteten til dokumentet. * GPT-5 er mye tydeligere og mer eksplisitt i svarene sine. I en outsourcingavtale med 6 forskjellige tjenester som eksplisitt er diskutert, vil GPT-5 returnere de første 5 og spørre om det var med vilje at den sjette ikke ble spurt om. Til sammenligning returnerte GPT-4.1 ganske enkelt de første 5 uten ytterligere forbehold, noe som kan føre til nedstrøms forvirring for brukeren. * GPT-5 er bedre på datatolkning i komplekse felt. For et flowcytometridiagram, vanligvis brukt i immunologi, identifiserte GPT-5 korrekt en høy andel døde celler og ga plausible rotårsaker som kan føre til situasjonen, mens GPT-4.1 ga minimal begrunnelse, og trengte ytterligere bekreftelse for å ha noen gjetninger fra rådata. * GPT-5 er bedre i stand til å identifisere inkonsekvenser i kode. Da de ble bedt om å identifisere problemer i en gitt python-kodefil, mens både GPT-5 og 4.1 kan identifisere reelle feil som fører til funksjonsfeil, var det bare GPT-5 som var i stand til å utlede mer subtile problemer, som å skrive ut feil variabel når det ikke ville gi mening i konteksten til programmet. Disse forbedringene i matematikk, resonnement, logikk og kvaliteten på svarene i lengre kontekstvinduer er utrolig nyttige for sluttbrukere i det daglige arbeidet, men de vil dukke opp enda mer med lengre kjørende AI-agenter, spesielt når det ikke er noe menneske i løkken for å verifisere informasjonen på hvert trinn. Det er fantastisk å se at disse forbedringene fortsetter å komme i den siste avlingen av AI-modeller, da dette vil føre til AI-agenter som kan brukes i trinnvis mer oppdragskritiske arbeidsområder.
72,4K