DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Aaron Levie

VD @box - Släpp loss kraften i ditt innehåll med AI

På Box lägger vi mycket tid på att testa Box AI med nya modeller på ostrukturerad data för att se vad de presterar bra på inom verkliga kunskapsområden. Som vi har sett i benchmarks erbjuder GPT-5 ett meningsfullt hopp i kapacitet jämfört med GPT-4.1 när det gäller resonemang, matematik, logik, kodning och andra arbetsområden. Här är några exempel på var dessa förbättringar kommer till användning i den verkliga världen: *GPT 5 kontextualiserar information bättre. När man extraherar data, t.ex. det slutliga USD-beloppet på en faktura utan valutaetiketter men med en adress i London, svarar GPT 5 korrekt och behöver en konverteringskurs från USD till GBP. Som jämförelse såg GPT 4.1 den slutliga räkningen och returnerade den, med antagandet att valutan var (felaktigt). * GPT-5 ger bättre multimodal analys. För ett börsnoterat företags årsredovisning ombeds GPT-5 att isolera en cell i en tabell från en bild som visar förändringar i företagets aktiekomponenter. Överst i tabellen klargörs att alla aktiebelopp är i tusental, och GPT-5 anger tydligt denna omvandling, medan GPT-4.1 inte gör det, vilket gör dig förvirrad med tanke på att tabellen säger aktier och legenden säger aktier. * GPT-5 presterar bättre med höga nivåer av prompt- och datakomplexitet. När man extraherade data på ett CV för alla jobbstartdatum, jobbpositionsnamn och arbetsgivarnamn kunde GPT-5 ta fram alla data medan GPT-4.1 verkar bli överväldigad och inte extraherade samma fält med tanke på storleken på prompten och dokumentets komplexitet. * GPT-5 är mycket tydligare och tydligare i sina svar. I ett outsourcingavtal med 6 olika tjänster som uttryckligen diskuteras, när man tillfrågas om "de 5 specifika tjänsterna i kontraktet", kommer GPT-5 att returnera de första 5 och fråga om det var avsiktligt att den sjätte inte tillfrågades om. Som jämförelse returnerade GPT-4.1 helt enkelt de första 5 utan några ytterligare varningar, vilket kan leda till förvirring nedströms för användaren. * GPT-5 är bättre på att tolka data inom komplexa områden. För ett flödescytometridiagram, som vanligtvis används inom immunologi, identifierade GPT-5 korrekt en hög andel döda celler och gav troliga grundorsaker som kan leda till situationen medan GPT-4.1 gav minimalt resonemang och behövde ytterligare bekräftelse för att ha några gissningar från rådata. * GPT-5 är bättre på att identifiera inkonsekvenser i kod. När både GPT-5 och 4.1 ombads att identifiera problem i en viss python-kodfil var det bara GPT-5 som kunde identifiera verkliga fel som leder till fel, men det var bara GPT-5 som kunde dra slutsatser om mer subtila problem, som att skriva ut den felaktiga variabeln när det inte skulle vara meningsfullt i programmets sammanhang. Dessa förbättringar av matematik, resonemang, logik och kvaliteten på svaren i längre kontextfönster är otroligt användbara för slutanvändare i det dagliga arbetet, men de kommer att dyka upp ännu mer med AI-agenter som körs längre, särskilt när det inte finns någon människa i loopen för att verifiera informationen i varje steg. Det är fantastiskt att se att dessa förbättringar fortsätter att komma i den senaste skörden av AI-modeller eftersom detta kommer att leda till att AI-agenter kan användas i stegvis mer verksamhetskritiska arbetsområden.

Det är tydligt att vi just nu befinner oss på en bana där AI-modeller fortsätter att förbättras i kapacitet inom matematik, resonemang, logik, verktygsanrop och olika domänspecifika uppgifter som kommer att bli bättre i takt med att mer träningsdata fortsätter att genereras. Även om det kommer att debatteras om hur mycket dessa framsteg kommer att visa sig som stora förändringar i de dagliga användningsfall som en konsument har, kommer de att ha en stor inverkan på många kategorier av kunskapsarbete. De kommer stegvis att låsa upp nya användningsfall inom hälso- och sjukvård, juridik, finansiella tjänster, biovetenskap etc., där modeller på ett tillförlitligt sätt kan utföra allt mer kritiska uppgifter. I en podcast med Alex Kantrowitz nyligen hade Dario Amodei ett bra sätt att rama in detta, vilket är att om man förbättrade förmågan hos en AI-modell att gå från att ha en grundexamen i biokemi till att ha en examen i biokemi, skulle en liten andel av konsumentpopulationen märka effekten, men företagsanvändningsfallen för ett företag som Pfizer skulle öka på ett meningsfullt sätt som ett resultat av detta. Vi bör börja förutse att detta är den era som vi befinner oss i med AI. Så, hur börjar detta visa sig i den verkliga världen? Det kommer att visas genom AI-agenter som går efter tillämpade användningsfall. AI-agenter för kodning, juridiskt arbete, medicinska skrivare, dataextraktion, behandling av försäkringsanspråk, penntestning och så vidare. Möjligheten just nu är att bygga AI-agenter för vertikaler och domäner med en djup förståelse för det utrymmet. Det är här som effekten av kontextteknik, en djup förståelse för arbetsflödena, anslutningar till företagsdata och specialiserade användargränssnitt (som gör det möjligt för användare att distribuera, hantera och orkestrera dessa agenter) kommer att börja spela stor roll. Det kommer också att innebära att man bygger upp en distribution som är anpassad till just den vertikalen eller domänen. Det kommer förmodligen att innebära någon form av framåtriktad teknik för att inte bara hjälpa kunderna att implementera agenterna, utan också snabbt lära sig vilka arbetsflöden agenterna är optimerade för och föra tillbaka det till kärnplattformen. I slutändan kommer dessa marknader att vinnas av de aktörer som bäst kan överbrygga dagens företagsprocesser (som ofta är röriga och inte är utformade för automatisering) till en värld där agenter är integrerade i dessa arbetsflöden. Detta är den AI-era vi nu befinner oss i.

Kärna kontra kontext är ett viktigt begrepp att tänka igenom när man tar reda på vad människor kommer att återuppbygga själva med AI. Företag tar in "kärnfunktioner" som skiljer dem åt. Detta är vad deras kärnprodukt eller tjänst är, hur de säljer till kunder, saker som driver deras kultur och så vidare. Omvänt lägger de ut "sammanhanget" på entreprenad som är insatser för att få rätt, men erbjuder bara en nackdel i att ha fel. En enkel tumregel att tänka igenom är om en kund någonsin märker om företaget gjorde det direkt själva eller inte. Företagsprogramvara är nästan alltid "kontext". Det här är områden som deras CRM- eller HR-system, infrastruktur, datahantering och så vidare. Dessa är nödvändiga för att driva ett företag i stor skala, men sällan är du fördelaktig när du försöker lansera ditt eget. Det finns bara några få undantag, och det beror nästan alltid på att du behöver en lösning för att tjäna din "kärna" som ingen leverantör erbjuder (som om du behövde anpassad programvara för en vertikalt integrerad försörjningskedja). Oavsett hur ett företag startar, separerar de så småningom nästan alltid arbete och värde mellan kärna och kontext över tid. Det är det enda sättet för dem att förbli konkurrenskraftiga och så småningom allokera resurser till de optimala områdena. Så även om ett företag *kunde* skriva om sin företagsprogramvara med AI, skulle de i princip helt enkelt inte göra det. Versionsuppdateringarna, säkerheten, regulatoriska funktioner, buggar, SLA:er, de professionella tjänster som krävs, etc. skulle bara allt göra det ROI negativt. Som bucco påpekar är den verkliga risken bättre versioner av dessa verktyg som är AI-first. Det är vad man ska se upp för när det gäller störningar.

Massor av samtal om hur framtiden för mjukvara ser ut i företaget. Så här tror jag att det utspelar sig. För deterministiska arbetsflöden där kostnaden för att göra något fel är hög kommer företag att ha en tendens att välja kärnplattformar för sina vanligaste, viktigaste och repeterbara funktioner i organisationen. Tänk lön, ERP, CRM, ITSM, kundsupport, ECM/dokumenthantering och så vidare. Det här är områden där du vill att något ska göras på samma sätt, varje gång. Var och en av dessa plattformar måste vara AI-first till sin design, vilket innebär att de kommer att ha användargränssnitt som är anpassade för att interagera med arbetsflöden och data via AI, och vara helt utformade för att AI-agenter ska kunna fungera på plattformarna. Med tiden kan vi förvänta oss att användningen av dessa system kommer att vara mycket mer inriktad på AI-agenter än till och med på människor. Platsmodellen finns kvar för användarna, men förbrukningen blir modellen för agenter. Vissa etablerade företag kommer att klara sig till slutstadiet, men andra kommer inte att anpassa sig tillräckligt snabbt och dö ut. Det kommer då att finnas en ny skörd av företag som i praktiken endast är agenter och som är specialbyggda för att automatisera specifika typer av arbete (och särskilt för icke-deterministiskt arbete). Deras affärsmodeller kommer att luta ännu mer konsumtion. Tänk Claude Code eller Devins (troligen med något UI-lager för att hantera agenterna) men för olika jobbfunktioner. Vi kommer sannolikt att se hundratals eller tusentals av dessa dyka upp med tiden. Penntestning, kodning, buggsökning, efterlevnadsgranskningar, finansanalytiker och så vidare. Detta är ett enormt område där nystartade företag kommer att klara sig ganska bra eftersom det tenderar att inte finnas några etablerade mjukvaruföretag i dessa kategorier. Vi kommer att interagera med dessa olika agenter från en blandning av de programvaruplattformar som de är knutna till (som Box AI eller Agentforce), via API:er i andra system och horisontella arbetsflödessystem som syr ihop agenter över plattformar (som ServiceNow, IBM Watsonx, Google Agentspace och så vidare). Och naturligtvis kommer användare ofta att konsumera dessa agenter via horisontella chattupplevelser (som ChatGPT, Claude, Perplexity, Grok, Copilot, etc.) via MCP eller andra typer av direktanslutningar. Användare kommer vanligtvis att arbeta i dessa horisontella chattsystem och dra in agenter, data och arbetsflöden från de olika Agentic-plattformarna efter behov. När det är relevant kommer de att hoppa in i kärnplattformarna för att slutföra arbetsflöden, granska information etc. Det kommer också att finnas en lång svans av upplevelser där användare kan skapa mikroappar i farten när de behöver snabba applikationer eller automatiserade användningsfall, när det inte finns någon uppenbar programvara att göra det med. Detta kan hända direkt i de horisontella chattsystemen, ett verktyg som Replit, Lovable eller i verktyg för automatisering av arbetsflöden, etc. Jag skulle förvänta mig att detta är mer för de avancerade användarna där de behöver lim mellan flera system eller där det ännu inte finns någon programvara. Summan av det är att mjukvara bara blir viktigare med tiden, även om de modaliteter där vi interagerar förändras och expanderar. På samma sätt som vi med lätthet hoppar mellan våra telefoner och stationära datorer, även om de lätt kan konvergera, kommer framtiden att erbjuda en blandning av sätt att interagera med programvara.

Topp

Rankning

Favoriter

Trendande på kedjan

Trendande på X

Senaste toppfinansieringarna

Mest anmärkningsvärda