DApp Store | Web3 Hub for hendelser og spill

Populære emner

Benchmarking Long-Horizon Coding Agents AI-kodingsagenter ser imponerende ut på dagens kodebenchmarks. Men disse benchmarkene optimaliserer og tester ofte for feil ting. Denne nye forskningen introduserer SWE-EVO, en referanse for langsiktig programvareutvikling. Opptil 80 % av programvareutviklingsarbeidet handler om å vedlikeholde og videreutvikle eldre kodebaser i stedet for å bygge fra bunnen av. Nåværende referanseverdier overser dette fullstendig. SWE-EVO avslører gapet mellom å løse isolerte problemer og å utføre reell programvareutvikling. I stedet for enkeltsaksrettinger må agentene tolke utgivelsesnotater og implementere omfattende endringer som i gjennomsnitt dekker 21 filer, validert mot testsuiter som i gjennomsnitt har 874 tester per instans. GPT-5 med OpenHands oppnår 65 % på SWE-Bench Verified men bare 21 % på SWE-EVO. Forfatterne finner at nåværende agenter sliter med vedvarende, flerfil-resonnement. Benchmarken er satt sammen fra utgivelsesnotater fra syv modne åpne Python-prosjekter, inkludert scikit-learn, pydantic og dask. Hver oppgave krever implementering av endringer som normalt ville dekket flere pull requests. Gulllapper har i gjennomsnitt 610 linjer redigert fordelt på 21 filer og 51 funksjoner. Resultater på tvers av 11 modeller viser konsistente mønstre. Større modeller presterer bedre enn mindre varianter. GPT-5 løser seg 21 % mot GPT-5-mini på 10 % og GPT-5-nano på 4 %. Rangeringen speiler SWE-Bench sin ytelse, og validerer SWE-EVO som en meningsfull referanse. Feilanalyse viser tydelige mønstre etter modellens kapasitet. De sterkeste modellene feiler hovedsakelig på instruksjonsoppfølging, og feiltolker nyanserte utgivelsesnotater. Svakere modeller sliter med verktøybruk og syntaksfeil. Dette indikerer at SWE-EVO-vanskeligheten stammer fra semantisk resonnement, ikke grensesnittkompetanse. Artikkel: Lær å bygge effektive AI-agenter i akademiet mitt:

Topp

Rangering

Favoritter