SWE-BENCH PRO julkaistu Vahvimmatkin tekoälykoodausmallit kamppailevat, kun testi vaikeutuu. SWE-BENCH Verified -sivustolla he saivat noin 70 %. Kovemmalla SWE-BENCH PROLLA se putosi alle 25 prosenttiin. SWE-BENCH Verified on ollut sotkuinen ja liian helppo, mallit ovat nähneet vastaukset koulutuksen aikana, eivätkä ongelmat heijasta todellista ohjelmistotyötä. PRO korjaa tämän lisäämällä yritystason pitkiä projekteja, jotka ovat lähempänä todellista elämää. - Julkisessa sarjassa: GPT-5 ratkaisee 23,3 %, Claude Opus 4.1 ratkaisee 22,7 %. - Kaupallisessa kuvauksessa: Vielä vaikeampaa. Claude saa 17,8 %, GPT-5 14,9 %. Kolme asiaa, jotka opimme 1. Suuret mallit törmäsivät ajatteluseinään. GPT-5 ja Claude osaavat kirjoittaa puhdasta koodia ja käyttää työkaluja, mutta he ymmärtävät usein logiikan väärin. 2. Pienemmät mallit epäonnistuvat aikaisemmin. Ne rikkovat perusasioita, kuten syntaksia, muotoilua tai työkalujen käyttöä. 3. Jokaisella mallilla on omat heikkoudet kohdat. Sonnetin kontekstiikkuna loppuu. Kaksoset tekevät sekoituksen työkalu-, syntaksi- ja päättelyvirheitä. Mallit käsittelevät Pythonia ja Goa paremmin. He kamppailevat edelleen pahasti JavaScriptin ja TypeScriptin kanssa. Nykyinen tekoäly on kaukana luotettavasta ohjelmistosuunnittelijasta. Onnistuminen yksinkertaisissa tehtävissä on harhaanjohtavaa. Todellinen haaste ei ole nyt koodin kirjoittaminen, vaan ongelman miettiminen.