SWE-BENCH PRO lansat Chiar și cele mai puternice modele de codare AI se luptă atunci când testul devine mai greu. Pe SWE-BENCH Verified au obținut aproximativ 70%. Pe SWE-BENCH PRO mai dur, acesta a scăzut sub 25%. SWE-BENCH Verified a fost dezordonat și prea ușor, modelele au văzut răspunsurile în timpul antrenamentului, iar problemele nu reflectă munca reală a software-ului. PRO rezolvă acest lucru prin adăugarea de proiecte lungi la nivel de întreprindere, care sunt mai aproape de viața reală. - Pe setul public: GPT-5 rezolvă 23,3%, Claude Opus 4.1 rezolvă 22,7%. - Pe platoul de filmare comercial: Și mai greu. Claude obține 17,8%, GPT-5 14,9%. Trei lucruri pe care le-am învățat 1. Modelele mari se lovesc de un zid de gândire. GPT-5 și Claude pot scrie cod curat și pot folosi instrumente, dar adesea greșesc logica. 2. Modelele mai mici eșuează mai devreme. Acestea încalcă elementele de bază, cum ar fi sintaxa, formatarea sau utilizarea instrumentelor. 3. Fiecare model are propriile sale puncte slabe. Sonnet rămâne fără fereastra contextuală. Gemini face un amestec de greșeli de instrumente, sintaxă și raționament. Modelele se descurcă mai bine cu Python și Go. Încă se luptă foarte mult cu JavaScript și TypeScript. AI actuală este departe de a fi un inginer software de încredere. Succesul la sarcini simple este înșelător. Adevărata provocare acum nu este să scrii cod, ci să te gândești la problemă.