Verdent sai 76,1 % SWE-penkki Verifiedistä ja päätyi huipputasolle Claude Sonnet 4.5:n ja muiden johtavien mallien rinnalle. Verdent on moniagentti-AI-koodausjärjestelmä, joka on rakennettu todelliseen suunnittelutyöhön. Se orkestroi erikoistuneita aliagentteja suunnittele-koodi-vahvistustyönkulun kautta, jossa on todentaminen ensin -arkkitehtuuri. Lisätietoja alla 👇
SWE-bench Verified käyttää todellisia GitHub-ongelmia tuotantosäilöistä - monimutkaisia, monitiedostoisia ongelmia, jotka erottavat todelliset koodausagentit ylistetystä automaattisesta täydennyksestä. 76,1 % pass@1 tarkoittaa 3/4 todellisen suunnittelutehtävän ratkaisemista itsenäisesti.
Miksi Verdent loistaa SWE-penkillä Vahvistettu: Usean mallin yhteensopivuus: Mallista riippumaton ajoaika sovittaa oikean mallin kuhunkin vaiheeseen (Claude analyysiä varten, GPT-5 tarkistettavaksi). Tasainen suorituskyky täydellä läpinäkyvyydellä ja konfiguroitavuudella. Verifiointi Autopilotilla: Sisäänrakennettu tyypin tarkistus, staattinen analyysi, testin suorittaminen automaattisilla uudelleenyritys-/virheenkorjausjaksoilla. Koodin tarkistuksen aliagentit käsittelevät suuria eroja. Ylittää "testien läpäisemisen" "kehittäjän aikomuksen täyttämiseen". Aina tehtävässä: Selkeä tehtävälista seuraa edistymistä ja estää kontekstin ajautumisen pitkissä istunnoissa. Peilaa ihmiskehittäjän työnkulkua vaihe vaiheelta, mikä parantaa onnistumisprosenttia ja tokenien tehokkuutta.
Suunnittele-koodi-tarkista-työnkulku: 1. Suunnittelutila: Jäsennellyt, muokattavat toteutussuunnitelmat 2. Aliagentin orkestrointi: Erikoistuneet agentit (etsijä, tarkistaja, todentaja) Käyttäjän määrittämä hallinta agenttisääntöjen avulla (agentit md), jolla on personoitava käyttäytyminen: varovaisuustasot, käyttöoikeudet, yhteistyötyylit 3. DiffLens: Selkeä koodin toimitus järjestetyillä eroavaisuuksilla + yhteenvedoilla 4. Pysyy aina tehtävässään selkeän edistymisen seurannan avulla
Tuotantovalmiit ominaisuudet, jotka ylittävät vertailuarvot: - Pitkäikäinen terminaali (tmux-tyylinen pysyvyys) - Vinoviivakomennot (/init, /compact, mukautettu automaatio) - MCP (Model Context Protocol) -tuki - VS Code -laajennus + erillinen rinnakkaistehtäväsovellus (Verdent Deck)
Ajattelulla on väliä: Verdentin kokeet osoittavat, että useammat päättelymerkit johtavat parempaan suorituskykyyn. He havaitsivat ~0,7 % parannusta, kun malleille annettiin enemmän "ajatteluaikaa" - mikä todistaa, että hätäinen koodi ei ole hyvää koodia edes tekoälylle.
Toimittajan varianssi: Kaikki mallin tarjoajat eivät ole samanarvoisia. Heidän testauksensa paljastivat, että joillakin palveluntarjoajilla (kuten AWS Bedrockilla) on suurempi suorituskykyvarianssi - jopa 1,2 %:n ero identtisissä olosuhteissa. Valitse infrastruktuurisi viisaasti.
Yllättävä löytö: Kun he riisuivat Verdentin pelkkiin perustyökaluihin (bash, read, write, edit), SWE-bench Verified -suorituskyky tuskin muuttui. Tämä paljastaa mahdollisen vertailuharhan - kehittyneillä työkaluilla on merkitystä todellisessa suunnittelussa, mutta nykyiset vertailuarvot eivät välttämättä kuvaa tätä monimutkaisuutta.
Entisten TikTok- ja Baidu-insinöörien rakentama. Verdent yhdistää alan johtavat mallit, kuten GPT-5:n ja Sonnet 4.5:n, kehittäjäkeskeiseksi järjestelmäksi. Tältä agenttinen koodaus näyttää, kun se on rakennettu todellista suunnittelutyötä varten. Voit aloittaa ilmaisen kokeilujakson täältä:
7,96K