Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verdent sai 76,1 % SWE-penkki Verifiedistä ja päätyi huipputasolle Claude Sonnet 4.5:n ja muiden johtavien mallien rinnalle.
Verdent on moniagentti-AI-koodausjärjestelmä, joka on rakennettu todelliseen suunnittelutyöhön. Se orkestroi erikoistuneita aliagentteja suunnittele-koodi-vahvistustyönkulun kautta, jossa on todentaminen ensin -arkkitehtuuri.
Lisätietoja alla 👇

SWE-bench Verified käyttää todellisia GitHub-ongelmia tuotantosäilöistä - monimutkaisia, monitiedostoisia ongelmia, jotka erottavat todelliset koodausagentit ylistetystä automaattisesta täydennyksestä. 76,1 % pass@1 tarkoittaa 3/4 todellisen suunnittelutehtävän ratkaisemista itsenäisesti.
Miksi Verdent loistaa SWE-penkillä Vahvistettu:
Usean mallin yhteensopivuus: Mallista riippumaton ajoaika sovittaa oikean mallin kuhunkin vaiheeseen (Claude analyysiä varten, GPT-5 tarkistettavaksi). Tasainen suorituskyky täydellä läpinäkyvyydellä ja konfiguroitavuudella.
Verifiointi Autopilotilla: Sisäänrakennettu tyypin tarkistus, staattinen analyysi, testin suorittaminen automaattisilla uudelleenyritys-/virheenkorjausjaksoilla. Koodin tarkistuksen aliagentit käsittelevät suuria eroja. Ylittää "testien läpäisemisen" "kehittäjän aikomuksen täyttämiseen".
Aina tehtävässä: Selkeä tehtävälista seuraa edistymistä ja estää kontekstin ajautumisen pitkissä istunnoissa. Peilaa ihmiskehittäjän työnkulkua vaihe vaiheelta, mikä parantaa onnistumisprosenttia ja tokenien tehokkuutta.
Suunnittele-koodi-tarkista-työnkulku:
1. Suunnittelutila: Jäsennellyt, muokattavat toteutussuunnitelmat
2. Aliagentin orkestrointi: Erikoistuneet agentit (etsijä, tarkistaja, todentaja) Käyttäjän määrittämä hallinta agenttisääntöjen avulla (agentit md), jolla on personoitava käyttäytyminen: varovaisuustasot, käyttöoikeudet, yhteistyötyylit
3. DiffLens: Selkeä koodin toimitus järjestetyillä eroavaisuuksilla + yhteenvedoilla
4. Pysyy aina tehtävässään selkeän edistymisen seurannan avulla

Tuotantovalmiit ominaisuudet, jotka ylittävät vertailuarvot:
- Pitkäikäinen terminaali (tmux-tyylinen pysyvyys)
- Vinoviivakomennot (/init, /compact, mukautettu automaatio)
- MCP (Model Context Protocol) -tuki
- VS Code -laajennus + erillinen rinnakkaistehtäväsovellus (Verdent Deck)
Ajattelulla on väliä: Verdentin kokeet osoittavat, että useammat päättelymerkit johtavat parempaan suorituskykyyn. He havaitsivat ~0,7 % parannusta, kun malleille annettiin enemmän "ajatteluaikaa" - mikä todistaa, että hätäinen koodi ei ole hyvää koodia edes tekoälylle.

Toimittajan varianssi: Kaikki mallin tarjoajat eivät ole samanarvoisia. Heidän testauksensa paljastivat, että joillakin palveluntarjoajilla (kuten AWS Bedrockilla) on suurempi suorituskykyvarianssi - jopa 1,2 %:n ero identtisissä olosuhteissa. Valitse infrastruktuurisi viisaasti.
Yllättävä löytö: Kun he riisuivat Verdentin pelkkiin perustyökaluihin (bash, read, write, edit), SWE-bench Verified -suorituskyky tuskin muuttui.
Tämä paljastaa mahdollisen vertailuharhan - kehittyneillä työkaluilla on merkitystä todellisessa suunnittelussa, mutta nykyiset vertailuarvot eivät välttämättä kuvaa tätä monimutkaisuutta.
Entisten TikTok- ja Baidu-insinöörien rakentama. Verdent yhdistää alan johtavat mallit, kuten GPT-5:n ja Sonnet 4.5:n, kehittäjäkeskeiseksi järjestelmäksi. Tältä agenttinen koodaus näyttää, kun se on rakennettu todellista suunnittelutyötä varten. Voit aloittaa ilmaisen kokeilujakson täältä:
7,96K
Johtavat
Rankkaus
Suosikit

