Verdent uzyskał 76,1% w SWE-bench Verified, zajmując miejsce w czołówce obok Claude Sonnet 4.5 i innych wiodących modeli. Verdent to system AI do kodowania z wieloma agentami, stworzony do prawdziwej pracy inżynieryjnej. Orkiestruje wyspecjalizowane podagenty w ramach przepływu pracy plan-kod-weryfikacja z architekturą skoncentrowaną na weryfikacji. Więcej szczegółów poniżej 👇
SWE-bench Verified wykorzystuje prawdziwe problemy z GitHub z repozytoriów produkcyjnych - złożone, wielofunkcyjne problemy, które oddzielają rzeczywistych agentów kodowania od glorifikowanego autouzupełniania. 76,1% pass@1 oznacza samodzielne rozwiązanie 3 z 4 rzeczywistych zadań inżynieryjnych.
Dlaczego Verdent wyróżnia się na SWE-bench Kompatybilność z wieloma modelami: Runtime niezależny od modelu dopasowuje odpowiedni model do każdego etapu (Claude do analizy, GPT-5 do przeglądu). Spójna wydajność z pełną przejrzystością i konfigurowalnością. Weryfikacja na autopilocie: Wbudowane sprawdzanie typów, analiza statyczna, wykonanie testów z automatycznymi cyklami ponownego uruchamiania/debugowania. Podagentów przeglądu kodu obsługują dużą różnicę. Wykracza poza "zdawanie testów" do "spełniania intencji dewelopera." Zawsze na zadaniu: Wyraźna lista zadań śledzi postępy, zapobiega dryfowaniu kontekstu w długich sesjach. Odbija krok po kroku workflow ludzkiego dewelopera, poprawiając wskaźnik sukcesu i efektywność tokenów.
Workflow Plan-Code-Verify: 1. Tryb planowania: Strukturalne, edytowalne plany wykonania 2. Orkiestracja podagentów: Specjalizowane agenty (wyszukiwacz, recenzent, weryfikator) Kontrola zdefiniowana przez użytkownika za pomocą zasad agentów (agenci md) z personalizowanym zachowaniem: poziomy ostrożności, uprawnienia, style współpracy 3. DiffLens: Jasne dostarczanie kodu z uporządkowanymi różnicami + podsumowaniami 4. Zawsze pozostaje na zadaniu z wyraźnym śledzeniem postępów
Funkcje gotowe do produkcji, które wykraczają poza standardy: - Długoterminowy terminal (trwałość w stylu tmux) - Komendy slash (/init, /compact, automatyzacja niestandardowa) - Wsparcie dla MCP (Model Context Protocol) - Rozszerzenie VS Code + samodzielna aplikacja do równoległych zadań (Verdent Deck)
Myślenie ma znaczenie: eksperymenty Verdent pokazują, że więcej tokenów do rozumowania prowadzi do lepszej wydajności. Odkryli około 0,7% poprawy, gdy pozwolono modelom na więcej "czasu na myślenie" - udowadniając, że pośpieszny kod to nie dobry kod, nawet dla AI.
Różnice między dostawcami: Nie wszyscy dostawcy modeli są tacy sami. Ich testy ujawniły, że niektórzy dostawcy (tacy jak AWS Bedrock) wykazują większą zmienność wydajności - do 1,2% różnicy w identycznych warunkach. Wybierz swoją infrastrukturę mądrze.
Zaskakujące odkrycie: Kiedy ograniczono Verdent do podstawowych narzędzi (bash, read, write, edit), zweryfikowana wydajność SWE-bench ledwo się zmieniła. To ujawnia potencjalne uprzedzenie w benchmarkach - zaawansowane narzędzia mają znaczenie dla prawdziwego inżynierii, ale obecne benchmarki mogą nie uchwycić tej złożoności.
Stworzony przez byłych inżynierów TikTok i Baidu. Verdent łączy w sobie wiodące modele, takie jak GPT-5 i Sonnet 4.5, w systemie skoncentrowanym na deweloperach. Tak wygląda agenticzne kodowanie, gdy jest tworzone do prawdziwej pracy inżynieryjnej. Możesz rozpocząć bezpłatny okres próbny tutaj :
12,08K