Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verdent uzyskał 76,1% w SWE-bench Verified, zajmując miejsce w czołówce obok Claude Sonnet 4.5 i innych wiodących modeli.
Verdent to system AI do kodowania z wieloma agentami, stworzony do prawdziwej pracy inżynieryjnej. Orkiestruje wyspecjalizowane podagenty w ramach przepływu pracy plan-kod-weryfikacja z architekturą skoncentrowaną na weryfikacji.
Więcej szczegółów poniżej 👇

SWE-bench Verified wykorzystuje prawdziwe problemy z GitHub z repozytoriów produkcyjnych - złożone, wielofunkcyjne problemy, które oddzielają rzeczywistych agentów kodowania od glorifikowanego autouzupełniania. 76,1% pass@1 oznacza samodzielne rozwiązanie 3 z 4 rzeczywistych zadań inżynieryjnych.
Dlaczego Verdent wyróżnia się na SWE-bench
Kompatybilność z wieloma modelami: Runtime niezależny od modelu dopasowuje odpowiedni model do każdego etapu (Claude do analizy, GPT-5 do przeglądu). Spójna wydajność z pełną przejrzystością i konfigurowalnością.
Weryfikacja na autopilocie: Wbudowane sprawdzanie typów, analiza statyczna, wykonanie testów z automatycznymi cyklami ponownego uruchamiania/debugowania. Podagentów przeglądu kodu obsługują dużą różnicę. Wykracza poza "zdawanie testów" do "spełniania intencji dewelopera."
Zawsze na zadaniu: Wyraźna lista zadań śledzi postępy, zapobiega dryfowaniu kontekstu w długich sesjach. Odbija krok po kroku workflow ludzkiego dewelopera, poprawiając wskaźnik sukcesu i efektywność tokenów.
Workflow Plan-Code-Verify:
1. Tryb planowania: Strukturalne, edytowalne plany wykonania
2. Orkiestracja podagentów: Specjalizowane agenty (wyszukiwacz, recenzent, weryfikator) Kontrola zdefiniowana przez użytkownika za pomocą zasad agentów (agenci md) z personalizowanym zachowaniem: poziomy ostrożności, uprawnienia, style współpracy
3. DiffLens: Jasne dostarczanie kodu z uporządkowanymi różnicami + podsumowaniami
4. Zawsze pozostaje na zadaniu z wyraźnym śledzeniem postępów

Funkcje gotowe do produkcji, które wykraczają poza standardy:
- Długoterminowy terminal (trwałość w stylu tmux)
- Komendy slash (/init, /compact, automatyzacja niestandardowa)
- Wsparcie dla MCP (Model Context Protocol)
- Rozszerzenie VS Code + samodzielna aplikacja do równoległych zadań (Verdent Deck)
Myślenie ma znaczenie: eksperymenty Verdent pokazują, że więcej tokenów do rozumowania prowadzi do lepszej wydajności. Odkryli około 0,7% poprawy, gdy pozwolono modelom na więcej "czasu na myślenie" - udowadniając, że pośpieszny kod to nie dobry kod, nawet dla AI.

Różnice między dostawcami: Nie wszyscy dostawcy modeli są tacy sami. Ich testy ujawniły, że niektórzy dostawcy (tacy jak AWS Bedrock) wykazują większą zmienność wydajności - do 1,2% różnicy w identycznych warunkach. Wybierz swoją infrastrukturę mądrze.
Zaskakujące odkrycie: Kiedy ograniczono Verdent do podstawowych narzędzi (bash, read, write, edit), zweryfikowana wydajność SWE-bench ledwo się zmieniła.
To ujawnia potencjalne uprzedzenie w benchmarkach - zaawansowane narzędzia mają znaczenie dla prawdziwego inżynierii, ale obecne benchmarki mogą nie uchwycić tej złożoności.
Stworzony przez byłych inżynierów TikTok i Baidu. Verdent łączy w sobie wiodące modele, takie jak GPT-5 i Sonnet 4.5, w systemie skoncentrowanym na deweloperach. Tak wygląda agenticzne kodowanie, gdy jest tworzone do prawdziwej pracy inżynieryjnej. Możesz rozpocząć bezpłatny okres próbny tutaj :
12,08K
Najlepsze
Ranking
Ulubione

