Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verdent získal 76.1 % na SWE-bench Verified a přistál na nejvyšší úrovni vedle Claude Sonnet 4.5 a dalších předních modelů.
Verdent je multiagentní kódovací systém s umělou inteligencí vytvořený pro skutečnou inženýrskou práci. Orchestruje specializované dílčí agenty prostřednictvím pracovního postupu plán-kód-ověření s architekturou založenou na ověření.
Více podrobností níže 👇

SWE-bench Verified využívá skutečné problémy GitHubu z produkčních repozitářů - složité, vícesouborové problémy, které oddělují skutečné kódovací agenty od glorifikovaného automatického doplňování. 76,1 % pass@1 znamená samostatné řešení 3 ze 4 reálných inženýrských úloh.
Proč Verdent exceluje na SWE-bench Ověřeno:
Kompatibilita více modelů: Běhové prostředí nezávislé na modelu přiřazuje správný model ke každé fázi (Claude pro analýzu, GPT-5 pro kontrolu). Konzistentní výkon s plnou transparentností a konfigurovatelností.
Ověření na Autopilotu: Vestavěná kontrola typu, statická analýza, provádění testů s automatickými cykly opakování/ladění. Dílčí agenti kontroly kódu zpracovávají velké rozdíly. Přesahuje rámec "absolvování testů" k "splnění záměru vývojáře".
Vždy na úkolu: Explicitní seznam úkolů sleduje pokrok a zabraňuje posunu kontextu při dlouhých relacích. Zrcadlí pracovní postupy lidského vývojáře krok za krokem, čímž zvyšuje úspěšnost a efektivitu tokenů.
Pracovní postup Plan-Code-Verify:
1. Režim plánu: Strukturované, upravitelné plány provádění
2. Orchestrace dílčích agentů: Specializovaní agenti (vyhledávač, recenzent, ověřovatel) Uživatelsky definované ovládání prostřednictvím agentických pravidel (agenti md) s přizpůsobitelným chováním: úrovně opatrnosti, oprávnění, styly spolupráce
3. DiffLens: Jasné doručování kódu s organizovanými rozdíly + souhrny
4. Vždy zůstaňte u úkolu s explicitním sledováním pokroku

Funkce připravené pro produkční prostředí, které přesahují referenční hodnoty:
- Terminál s dlouhou životností (perzistence ve stylu tmux)
- Příkazy lomítka (/init, /compact, vlastní automatizace)
- Podpora protokolu MCP (Model Context Protocol)
- Rozšíření VS Code + samostatná aplikace pro paralelní úlohy (Verdent Deck)
Na myšlení záleží: Experimenty společnosti Verdent ukazují, že více tokenů uvažování vede k lepšímu výkonu. Zjistili ~0,7% zlepšení, když modelům umožnili více "času na přemýšlení" – což dokazuje, že uspěchaný kód není dobrý kód, a to ani pro umělou inteligenci.

Odchylka dodavatele: Ne všichni poskytovatelé modelů jsou si rovni. Jejich testování odhalilo, že někteří poskytovatelé (například AWS Bedrock) vykazují vyšší výkonnostní odchylku - až 1,2% mezeru za stejných podmínek. Vybírejte svou infrastrukturu moudře.
Překvapivé zjištění: Když Verdent ořezali pouze na základní nástroje (bash, čtení, zápis, editace), výkon SWE-bench Verified se téměř nezměnil.
To odhaluje potenciální zkreslení benchmarků – pro skutečné inženýrství jsou důležité sofistikované nástroje, ale současné benchmarky nemusí tuto složitost zachytit.
Vytvořeno bývalými inženýry TikToku a Baidu. Verdent sjednocuje špičkové modely, jako jsou GPT-5 a Sonnet 4.5, do systému zaměřeného na vývojáře. Takto vypadá agentní kódování, když je vytvořeno pro skutečnou inženýrskou práci.  Bezplatnou zkušební verzi můžete spustit zde:
7,93K
Top
Hodnocení
Oblíbené

