Verdent набрав 76,1% на SWE-bench Verified, посівши перше місце поряд з Claude Sonnet 4.5 та іншими провідними моделями. Verdent — це мультиагентна система кодування на основі штучного інтелекту, створена для реальних інженерних робіт. Він керує спеціалізованими субагентами за допомогою робочого процесу «план-код-верифікація» з архітектурою, орієнтованою на верифікацію. Детальніше нижче 👇
SWE-bench Verified використовує реальні проблеми GitHub з продакшн-репозиторіїв - складні, багатофайлові проблеми, які відокремлюють фактичних агентів кодування від прославленого автозаповнення. 76,1% pass@1 означає автономне вирішення 3 з 4 реальних інженерних завдань.
Чому Verdent досягає успіху на SWE-bench Перевірено: Сумісність з кількома моделями: Середовище виконання, незалежне від моделі, зіставляє правильну модель для кожного етапу (Claude для аналізу, GPT-5 для огляду). Стабільна продуктивність з повною прозорістю та можливістю налаштування. Верифікація на автопілоті: Вбудована перевірка типу, статичний аналіз, виконання тесту з автоматичними циклами повторення/налагодження. Субагенти Code Review обробляють великі дифи. Виходить за рамки «проходження тестів» до «відповідності намірам розробника». Завжди на завданні: Чіткий список справ відстежує прогрес, запобігає зсуву контексту під час тривалих сесій. Крок за кроком відображає робочий процес розробника, підвищуючи рівень успіху та ефективність токенів.
Робочий процес «План-Код-Верифікація»: 1. Режим плану: структуровані, редаговані плани виконання 2. Оркестрування субагентів: Спеціалізовані агенти (шукач, рецензент, верифікатор) Користувацький контроль за допомогою агентних правил (agents md) з персоналізованою поведінкою: рівні обережності, дозволи, стилі співпраці 3. DiffLens: Чітка доставка коду з упорядкованими дифами + підсумками 4. Завжди залишається на завданні з чітким відстеженням прогресу
Готові до виробництва функції, які виходять за рамки контрольних показників: - Довгоживучий термінал (стійкість у стилі tmux) - Команди слешу (/init, /compact, користувацька автоматизація) - Підтримка MCP (Model Context Protocol) - Розширення VS Code + автономний додаток для паралельних завдань (Verdent Deck)
Thinking Matters: Експерименти Verdent показують, що більше токенів міркувань призводять до кращої продуктивності. Вони виявили покращення на ~0,7%, коли дозволили моделям більше «часу на роздуми» — доводячи, що поспішний код не є хорошим кодом, навіть для ШІ.
Дисперсія постачальника: не всі постачальники моделей рівні. Їх тестування показало, що деякі провайдери (наприклад, AWS Bedrock) демонструють більш високу дисперсію продуктивності - розрив до 1,2% за ідентичних умов. Вибирайте інфраструктуру з розумом.
Несподіване відкриття: коли вони розібрали Verdent лише до базових інструментів (bash, read, write, edit), продуктивність SWE-bench Verified майже не змінилася. Це виявляє потенційну упередженість еталонів - складні інструменти мають значення для реального проектування, але поточні тести можуть не відображати цю складність.
Створено колишніми інженерами TikTok і Baidu. Verdent об'єднує провідні моделі галузі, такі як GPT-5 і Sonnet 4.5, у системі, орієнтованій на розробників. Ось так виглядає агентичне кодування, коли воно створене для реальних інженерних робіт. Ви можете почати безкоштовну пробну версію тут:
11,62K