Verdent набрал 76,1% на SWE-bench Verified, попав в высший эшелон наряду с Claude Sonnet 4.5 и другими ведущими моделями. Verdent — это многопользовательская AI-система кодирования, созданная для реальной инженерной работы. Она координирует специализированные подагенты через рабочий процесс планирования-кодирования-верификации с архитектурой, ориентированной на верификацию. Больше деталей ниже 👇
SWE-bench Verified использует реальные проблемы GitHub из производственных репозиториев - сложные, многопользовательские задачи, которые отделяют настоящих кодеров от прославленного автозаполнения. 76.1% pass@1 означает решение 3 из 4 реальных инженерных задач автономно.
Почему Verdent превосходит на SWE-bench Совместимость с несколькими моделями: Модельно-агностичный режим работы подбирает правильную модель для каждого этапа (Claude для анализа, GPT-5 для обзора). Последовательная производительность с полной прозрачностью и настраиваемостью. Верификация в автопилоте: Встроенная проверка типов, статический анализ, выполнение тестов с автоматическими циклами повторной попытки/отладки. Подагенты по обзору кода обрабатывают большие изменения. Идёт дальше, чем просто "прохождение тестов", к "соответствию намерениям разработчика." Всегда на задаче: Явный список дел отслеживает прогресс, предотвращает смещение контекста в длинных сессиях. Отражает рабочий процесс человека-разработчика шаг за шагом, улучшая коэффициент успеха и эффективность токенов.
Рабочий процесс Plan-Code-Verify: 1. Режим планирования: Структурированные, редактируемые планы выполнения 2. Оркестрация подагентов: Специализированные агенты (поиск, проверка, верификация) Управление пользователем через агентные правила (агенты md) с персонализируемым поведением: уровни осторожности, разрешения, стили сотрудничества 3. DiffLens: Четкая доставка кода с организованными изменениями + сводками 4. Всегда остается в рамках задачи с явным отслеживанием прогресса
Готовые к производству функции, которые выходят за рамки бенчмарков: - Долговечный терминал (постоянство в стиле tmux) - Команды со слэшем (/init, /compact, пользовательская автоматизация) - Поддержка MCP (Протокол контекста модели) - Расширение для VS Code + отдельное приложение для параллельных задач (Verdent Deck)
Мысли имеют значение: эксперименты Verdent показывают, что большее количество токенов для рассуждений приводит к лучшей производительности. Они обнаружили улучшение примерно на 0,7%, когда моделям было предоставлено больше "времени для размышлений" - что доказывает, что спешка в коде не приводит к хорошему коду, даже для ИИ.
Разница между поставщиками: Не все поставщики моделей равны. Их тестирование показало, что некоторые поставщики (например, AWS Bedrock) демонстрируют более высокую вариацию производительности - до 1,2% разрыва при идентичных условиях. Выбирайте свою инфраструктуру с умом.
Удивительное открытие: когда они упростили Verdent до базовых инструментов (bash, read, write, edit), производительность, проверенная SWE-bench, едва изменилась. Это указывает на потенциальную предвзятость бенчмарков - сложные инструменты важны для реального инжиниринга, но текущие бенчмарки могут не отражать эту сложность.
Создано бывшими инженерами TikTok и Baidu. Verdent объединяет ведущие в отрасли модели, такие как GPT-5 и Sonnet 4.5, в системе, ориентированной на разработчиков. Вот как выглядит агентное кодирование, когда оно создано для реальной инженерной работы. Вы можете начать бесплатную пробную версию здесь :
12,13K