Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verdent набрав 76,1% на SWE-bench Verified, посівши перше місце поряд з Claude Sonnet 4.5 та іншими провідними моделями.
Verdent — це мультиагентна система кодування на основі штучного інтелекту, створена для реальних інженерних робіт. Він керує спеціалізованими субагентами за допомогою робочого процесу «план-код-верифікація» з архітектурою, орієнтованою на верифікацію.
Детальніше нижче 👇

SWE-bench Verified використовує реальні проблеми GitHub з продакшн-репозиторіїв - складні, багатофайлові проблеми, які відокремлюють фактичних агентів кодування від прославленого автозаповнення. 76,1% pass@1 означає автономне вирішення 3 з 4 реальних інженерних завдань.
Чому Verdent досягає успіху на SWE-bench Перевірено:
Сумісність з кількома моделями: Середовище виконання, незалежне від моделі, зіставляє правильну модель для кожного етапу (Claude для аналізу, GPT-5 для огляду). Стабільна продуктивність з повною прозорістю та можливістю налаштування.
Верифікація на автопілоті: Вбудована перевірка типу, статичний аналіз, виконання тесту з автоматичними циклами повторення/налагодження. Субагенти Code Review обробляють великі дифи. Виходить за рамки «проходження тестів» до «відповідності намірам розробника».
Завжди на завданні: Чіткий список справ відстежує прогрес, запобігає зсуву контексту під час тривалих сесій. Крок за кроком відображає робочий процес розробника, підвищуючи рівень успіху та ефективність токенів.
Робочий процес «План-Код-Верифікація»:
1. Режим плану: структуровані, редаговані плани виконання
2. Оркестрування субагентів: Спеціалізовані агенти (шукач, рецензент, верифікатор) Користувацький контроль за допомогою агентних правил (agents md) з персоналізованою поведінкою: рівні обережності, дозволи, стилі співпраці
3. DiffLens: Чітка доставка коду з упорядкованими дифами + підсумками
4. Завжди залишається на завданні з чітким відстеженням прогресу

Готові до виробництва функції, які виходять за рамки контрольних показників:
- Довгоживучий термінал (стійкість у стилі tmux)
- Команди слешу (/init, /compact, користувацька автоматизація)
- Підтримка MCP (Model Context Protocol)
- Розширення VS Code + автономний додаток для паралельних завдань (Verdent Deck)
Thinking Matters: Експерименти Verdent показують, що більше токенів міркувань призводять до кращої продуктивності. Вони виявили покращення на ~0,7%, коли дозволили моделям більше «часу на роздуми» — доводячи, що поспішний код не є хорошим кодом, навіть для ШІ.

Дисперсія постачальника: не всі постачальники моделей рівні. Їх тестування показало, що деякі провайдери (наприклад, AWS Bedrock) демонструють більш високу дисперсію продуктивності - розрив до 1,2% за ідентичних умов. Вибирайте інфраструктуру з розумом.
Несподіване відкриття: коли вони розібрали Verdent лише до базових інструментів (bash, read, write, edit), продуктивність SWE-bench Verified майже не змінилася.
Це виявляє потенційну упередженість еталонів - складні інструменти мають значення для реального проектування, але поточні тести можуть не відображати цю складність.
Створено колишніми інженерами TikTok і Baidu. Verdent об'єднує провідні моделі галузі, такі як GPT-5 і Sonnet 4.5, у системі, орієнтованій на розробників. Ось так виглядає агентичне кодування, коли воно створене для реальних інженерних робіт. Ви можете почати безкоштовну пробну версію тут:
11,62K
Найкращі
Рейтинг
Вибране

