Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Бенчмаркинг агентов программирования с долгосрочной перспективой
Агенты программирования на основе ИИ выглядят впечатляюще на текущих бенчмарках программирования. Но эти бенчмарки часто оптимизируют и тестируют не то, что нужно.
Это новое исследование представляет SWE-EVO, бенчмарк для долгосрочной эволюции программного обеспечения.
До 80% усилий в области программной инженерии связано с поддержкой и эволюцией устаревших кодовых баз, а не с созданием с нуля. Текущие бенчмарки полностью упускают это из виду. SWE-EVO показывает разрыв между решением изолированных проблем и выполнением реальной эволюции программного обеспечения.
Вместо исправления отдельных проблем агенты должны интерпретировать примечания к релизам и внедрять комплексные изменения, охватывающие в среднем 21 файл, проверенные с помощью тестовых наборов, в среднем состоящих из 874 тестов на экземпляр.
GPT-5 с OpenHands достигает 65% на SWE-Bench Verified, но только 21% на SWE-EVO.
Авторы обнаруживают, что текущие агенты испытывают трудности с устойчивым многопоточным рассуждением.
Бенчмарк построен на основе примечаний к релизам семи зрелых проектов с открытым исходным кодом на Python, включая scikit-learn, pydantic и dask. Каждая задача требует внедрения изменений, которые обычно охватывают несколько запросов на внесение изменений. Золотые патчи в среднем содержат 610 строк, отредактированных в 21 файле и 51 функции.
Результаты по 11 моделям показывают последовательные паттерны. Более крупные модели превосходят меньшие варианты. GPT-5 решает 21% против GPT-5-mini на уровне 10% и GPT-5-nano на уровне 4%. Рейтинг отражает производительность SWE-Bench, подтверждая SWE-EVO как значимый бенчмарк.
Анализ неудач показывает четкие паттерны по способности модели. Самые сильные модели терпят неудачу в основном из-за следования инструкциям, неправильно интерпретируя нюансы примечаний к релизам. Более слабые модели испытывают трудности с использованием инструментов и синтаксическими ошибками. Это указывает на то, что сложность SWE-EVO возникает из семантического рассуждения, а не из компетенции интерфейса.
Статья:
Научитесь создавать эффективные ИИ-агенты в моей академии:

Топ
Рейтинг
Избранное
