Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Бенчмаркинг агентов программирования с долгосрочной перспективой Агенты программирования на основе ИИ выглядят впечатляюще на текущих бенчмарках программирования. Но эти бенчмарки часто оптимизируют и тестируют не то, что нужно. Это новое исследование представляет SWE-EVO, бенчмарк для долгосрочной эволюции программного обеспечения. До 80% усилий в области программной инженерии связано с поддержкой и эволюцией устаревших кодовых баз, а не с созданием с нуля. Текущие бенчмарки полностью упускают это из виду. SWE-EVO показывает разрыв между решением изолированных проблем и выполнением реальной эволюции программного обеспечения. Вместо исправления отдельных проблем агенты должны интерпретировать примечания к релизам и внедрять комплексные изменения, охватывающие в среднем 21 файл, проверенные с помощью тестовых наборов, в среднем состоящих из 874 тестов на экземпляр. GPT-5 с OpenHands достигает 65% на SWE-Bench Verified, но только 21% на SWE-EVO. Авторы обнаруживают, что текущие агенты испытывают трудности с устойчивым многопоточным рассуждением. Бенчмарк построен на основе примечаний к релизам семи зрелых проектов с открытым исходным кодом на Python, включая scikit-learn, pydantic и dask. Каждая задача требует внедрения изменений, которые обычно охватывают несколько запросов на внесение изменений. Золотые патчи в среднем содержат 610 строк, отредактированных в 21 файле и 51 функции. Результаты по 11 моделям показывают последовательные паттерны. Более крупные модели превосходят меньшие варианты. GPT-5 решает 21% против GPT-5-mini на уровне 10% и GPT-5-nano на уровне 4%. Рейтинг отражает производительность SWE-Bench, подтверждая SWE-EVO как значимый бенчмарк. Анализ неудач показывает четкие паттерны по способности модели. Самые сильные модели терпят неудачу в основном из-за следования инструкциям, неправильно интерпретируя нюансы примечаний к релизам. Более слабые модели испытывают трудности с использованием инструментов и синтаксическими ошибками. Это указывает на то, что сложность SWE-EVO возникает из семантического рассуждения, а не из компетенции интерфейса. Статья: Научитесь создавать эффективные ИИ-агенты в моей академии:

Топ

Рейтинг

Избранное