Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Verdent obtuvo un 76,1% en SWE-bench Verified, aterrizando en el nivel superior junto con Claude Sonnet 4.5 y otros modelos líderes. Verdent es un sistema de codificación de IA multiagente creado para trabajos de ingeniería reales. Orquesta subagentes especializados a través de un flujo de trabajo de planificación-código-verificación con arquitectura de verificación primero. Más detalles a continuación 👇

SWE-bench Verified utiliza problemas reales de GitHub de los repositorios de producción: los complejos problemas de varios archivos que separan a los agentes de codificación reales del autocompletado glorificado. 76,1% pass@1 significa resolver 3 de cada 4 tareas reales de ingeniería de forma autónoma.

Por qué Verdent sobresale en SWE-bench Verified: Compatibilidad con múltiples modelos: el tiempo de ejecución independiente del modelo hace coincidir el modelo correcto con cada etapa (Claude para el análisis, GPT-5 para la revisión). Rendimiento constante con total transparencia y capacidad de configuración. Verificación en piloto automático: verificación de tipos incorporada, análisis estático, ejecución de pruebas con ciclos automáticos de reintento/depuración. Los subagentes de revisión de código manejan grandes diferencias. Va más allá de "pasar pruebas" a "cumplir con la intención del desarrollador". Siempre en la tarea: la lista explícita de tareas pendientes realiza un seguimiento del progreso, evita la desviación del contexto en sesiones largas. Refleja el flujo de trabajo de los desarrolladores humanos paso a paso, mejorando la tasa de éxito y la eficiencia de los tokens.

El flujo de trabajo Plan-Code-Verify: 1. Modo de plan: Planes de ejecución estructurados y editables 2. Orquestación de subagentes: Agentes especializados (buscador, revisor, verificador) Control definido por el usuario a través de reglas de agente (agentes md) con comportamiento personalizable: niveles de precaución, permisos, estilos de colaboración 3. DiffLens: Entrega de código claro con diffs organizados + resúmenes 4. Manténgase siempre concentrado en la tarea con un seguimiento explícito del progreso

Funciones listas para producción que se extienden más allá de los puntos de referencia: - Terminal de larga duración (persistencia estilo tmux) - Comandos de barra (/init, /compact, automatización personalizada) - Soporte MCP (Model Context Protocol) - Extensión VS Code + aplicación de tareas paralelas independiente (Verdent Deck)

Thinking Matters: Los experimentos de Verdent muestran que más tokens de razonamiento conducen a un mejor rendimiento. Encontraron una mejora de ~0.7% al permitir que los modelos tengan más "tiempo para pensar", lo que demuestra que el código apresurado no es un buen código, incluso para la IA.

Variación del proveedor: No todos los proveedores de modelos son iguales. Sus pruebas revelaron que algunos proveedores (como AWS Bedrock) muestran una mayor variación de rendimiento, hasta un 1,2 % de brecha en condiciones idénticas. Elija su infraestructura sabiamente.

Descubrimiento sorprendente: Cuando redujeron Verdent a solo herramientas básicas (bash, read, write, edit), el rendimiento verificado de SWE-bench apenas cambió. Esto revela un posible sesgo de referencia: las herramientas sofisticadas son importantes para la ingeniería real, pero es posible que los puntos de referencia actuales no capturen esta complejidad.

Construido por ex ingenieros de TikTok y Baidu. Verdent unifica modelos líderes en la industria como GPT-5 y Sonnet 4.5 en un sistema centrado en el desarrollador. Así es como se ve la codificación agencial cuando se construye para un trabajo de ingeniería real. Puede comenzar la prueba gratuita aquí :

12.07K

Populares

Ranking

Favoritas