DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Verdent obtuvo un 76.1% en SWE-bench Verified, posicionándose en la categoría superior junto a Claude Sonnet 4.5 y otros modelos líderes. Verdent es un sistema de codificación AI multi-agente diseñado para trabajos de ingeniería reales. Orquesta sub-agentes especializados a través de un flujo de trabajo de planificar-codificar-verificar con una arquitectura centrada en la verificación. Más detalles a continuación 👇

SWE-bench Verified utiliza problemas reales de GitHub de repositorios de producción: los problemas complejos y de múltiples archivos que separan a los verdaderos agentes de codificación de los autocompletados glorificados. Un 76.1% pass@1 significa resolver 3 de 4 tareas de ingeniería reales de forma autónoma.

Por qué Verdent destaca en SWE-bench Verificado: Compatibilidad Multi-Modelo: El runtime agnóstico al modelo empareja el modelo adecuado a cada etapa (Claude para análisis, GPT-5 para revisión). Rendimiento consistente con total transparencia y configurabilidad. Verificación en Piloto Automático: Comprobación de tipos incorporada, análisis estático, ejecución de pruebas con ciclos automáticos de reintento/de depuración. Los subagentes de revisión de código manejan grandes diferencias. Va más allá de "pasar pruebas" a "cumplir con la intención del desarrollador." Siempre en Tarea: Una lista de tareas explícita rastrea el progreso, previene la deriva de contexto en sesiones largas. Refleja el flujo de trabajo del desarrollador humano paso a paso, mejorando la tasa de éxito y la eficiencia de tokens.

El flujo de trabajo Plan-Código-Verificar: 1. Modo de Plan: Planes de ejecución estructurados y editables 2. Orquestación de subagentes: Agentes especializados (buscador, revisor, verificador) Control definido por el usuario a través de reglas agénticas (agentes md) con comportamiento personalizable: niveles de precaución, permisos, estilos de colaboración 3. DiffLens: Entrega de código clara con diffs organizados + resúmenes 4. Siempre se mantiene en la tarea con seguimiento de progreso explícito

Características listas para producción que van más allá de los benchmarks: - Terminal de larga duración (persistencia estilo tmux) - Comandos slash (/init, /compact, automatización personalizada) - Soporte para MCP (Protocolo de Contexto del Modelo) - Extensión de VS Code + aplicación independiente de tareas paralelas (Verdent Deck)

Pensar importa: los experimentos de Verdent muestran que más tokens de razonamiento conducen a un mejor rendimiento. Encontraron una mejora de aproximadamente el 0.7% al permitir que los modelos tuvieran más "tiempo de reflexión" - demostrando que el código apresurado no es buen código, incluso para la IA.

Varianza del proveedor: No todos los proveedores de modelos son iguales. Sus pruebas revelaron que algunos proveedores (como AWS Bedrock) muestran una mayor variación en el rendimiento, con una diferencia de hasta el 1.2% en condiciones idénticas. Elige tu infraestructura sabiamente.

Descubrimiento sorprendente: Cuando redujeron Verdent a solo herramientas básicas (bash, leer, escribir, editar), el rendimiento verificado por SWE-bench apenas cambió. Esto revela un posible sesgo en los benchmarks: las herramientas sofisticadas importan para la ingeniería real, pero los benchmarks actuales pueden no capturar esta complejidad.

Construido por exingenieros de TikTok y Baidu. Verdent unifica modelos líderes en la industria como GPT-5 y Sonnet 4.5 en un sistema centrado en el desarrollador. Así es como se ve la codificación agentiva cuando está diseñada para el trabajo de ingeniería real. Puedes comenzar la prueba gratuita aquí :

12,15K

Parte superior

Clasificación

Favoritos