Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Verdent erzielte 76,1 % im SWE-bench Verified und gehört zur Spitzenklasse zusammen mit Claude Sonnet 4.5 und anderen führenden Modellen.
Verdent ist ein Multi-Agenten-AI-Codierungssystem, das für echte Ingenieurarbeit entwickelt wurde. Es orchestriert spezialisierte Unteragenten durch einen Plan-Code-Überprüfungs-Workflow mit einer verifizierungsorientierten Architektur.
Weitere Details unten 👇

SWE-bench Verified verwendet echte GitHub-Issues aus Produktions-Repos - die komplexen, mehrteiligen Probleme, die echte Programmieragenten von glorifiziertem Autocomplete unterscheiden. 76,1 % pass@1 bedeutet, 3 von 4 echten Ingenieuraufgaben autonom zu lösen.
Warum Verdent auf SWE-bench überzeugt:
Multi-Modell-Kompatibilität: Modell-agnostische Laufzeit passt das richtige Modell an jede Phase an (Claude für Analyse, GPT-5 für Überprüfung). Konsistente Leistung mit voller Transparenz und Konfigurierbarkeit.
Verifizierung im Autopilot-Modus: Eingebaute Typprüfung, statische Analyse, Testausführung mit automatischen Wiederholungs-/Debugging-Zyklen. Code-Review-Sub-Agenten bearbeiten große Diffs. Geht über "Tests bestehen" hinaus zu "Entwicklerabsichten erfüllen."
Immer an der Aufgabe: Eine explizite To-Do-Liste verfolgt den Fortschritt, verhindert Kontextdrift in langen Sitzungen. Spiegelt den Workflow menschlicher Entwickler Schritt für Schritt wider, verbessert die Erfolgsquote und die Token-Effizienz.
Der Plan-Code-Überprüfungs-Workflow:
1. Planmodus: Strukturierte, bearbeitbare Ausführungspläne
2. Sub-Agenten-Orchestrierung: Spezialisierte Agenten (Suchender, Prüfer, Verifier) Benutzerdefinierte Kontrolle durch agentische Regeln (Agenten md) mit personalisierbarem Verhalten: Vorsichtsstufen, Berechtigungen, Kollaborationsstile
3. DiffLens: Klare Codeauslieferung mit organisierten Diffs + Zusammenfassungen
4. Bleibt immer fokussiert mit explizitem Fortschritts-Tracking

Produktionsbereite Funktionen, die über Benchmarks hinausgehen:
- Langfristiges Terminal (tmux-ähnliche Persistenz)
- Slash-Befehle (/init, /compact, benutzerdefinierte Automatisierung)
- MCP (Model Context Protocol) Unterstützung
- VS Code Erweiterung + eigenständige Parallelaufgaben-App (Verdent Deck)
Denken zählt: Verdents Experimente zeigen, dass mehr Denk-Tokens zu einer besseren Leistung führen. Sie fanden eine Verbesserung von ~0,7 %, als sie den Modellen mehr "Denkzeit" erlaubten - was beweist, dass hastiger Code kein guter Code ist, selbst für KI.

Anbieterabweichung: Nicht alle Modellanbieter sind gleich. Ihre Tests haben ergeben, dass einige Anbieter (wie AWS Bedrock) eine höhere Leistungsabweichung aufweisen - bis zu 1,2 % Unterschied unter identischen Bedingungen. Wählen Sie Ihre Infrastruktur weise.
Überraschende Entdeckung: Als sie Verdent auf nur grundlegende Werkzeuge (bash, lesen, schreiben, bearbeiten) reduzierten, änderte sich die von SWE-bench verifizierte Leistung kaum.
Dies offenbart potenzielle Benchmark-Bias - ausgeklügelte Werkzeuge sind für echtes Engineering wichtig, aber aktuelle Benchmarks erfassen möglicherweise nicht diese Komplexität.
Entwickelt von ehemaligen Ingenieuren von TikTok und Baidu. Verdent vereint branchenführende Modelle wie GPT-5 und Sonnet 4.5 in einem entwicklerzentrierten System. So sieht agentisches Codieren aus, wenn es für echte Ingenieurarbeit entwickelt wird. Sie können hier eine kostenlose Testversion starten :
12,06K
Top
Ranking
Favoriten

