Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Entwickeln mit KI-Agenten @dair_ai • Zurück: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Ich teile Einblicke, wie man mit LLMs und KI-Agenten ⬇️ entwickelt
Ein weiterer großartiger Beitrag von Anthropic!
Es geht darum, Ihre Agenten durch Evaluierungen zu verbessern.
Hier sind meine schnellen Erkenntnisse aus dem Blog:
Die Fähigkeiten, die Agenten nützlich machen (Autonomie, Intelligenz, Flexibilität), sind die gleichen, die sie schwer zu bewerten machen. Man kann nicht einfach Unit-Tests durchführen und erwarten, dass Ihre agentenbasierte Anwendung funktioniert.
Dieser Leitfaden erläutert den praktischen Rahmen, den die Entwickler von Anthropic für die Agenten-Evaluierungen verwenden.
Sie erwähnten drei Arten von Bewertenden, jede mit ihren Vor- und Nachteilen:
- Code-basierte Bewertende sind schnell, kostengünstig und reproduzierbar, aber anfällig für gültige Variationen.
- Modell-basierte Bewertende können Nuancen und offene Aufgaben bewältigen, sind jedoch nicht deterministisch und erfordern menschliche Kalibrierung.
- Menschliche Bewertende sind von goldstandard Qualität, aber teuer und langsam.
Sie sprechen auch über zwei Kategorien von Evaluierungen, die unterschiedliche Zwecke erfüllen.
1) Fähigkeits-Evaluierungen fragen "Was kann dieser Agent gut?" und beginnen mit niedrigen Bestehensquoten.
2) Regressionsevaluierungen fragen "Kann er immer noch frühere Aufgaben bewältigen?" und sollten nahe 100% bleiben. Aufgaben, die von der Fähigkeit zur Regression übergehen, stellen echten Fortschritt dar.
Für die Nicht-Determinismus sind zwei Metriken wichtig. pass@k misst die Wahrscheinlichkeit, dass mindestens ein Erfolg in k Versuchen erzielt wird. pass^k misst die Wahrscheinlichkeit, dass alle k Versuche erfolgreich sind. Diese divergieren dramatisch; bei k=10 kann pass@k 100% erreichen, während pass^k nahe null fällt.
Ein wirklich guter Tipp im Blog ist, mit 20-50 einfachen Aufgaben aus realen Fehlern zu beginnen, anstatt auf Perfektion zu warten. Wandeln Sie manuelle Überprüfungen, die Sie bereits durchführen, in Testfälle um. Bewerten Sie Ausgaben, nicht die gewählten Wege. Berücksichtigen Sie Teilpunkte für komplexe Aufgaben.
Häufige Fallstricke sind starre Bewertungen, die äquivalente, aber unterschiedlich formatierte Antworten bestrafen, mehrdeutige Aufgabenbeschreibungen und stochastische Aufgaben, die unmöglich zu reproduzieren sind.
Ich empfehle diese Lektüre sehr.
Blog:
Lernen Sie, effektive KI-Agenten in unserer Akademie zu bauen:

159
Eine weitere große Veröffentlichung von @elevenlabsio!
Sie haben gerade Scribe v2 veröffentlicht, das wie das genaueste Transkriptionsmodell aussieht, das jemals veröffentlicht wurde.
Diese Benchmarks sind schwer zu ignorieren. Scribe setzt einen neuen Genauigkeitsstandard.

ElevenLabsVor 13 Stunden
Heute stellen wir Scribe v2 vor: das genaueste Transkriptionsmodell, das jemals veröffentlicht wurde.
Während Scribe v2 Realtime für ultra niedrige Latenz und Anwendungsfälle für Agenten optimiert ist, wurde Scribe v2 für die Batch-Transkription, Untertitelung und Beschriftung in großem Maßstab entwickelt.
7
LLM-Agenten brechen bei langen Aufgaben zusammen.
Hier kommt das Kontext-Engineering wirklich zur Geltung.
Agenten können schlussfolgern und Werkzeuge nutzen, aber erweiterte Operationen führen zu ungebundenem Kontextwachstum und angesammelten Fehlern.
Häufige Lösungen wie Kontextkompression oder retrieval-unterstütztes Prompting zwingen zu Kompromissen zwischen Informationsgenauigkeit und Stabilität des Schließens.
Diese neue Forschung stellt InfiAgent vor, ein Framework, das den Denk-Kontext des Agenten unabhängig von der Dauer der Aufgabe strikt begrenzt.
Die Idee ist, den persistenten Zustand in eine dateizentrierte Abstraktion zu externalisieren. Anstatt alles in den Kontext zu stopfen, hält der Agent einen Arbeitsbereich von Dateien, die über die Schritte hinweg bestehen bleiben. An jedem Entscheidungspunkt rekonstruiert er den Kontext aus einem Snapshot des Arbeitsbereichs plus einem festen Fenster von aktuellen Aktionen.
Dies entkoppelt die Aufgabendauer von der Kontextgröße. Egal, ob die Aufgabe 10 Schritte oder 1000 dauert, der Denk-Kontext bleibt gleich lang.
Das ist schön, weil der Ansatz keine aufgabenspezifische Feinabstimmung erfordert. Der Agent funktioniert unabhängig vom Bereich auf die gleiche Weise.
Experimente auf DeepResearch und einer Literaturüberprüfung mit 80 Arbeiten zeigen, dass InfiAgent mit einem 20B Open-Source-Modell wettbewerbsfähig mit größeren proprietären Systemen ist. Es hält erheblich höhere Langzeitabdeckung als kontextzentrierte Baselines.
Die Literaturüberprüfung mit 80 Arbeiten ist besonders aufschlussreich. Das ist genau die Art von erweiterter Aufgabe, bei der traditionelle Agenten Fehler ansammeln und den Überblick verlieren, was sie getan haben. Die dateibasierte Zustandsexternalisierung von InfiAgent verhindert diese Degradation.
Papier:
Lerne, effektive KI-Agenten in unserer Akademie zu bauen:

37
Top
Ranking
Favoriten
