Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Bouwen met AI-agents @dair_ai • Vorige: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Ik deel inzichten over hoe te bouwen met LLM's en AI-agents ⬇️
Weer een geweldige post van Anthropic!
Het gaat allemaal om het verbeteren van je agents via evaluaties.
Hier zijn mijn snelle inzichten uit de blog:
De capaciteiten die agents nuttig maken (autonomie, intelligentie, flexibiliteit) zijn dezelfde die het moeilijk maken om ze te evalueren. Je kunt niet gewoon unit tests uitvoeren en verwachten dat je agentische app werkt.
Deze gids legt het praktische kader uit dat Anthropic-ontwikkelaars gebruiken voor agent evaluaties.
Ze noemden drie soorten beoordelaars, elk met hun voor- en nadelen:
- Code-gebaseerde beoordelaars zijn snel, goedkoop en reproduceerbaar, maar kwetsbaar voor geldige variaties.
- Model-gebaseerde beoordelaars kunnen nuance en open-eindige taken aan, maar zijn niet-deterministisch en vereisen menselijke kalibratie.
- Menselijke beoordelaars zijn van goudstandaardkwaliteit, maar duur en traag.
Ze bespreken ook twee categorieën van evaluaties die verschillende doeleinden dienen.
1) Capaciteitsevaluaties vragen "wat kan deze agent goed doen?" en beginnen bij lage slaagpercentages.
2) Regressevaluaties vragen "kan het nog steeds eerdere taken aan?" en moeten dicht bij 100% blijven. Taken die van capaciteit naar regressie gaan, vertegenwoordigen echte vooruitgang.
Voor niet-determinisme zijn er twee belangrijke metrics. pass@k meet de kans op ten minste één succes in k pogingen. pass^k meet de kans dat alle k proeven slagen. Deze divergeren dramatisch; bij k=10 kan pass@k 100% benaderen terwijl pass^k bijna nul valt.
Een echt goede tip in de blogs is om te beginnen met 20-50 eenvoudige taken uit echte mislukkingen in plaats van te wachten op perfectie. Zet handmatige controles die je al uitvoert om in testgevallen. Beoordeel outputs, niet de paden die zijn genomen. Inclusief gedeeltelijke punten voor complexe taken.
Veelvoorkomende valkuilen zijn rigide beoordeling die equivalente maar anders geformatteerde antwoorden bestraft, vage taak specificaties en stochastische taken die onmogelijk te reproduceren zijn.
Ik raad deze lees aan.
Blog:
Leer effectieve AI-agents te bouwen in onze academie:

163
Weer een enorme release van @elevenlabsio!
Ze hebben zojuist Scribe v2 uitgebracht, dat lijkt het meest nauwkeurige transcriptiemodel dat ooit is uitgebracht.
Moelijk om deze benchmarks te negeren. Scribe stelt een nieuwe nauwkeurigheidsnorm.

ElevenLabs18 uur geleden
Vandaag introduceren we Scribe v2: het meest nauwkeurige transcriptiemodel dat ooit is uitgebracht.
Terwijl Scribe v2 Realtime is geoptimaliseerd voor ultra lage latentie en gebruikssituaties voor agenten, is Scribe v2 gebouwd voor batchtranscriptie, ondertiteling en bijschriften op grote schaal.
8
LLM-agenten falen bij lange taken.
Hier komt contextengineering echt om de hoek kijken.
Agenten kunnen redeneren en tools gebruiken, maar uitgebreide operaties veroorzaken onbeperkte contextgroei en opgetelde fouten.
Veelvoorkomende oplossingen zoals contextcompressie of retrieval-augmented prompting dwingen tot afwegingen tussen informatiegetrouwheid en redeneringsstabiliteit.
Dit nieuwe onderzoek introduceert InfiAgent, een framework dat de redeneringscontext van de agent strikt begrensd houdt, ongeacht hoe lang de taak duurt.
Het idee is om de persistente staat extern te maken in een bestand-gecentreerde abstractie. In plaats van alles in de context te proppen, onderhoudt de agent een werkruimte van bestanden die over stappen heen blijven bestaan. Op elk beslissingspunt reconstruert het de context vanuit een snapshot van de werkruimte plus een vaste venster van recente acties.
Dit ontkoppelt de duur van de taak van de grootte van de context. Of de taak nu 10 stappen of 1000 stappen duurt, de redeneringscontext blijft dezelfde lengte.
Dit is fijn omdat de aanpak geen taak-specifieke fine-tuning vereist. De agent opereert op dezelfde manier, ongeacht het domein.
Experimenten op DeepResearch en een literatuurreview van 80 artikelen tonen aan dat InfiAgent met een 20B open-source model concurrerend is met grotere propriëtaire systemen. Het behoudt aanzienlijk hogere dekking op lange termijn dan context-gecentreerde baselines.
De literatuurreview van 80 artikelen is bijzonder onthullend. Dat is precies het soort uitgebreide taak waarbij traditionele agenten fouten accumuleren en het overzicht verliezen van wat ze hebben gedaan. InfiAgent's bestand-gebaseerde staatsexternalisatie voorkomt deze degradatie.
Paper:
Leer effectieve AI-agenten te bouwen in onze academie:

38
Boven
Positie
Favorieten
