Jeg oppdaget at jeg designet AI-verktøyene mine baklengs. Her er et eksempel. Dette var min nyhetsbrevbehandlingskjede: lese e-poster, ringe en nyhetsbrevbehandler, trekke ut selskaper og deretter legge dem til CRM. Dette involverte fire forskjellige trinn, som kostet $3.69 for hvert tusen nyhetsbrev som ble behandlet. Før: Nyhetsbrev Processing Chain (første bilde) Deretter laget jeg et enhetlig nyhetsbrevverktøy som kombinerte alt ved hjelp av Google Agent Development Kit, Googles rammeverk for å bygge AI-agentverktøy i produksjonskvalitet: (andre bilde) Hvorfor er det enhetlige nyhetsbrevverktøyet mer komplisert? Den inkluderer flere handlinger i ett enkelt grensesnitt (behandle, søke, trekke ut, validere), implementerer tilstandsadministrasjon som sporer bruksmønstre og bufrer resultater, har innebygd hastighetsbegrensning og produserer strukturerte JSON-utganger med metadata i stedet for ren tekst. Men her er den kontraintuitive delen: til tross for at det er mer komplekst internt, er det enhetlige verktøyet enklere for LLM å bruke fordi det gir konsistente, strukturerte utganger som er lettere å analysere, selv om disse utgangene er lengre. For å forstå virkningen kjørte vi tester av 30 iterasjoner per testscenario. Resultatene viser virkningen av den nye arkitekturen: (tredje bilde) Vi var i stand til å redusere tokens med 41 % (p=0,01, statistisk signifikant), noe som oversettes lineært til kostnadsbesparelser. Suksessraten forbedret seg med 8 % (p=0,03), og vi klarte å treffe cachen 30 % av tiden, noe som er en annen kostnadsbesparelse. Mens individuelle verktøy ga kortere, "renere" svar, tvang de LLM til å jobbe hardere med å analysere inkonsekvente formater. Strukturerte, omfattende resultater fra enhetlige verktøy muliggjorde mer effektiv LLM-behandling, til tross for at den var lengre. Arbeidsflyten min var avhengig av dusinvis av spesialiserte Ruby-verktøy for e-post, forskning og oppgavebehandling. Hvert verktøy hadde sitt eget grensesnitt, feilhåndtering og utdataformat. Ved å samle dem i metaverktøy blir den ultimate ytelsen bedre, og det er enorme kostnadsbesparelser. Du finner hele arkitekturen på GitHub.