DApp Store | Web3 Hub for hendelser og spill

Populære emner

宝玉

Prompt Engineer, dedikert til å lære og spre kunnskap om AI, programvareteknikk og ingeniørledelse.

"Du burde bruke Bash mer." De siste ukene har Anthropics Thariq hatt telefonkonferanser med dusinvis av selskaper som lager allsidige agenter. E-postassistenter, kundeserviceboter, tidsplanstyring – det finnes alle slags produktskjemaer. Etter å ha pratet en stund, fant han seg selv si den samme setningen om og om igjen. Bash? Er ikke det et kommandolinjeverktøy for programmerere, og hva har det med disse produktene å gjøre? La oss se på et spesifikt scenario først. La oss si at du har en e-postagent og spør den: «Hvor mye brukte jeg på en taxi denne uken?» ” Den tradisjonelle tilnærmingen er denne: agenten kaller API-et for å hente e-posten, kan hente 100 e-poster samtidig, og deretter be modellen finne kvitteringer fra Uber og Lyft fra den, og summere beløpet. Problemet er at 100 meldinger presses inn i kontekst, og modellen må huske dem samtidig, filtrere og beregne dem. Dette er ikke lett for store språkmodeller. Det er lett å overse, det er lett å gjøre feil, og du kan ikke verifisere hvilke e-poster den leser. Dette er et typisk komfortsoneproblem for modellen: mengden data er ikke stor nok til å behandles av et spesielt program, men det ligger utenfor modellens evne til å utføre engangsberegninger. Fanget i midten er det kleint. Thariqs løsning er å gi agenten et Bash-verktøy og la den lagre mellomliggende resultater som en fil. Det høres enkelt ut, men logikken bak det er interessant. Et tradisjonelt verktøykall ville vært slik: Verktøyet → modellen prosesserer → utdata Alle mellomliggende tilstander er i modellens «hjerne», som du verken kan se eller sjekke. Etter overgangen til Bash endret prosessen seg: Verktøy → lagre filer→ søke/filtrere, → modellbehandling → utdataresultater Modellen kan først lagre 100 e-poster i en fil, deretter bruke grep for å søke etter "Uber", deretter grep "Lyft", og telle dem separat. Hvert steg er sporbart, og når det endelig summerer seg opp, kan det også se tilbake for å sjekke sine mellomliggende resultater. Dette gir tre kapabilitetsoppgraderinger: Reproduserbar. Kjør samme kommando igjen, og resultatet er det samme. Du kan feilsøke og feilsøke. Verifiserbart. Modellen gir deg ikke svar fra «minne», men er basert på dataene i selve filen. Hvis du ikke kan tro det, kan du også åpne filen og ta en titt. Sammenlignbar. Utgangen av én kommando kan brukes som inngang for neste kommando, og når pipelinen er koblet til, kan komplekse oppgaver deles opp i enkle trinn. Bash tar agenten fra «hjernematematikk» til «drafting». Utkast kan rettes, sjekkes og korrigeres. Dette er for viktig for oppgaver som krever nøyaktighet. E-postsøk er bare det mest intuitive eksempelet. Bashs muligheter er faktisk svært omfattende. Kjedede API-kall er et vanlig krav. For eksempel «finn ut alle kontaktene jeg har sendt e-post til denne uken», som krever at man først henter e-postlisten, henter ut mottakere, dedupliserer, og deretter spør om kontaktinformasjonen én etter én. En serie operasjoner utføres av verktøykall, som kalles ofte, og mellomtilstanden er vanskelig å håndtere. Ved å sette sammen Bash-skript er logikken mye klarere. Video- og filhåndtering er også Bashs sterke sider. FFMPEG er et kommandolinjeverktøy som er lett å bruke. Finn et bestemt klipp i videoen, beskjær, transkod, og gjør det med én kommando. Det finnes også tidsbestemte oppdrag. I containeren som kjøres av agenten, kan du opprette en planlagt oppgave med cronjob eller på kommando. Hvis en bruker sier: «Send meg et nyhetssammendrag hver morgen klokken 08,00 kan agenten stille sin egen alarm. Disse scenarioene har én ting til felles: de krever alle flertrinnsoperasjoner, og begge må lagre mellomliggende tilstander, noe som er utenfor kapasiteten til et enkelt verktøykall. Men Bash er et tveegget sverd. Å kunne utføre ordre betyr å kunne gjøre mange ting, og det betyr også å kunne gjøre mange farlige ting. RM -RF kan slette hele katalogen hvis du ikke er forsiktig. Hvis en agent blir angrepet av en ondsinnet prompt, kan konsekvensene bli alvorlige. Anthropic tar tydelig hensyn til dette. De bygde et tillatelsessystem i Claude Agent SDK, inkludert Bash-kommandoparser og hierarkisk tillatelseskontroll. Hvilke kommandoer som kan utføres direkte, hvilke som krever brukerbekreftelse, og hvilke som er helt forbudt, kan konfigureres. Min erfaring med Claude Code er at dette tillatelsessystemet virkelig reduserer den psykologiske belastningen. Den vil spørre deg før du utfører sensitive handlinger, i stedet for bare å tørke hodet. Men sikkerhetssikringer er ikke en universalløsning. Selve tillatelsessystemet kan også være sårbart, og Bash-parseren kan også omgås. Sikkerhetsbarrierer er nødvendige, men du kan ikke bare føle at alt er i orden. For å understreke fordelene med Bash er det også nødvendig å klargjøre grensene. Hvis oppgaven er enkel nok, ikke bruk den. For en engangsforespørsel som «Hvordan er været i dag?» kan du justere API-et direkte for å returnere resultatet, og det er ikke nødvendig å lagre filer før behandling. Å drepe kyllinger med en slakterkniv går tregere. Hvis miljøet er serverløst, brukes det ikke. Mange skyfunksjoner kjører uten et vedvarende filsystem, og Bashs fordel med å «lagre mellomliggende resultater» er borte. Bruk med forsiktighet hvis sikkerhetskravene er svært høye. Risikoen for kommandoinjeksjon kan ikke elimineres 100 %, og scenarier som finans og helsevesen kan være mer egnet for hvitelisting av spesialiserte verktøy enn generelle Bash. Valget av verktøy avhenger av situasjonen, ikke styrken til selve verktøyet. Bash er sterkt, men ikke for alle anledninger. Når jeg ser tilbake, er den virkelige verdien av Thariqs råd ikke konklusjonen om at «Bash er sterk», men tankegangen bak det: La agentens tankegang "lande" på et inspekterbart mellomprodukt. Det tradisjonelle agentdesignet presser alt inn i modellens kontekst og kjøper og selger med hammer. Bash tilbyr en alternativ vei: å ta komplekse oppgaver fra hverandre, etterlate spor på hvert steg, verifiserbare og bakovervendte. Tenk på det, dette ligner på måten mennesker håndterer komplekse problemer på. Når vi gjør komplekse beregninger, lager vi vertikale kolonner, når vi skriver lange artikler, lager vi først en disposisjon, og når vi behandler store mengder informasjon, tar vi notater. Ikke fordi hjernen ikke kan huske, men fordi det faller på papiret mer pålitelig og lettere å sjekke. Det samme gjelder agenter. Det er ikke slik at modellen ikke kan håndtere det, men prosessen med mellomprodukter er mer pålitelig. Jeg bruker agenten til å hjelpe til med skrivingen, og alle mellomprodukter lagres som filer: nettbasert søkemateriale, disposisjoner, utkast til ulike versjoner og oppgaver for tegning. Disse kan fleksibelt kombineres i fremtiden. Bash er ikke bare et verktøy for programmerere, men også en nøkkelkomponent i å gjøre agenter verifiserbare, reproduserbare og reviderbare.

Topp

Rangering

Favoritter