Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

宝玉

Prompt Engineer, zajmujący się uczeniem się i rozpowszechnianiem wiedzy na temat sztucznej inteligencji, inżynierii oprogramowania i zarządzania inżynierskiego.

„Powinniście częściej używać Bash.” W ciągu ostatnich kilku tygodni Thariq z Anthropic prowadził telekonferencje z dziesiątkami firm zajmujących się ogólną inteligencją. Asystenci e-mail, chatboty, zarządzanie harmonogramem - różne formy produktów są dostępne. Po rozmowie zauważył, że wielokrotnie powtarzał tę samą frazę. Bash? Czy to nie jest narzędzie wiersza poleceń używane przez programistów, które ma związek z tymi produktami? Najpierw przyjrzyjmy się konkretnemu scenariuszowi. Załóżmy, że masz agenta e-mailowego i pytasz go: „Ile pieniędzy wydałem na przejazdy w tym tygodniu?” Tradycyjne podejście wygląda tak: Agent wywołuje API, aby pobrać e-maile, być może pobierając 100 wiadomości na raz, a następnie model przeszukuje je w poszukiwaniu paragonów Ubera i Lyfta, sumując kwoty. Problem polega na tym, że 100 e-maili wprowadzonych do kontekstu sprawia, że model musi jednocześnie zapamiętać te treści, przefiltrować je i obliczyć. To nie jest łatwe dla dużych modeli językowych. Łatwo coś przeoczyć, łatwo się pomylić, a ponadto nie możesz zweryfikować, które e-maile zostały rzeczywiście przeczytane. To typowy problem strefy komfortu modelu: ilość danych nie jest na tyle duża, aby wymagała specjalnego pisania programów, ale przekracza zdolności modelu do jednorazowego przetwarzania. Utknęliśmy w martwym punkcie. Rozwiązanie Thariqa polega na tym, aby dać agentowi narzędzie Bash, które pozwoli mu zapisać wyniki pośrednie w pliku. Brzmi prosto, ale logika stojąca za tym jest interesująca. Tradycyjne wywołanie narzędzi wygląda tak: Narzędzie → Przetwarzanie modelu → Wynik Wszystkie stany pośrednie są w „umysłach” modelu, nie możesz ich zobaczyć ani sprawdzić. Po zamianie na Bash proces się zmienia: Narzędzie → Zapisz plik → Wyszukiwanie/filtracja → Przetwarzanie modelu → Wynik Model może najpierw zapisać 100 e-maili w pliku, a następnie użyć grep do wyszukiwania „Uber”, a potem grep do „Lyft”, aby zliczyć osobno. Każdy krok jest możliwy do sprawdzenia, a podczas sumowania może wrócić i sprawdzić swoje wyniki pośrednie. To przynosi trzy ulepszenia możliwości: Możliwość reprodukcji. Powtórzenie tego samego polecenia daje ten sam wynik. Możesz debugować, możesz rozwiązywać problemy. Możliwość weryfikacji. Model nie daje ci odpowiedzi na podstawie „pamięci”, ale na podstawie danych z rzeczywistego pliku. Jeśli nie ufasz, możesz sam otworzyć plik i rzucić okiem. Możliwość kombinacji. Wynik jednego polecenia może być użyty jako wejście do następnego polecenia, a połączenie ich w rurociąg pozwala na rozbicie złożonych zadań na proste kroki. Bash przekształca agenta z „obliczeń umysłowych” w „robienie szkiców”. Szkice mogą pozostawiać ślady, mogą być sprawdzane, mogą być zmieniane. To jest niezwykle ważne w zadaniach wymagających dokładności. Wyszukiwanie e-maili to tylko najbardziej oczywisty przykład. Granice możliwości Bash są w rzeczywistości bardzo szerokie. Łańcuchowe wywołania API to powszechna potrzeba. Na przykład „znajdź wszystkich kontaktów, do których wysłałem e-maile w tym tygodniu”, co wymaga najpierw pobrania listy e-maili, wyodrębnienia odbiorców, usunięcia duplikatów, a następnie indywidualnego sprawdzenia szczegółów kontaktów. Cała ta seria operacji wykonana za pomocą wywołań narzędziowych, z wieloma wywołaniami, trudna do zarządzania w stanach pośrednich. Użycie skryptu Bash do połączenia ich sprawia, że logika jest znacznie jaśniejsza. Przetwarzanie wideo i plików to również mocna strona Bash. Narzędzie wiersza poleceń ffmpeg jest łatwe w użyciu dla modelu. Znalezienie konkretnego fragmentu w wideo, przycinanie, transkodowanie - wszystko to można załatwić jednym poleceniem. Są też zadania cykliczne. W kontenerze, w którym działa agent, można użyć poleceń cronjob lub at do tworzenia zadań do wykonania w określonym czasie. Użytkownik mówi: „Codziennie o 8 rano wyślij mi podsumowanie wiadomości”, a agent może sam ustawić alarm. Te scenariusze mają wspólną cechę: wymagają operacji wieloetapowych, wymagają zapisywania stanów pośrednich, przekraczają zdolności jednorazowego wywołania narzędzia. Ale Bash to podwójny miecz. Możliwość wykonywania poleceń oznacza, że można robić wiele rzeczy, ale także oznacza, że można robić wiele niebezpiecznych rzeczy. rm -rf, jeśli nieostrożnie, może usunąć cały katalog. Jeśli agent zostanie zaatakowany przez złośliwe polecenia, konsekwencje mogą być poważne. Anthropic wyraźnie wzięło to pod uwagę. W ich SDK Claude Agent wprowadzili system uprawnień, w tym parser poleceń Bash i kontrolę uprawnień na poziomie. Można skonfigurować, które polecenia mogą być wykonywane bezpośrednio, które wymagają potwierdzenia użytkownika, a które są całkowicie zabronione. Moje doświadczenie z Claude Code pokazuje, że ten system uprawnień rzeczywiście zmniejsza obciążenie psychiczne. Zapyta cię przed wykonaniem wrażliwych operacji, a nie po prostu zacznie działać. Ale zabezpieczenia nie są panaceum. Sam system uprawnień może mieć luki, a parser Bash może być również obejściem. Zabezpieczenia są niezbędne, ale nie można na tym polegać, myśląc, że wszystko jest w porządku. Podkreślając zalety Bash, należy również wyraźnie określić jego granice. Jeśli zadanie jest wystarczająco proste, nie używaj. „Jakie jest dzisiaj pogoda?” to jednorazowe zapytanie, wystarczy wywołać API, aby zwrócić wynik, nie ma potrzeby zapisywania pliku i przetwarzania. Użycie młota do zabicia muchy jest wręcz wolniejsze. Jeśli środowisko jest bezserwerowe, nie można go użyć. Wiele funkcji chmurowych nie ma trwałego systemu plików, więc przewaga „zapisywania wyników pośrednich” Bash znika. Jeśli wymagania dotyczące bezpieczeństwa są bardzo wysokie, używaj ostrożnie. Ryzyko wstrzyknięcia poleceń nie może być w 100% wyeliminowane, a scenariusze takie jak finanse czy medycyna mogą być bardziej odpowiednie do użycia narzędzi specjalnych z białą listą, a nie ogólnego Bash. Wybór narzędzi zależy od scenariusza, a nie od siły samego narzędzia. Bash jest potężny, ale nie wszędzie powinien być używany. Patrząc wstecz, prawdziwa wartość rady Thariqa nie polega na stwierdzeniu „Bash jest potężny”, ale na sposobie myślenia, który za tym stoi: Pozwól, aby proces myślenia agenta „wylądował” w możliwych do sprawdzenia produktach pośrednich. Tradycyjny projekt agenta wkłada wszystko do kontekstu modelu, co jest jednorazowym działaniem. Bash oferuje inną ścieżkę: rozdzielając złożone zadania, każdy krok pozostawia ślad, który można zweryfikować i prześledzić. Pomyśl o tym, jak bardzo przypomina to sposób, w jaki ludzie radzą sobie z złożonymi problemami. Kiedy wykonujemy złożone obliczenia, zapisujemy je w kolumnach, gdy piszemy długie artykuły, najpierw tworzymy zarys, a gdy przetwarzamy dużą ilość informacji, robimy notatki. Nie dlatego, że nie możemy zapamiętać, ale dlatego, że zapisanie ich na papierze jest bardziej niezawodne i łatwiejsze do sprawdzenia. Agent jest taki sam. Nie chodzi o to, że model nie może przetworzyć, ale że proces z produktami pośrednimi jest bardziej godny zaufania. Sam używam agenta do wspomagania pisania, wszystkie produkty pośrednie są zapisywane w plikach: materiały z wyszukiwania w sieci, zarys, różne wersje szkiców, podpowiedzi do rysowania. Te zapisy mogą być elastycznie łączone w przyszłości. Bash to nie tylko narzędzie dla programistów, ale także kluczowy element, który pozwala agentowi mieć zdolności do weryfikacji, reprodukcji i audytu.

Najlepsze

Ranking

Ulubione