„Powinniście częściej używać Bash.” W ciągu ostatnich kilku tygodni Thariq z Anthropic prowadził telekonferencje z dziesiątkami firm zajmujących się ogólną inteligencją. Asystenci e-mail, chatboty, zarządzanie harmonogramem - różne formy produktów są dostępne. Po rozmowie zauważył, że wielokrotnie powtarzał tę samą frazę. Bash? Czy to nie jest narzędzie wiersza poleceń używane przez programistów, które ma związek z tymi produktami? Najpierw przyjrzyjmy się konkretnemu scenariuszowi. Załóżmy, że masz agenta e-mailowego i pytasz go: „Ile pieniędzy wydałem na przejazdy w tym tygodniu?” Tradycyjne podejście wygląda tak: Agent wywołuje API, aby pobrać e-maile, być może pobierając 100 wiadomości na raz, a następnie model przeszukuje je w poszukiwaniu paragonów Ubera i Lyfta, sumując kwoty. Problem polega na tym, że 100 e-maili wprowadzonych do kontekstu sprawia, że model musi jednocześnie zapamiętać te treści, przefiltrować je i obliczyć. To nie jest łatwe dla dużych modeli językowych. Łatwo coś przeoczyć, łatwo się pomylić, a ponadto nie możesz zweryfikować, które e-maile zostały rzeczywiście przeczytane. To typowy problem strefy komfortu modelu: ilość danych nie jest na tyle duża, aby wymagała specjalnego pisania programów, ale przekracza zdolności modelu do jednorazowego przetwarzania. Utknęliśmy w martwym punkcie. Rozwiązanie Thariqa polega na tym, aby dać agentowi narzędzie Bash, które pozwoli mu zapisać wyniki pośrednie w pliku. Brzmi prosto, ale logika stojąca za tym jest interesująca. Tradycyjne wywołanie narzędzi wygląda tak: Narzędzie → Przetwarzanie modelu → Wynik Wszystkie stany pośrednie są w „umysłach” modelu, nie możesz ich zobaczyć ani sprawdzić. Po zamianie na Bash proces się zmienia: Narzędzie → Zapisz plik → Wyszukiwanie/filtracja → Przetwarzanie modelu → Wynik ...