Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Budowanie za pomocą agentów AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Dzielę się spostrzeżeniami na temat budowania za pomocą LLM i agentów ⬇️ AI
Jak zastosować skuteczne inżynierie kontekstu dla agentów AI?
Przeczytaj to, jeśli jesteś deweloperem AI budującym agentów AI dzisiaj.
Kontekst jest najważniejszy! I musi być inżynieryjnie zaprojektowany, a nie tylko wywoływany.
Napisałem kilka notatek po przeczytaniu wspaniałego nowego przewodnika po inżynierii kontekstu od Anthropic:
Inżynieria kontekstu vs. inżynieria podpowiedzi
- Inżynieria podpowiedzi = pisanie i organizowanie instrukcji
- Inżynieria kontekstu = kuracja i utrzymanie podpowiedzi, narzędzi, historii,
i danych zewnętrznych
- Inżynieria kontekstu jest iteracyjna, a kontekst jest regularnie kuratowany
Dlaczego inżynieria kontekstu ma znaczenie?
- Ograniczony budżet uwagi
- Zjawisko "kontext rot" występuje, gdy kontekst staje się zbyt duży; inżynieria kontekstu pomaga
- Cel: kuracja i utrzymanie minimalnej liczby wysokosygnałowych tokenów
Anatomia skutecznego kontekstu
- Podpowiedzi systemowe: jasne, na odpowiedniej wysokości (nie za szczegółowe ani za ogólne)
- Narzędzia: utrzymuj narzędzia na minimalnym poziomie, używaj opisowych parametrów i dąż do
wydajności tokenów
- Przykłady Few-Shot: dostarczaj różnorodne, kanoniczne przykłady pożądanych zachowań
- Historia wiadomości: agresywnie przycinaj
Strategie pozyskiwania kontekstu
- Pre-retrieval vs just-in-time; następuje przesunięcie w kierunku agentowego wyszukiwania
- Używaj lekkich referencji (ścieżki plików, zapisane zapytania) do dynamicznego ładowania
kontekstu w czasie rzeczywistym
- Umożliwiaj stopniowe odkrywanie odpowiedniego kontekstu poprzez eksplorację
- Hybrydowa strategia wyszukiwania: wstępne ładowanie + dynamiczne pozyskiwanie
Inżynieria kontekstu dla zadań długoterminowych
- Kompaktowanie: podsumowuj i resetuj kontekst w miarę realizacji podzadań
- Strukturalne notowanie: używaj trwałej pamięci zewnętrznej (dzienniki, listy zadań)
- Pod-agenci: koordynator planuje, a pod-agenci wykonują zadania z własnymi oknami kontekstu, które są następnie podsumowywane
Uważam, że to są fundamenty budowania skalowalnych, niezawodnych pipeline'ów kontekstowych dla agentów AI. Ale jest o wiele więcej do tego. Jestem pewien, że w miarę upływu czasu pojawią się bardziej skuteczne strategie.

11,55K
Jak skuteczniej trenować małe modele rozumowania?
To problem, z którym boryka się wielu deweloperów AI. Dostosowywanie RL, w ogólności, ma tendencję do plateau, szczególnie w przypadku modeli 1–2B.
Myślę, że DeepSearch oferuje naprawdę czyste podejście w tej kwestii. Przenosi ideę Monte Carlo Tree Search (MCTS) z wnioskowania do pętli treningowej. Ta zmiana odblokowuje lepsze eksploracje i bardziej efektywne uczenie się.
Oto moje notatki z artykułu:
Pętla obejmuje cztery kluczowe pomysły:
Szukając podczas treningu: Zamiast tylko przeprowadzać wyszukiwanie w czasie testu, MCTS jest uruchamiane podczas treningu RL. Lokalny selektor UCT ocenia rodzeństwo, podczas gdy globalny oceniacz granicy wybiera obiecujące liście w całym drzewie na podstawie wartości rodzica, entropii i głębokości.
Uczenie się zarówno z wygranych, jak i pewnych błędów: Jeśli poprawne rozwiązanie nie zostanie znalezione, model nadal uczy się, nadzorując pewną błędną ścieżkę (najmniej entropijne błędy). Poprawne ścieżki pozostają nieujemne podczas aktualizacji, co pomaga w przypisywaniu zasług na poziomie kroków.
Stabilizacja RL z Tree-GRPO: Udoskonalają cele w stylu PPO z wartościami q na poziomie węzłów, normalizacją tylko średnią i strategią miękkiego przycinania. To unika eksplozji nagród, jednocześnie utrzymując gradienty informacyjne.
Zachowanie efektywności: Aby ograniczyć marnowanie obliczeń, DeepSearch filtruje do twardego podzbioru problemów, buforuje rozwiązania po ich weryfikacji i pomija pełne wyszukiwanie, gdy odpowiedź jest już znana.
Wszystkie te ulepszenia prowadzą do silnych wyników.
DeepSearch-1.5B osiąga 62,95% w benchmarkach AIME/AMC, bijąc najlepszą bazę Nemotron, używając tylko ~330 godzin GPU. Dla porównania, normalne treningi RL plateaują na niższym poziomie, nawet przy 1,800+ godzinach GPU.
Artykuł:
Myślę, że ten artykuł oferuje praktyczny przepis na przełamanie plateau w małych modelach rozumowania:
• Przenieś wyszukiwanie do treningu, a nie tylko do wnioskowania
• Nadzoruj zarówno poprawne, jak i błędne ścieżki
• Użyj globalnej priorytetyzacji, aby eksplorować mądrzej
• Buforuj i filtruj, aby utrzymać wysoką efektywność

6,22K
Najlepsze
Ranking
Ulubione