Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Budowanie za pomocą agentów AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Dzielę się spostrzeżeniami na temat budowania za pomocą LLM i agentów ⬇️ AI
Profesjonalni programiści nie podążają za trendami, oni kontrolują
Kodowanie w stylu "vibe" nie jest tym, jak doświadczeni programiści faktycznie korzystają z agentów AI.
Termin ten zyskał na popularności w sieci. Praktycy opisują doświadczenie przepływu i radości, w pełni ufając AI, zapominając o istnieniu kodu i nigdy nie przeglądając różnic.
Ale co właściwie robią profesjonaliści z wieloletnim doświadczeniem?
Niniejsze badanie bada to poprzez obserwacje w terenie (N=13) oraz jakościowe ankiety (N=99) doświadczonych programistów z 3 do 41 lat doświadczenia zawodowego.
Kluczowe odkrycie: profesjonaliści nie podążają za trendami. Oni kontrolują.
100% obserwowanych programistów kontrolowało projektowanie i wdrażanie oprogramowania, niezależnie od znajomości zadania. 50 z 99 respondentów ankiety wspomniało o samodzielnym prowadzeniu wymagań architektonicznych. Średnio programiści modyfikują kod generowany przez agenta około połowy czasu.
Jak kontrolują? Poprzez szczegółowe wskazówki z wyraźnym kontekstem i explicitnymi instrukcjami (12x obserwacji, 43x ankieta). Poprzez plany zapisane w zewnętrznych plikach z ponad 70 krokami, które są realizowane tylko 5-6 kroków na raz. Poprzez zasady użytkownika, które egzekwują specyfikacje projektu i poprawne zachowanie agenta na podstawie wcześniejszych interakcji.
Co działa z agentami? Małe, proste zadania (33:1 stosunek odpowiednich do nieodpowiednich). Nudna, powtarzalna praca (26:0). Szablony i kod bazowy (25:0). Podążanie za dobrze zdefiniowanymi planami (28:2). Pisanie testów (19:2) i dokumentacji (20:0).
Co się nie udaje? Złożone zadania wymagające wiedzy z danej dziedziny (3:16). Logika biznesowa (2:15). Jednorazowe pisanie kodu bez modyfikacji (5:23). Integracja z istniejącym lub starszym kodem (3:17). Zastępowanie ludzkiego podejmowania decyzji (0:12).
Programiści ocenili przyjemność na 5.11/6 w porównaniu do pracy bez agentów. Ale przyjemność pochodzi z współpracy, a nie delegowania. Jak powiedział jeden z programistów: "Robię wszystko z pomocą, ale nigdy nie pozwalam agentowi być całkowicie autonomicznym. Zawsze czytam wyniki i kieruję."
Różnica między twierdzeniami w mediach społecznościowych o autonomicznych grupach agentów a rzeczywistą praktyką zawodową jest wyraźna. Doświadczeni programiści odnoszą sukcesy, traktując agentów jako kontrolowanych współpracowników, a nie autonomicznych pracowników.
Artykuł:
Naucz się budować skuteczne agenty AI w naszej akademii:

358
To szalone, jak dobrym narzędziem jest Claude-in-Chrome.
Używam tego narzędzia domyślnie, aby naprawić wszystkie problemy z projektem w Claude Code. Naprawia 100% problemów z projektem.
Nawet nie zawracam sobie głowy naprawianiem problemów z projektem samodzielnie. Teraz po prostu kolejkowałem je, aby Claude Code naprawił je automatycznie za jednym razem.

12
Jedno narzędzie wystarczy.
Podczas budowania agentów AI, więcej narzędzi często prowadzi do większej liczby punktów awarii.
Niniejsze badania wprowadzają RepoNavigator, agenta LLM wyposażonego w jedno narzędzie świadome wykonania: jump. Pobiera definicję dowolnego symbolu w danym pliku, odzwierciedlając rzeczywistą semantykę wykonania kodu.
Okazuje się, że jedno zdolne narzędzie przewyższa wiele narzędzi o wąskim zakresie, wykonywanych w sekwencji.
RepoNavigator jest trenowany end-to-end za pomocą RL bezpośrednio z wstępnie wytrenowanych modeli Qwen, bez potrzeby destylacji zamkniętoźródłowej. Nagroda łączy dokładność lokalizacji (wskaźnik Dice) z wskaźnikiem sukcesu wywołania narzędzia.
Na SWE-bench Verified, model 7B przewyższa podstawy 14B. Model 14B przewyższa konkurentów 32B. Model 32B przewyższa Claude-3.7-Sonnet.
Zakres dostępu "jump" jest z natury mniejszy niż pełne repozytorium. Poprzez rekurencyjne rozwiązywanie odniesień symboli z punktu wejścia, narzędzie przeszukuje tylko semantycznie istotne ścieżki kodu. Ta ograniczona przestrzeń wyszukiwania zapewnia wyższą precyzję bez poświęcania przypomnienia.
Ablacje potwierdzają, że dodanie narzędzi takich jak GetClass, GetFunc i GetStruc faktycznie obniża wydajność. IoU spada z 24,28% przy samym jump do 13,71% przy wszystkich czterech narzędziach.
Projektowanie narzędzi dla agentów powinno priorytetować zdolności nad ilością. Jedno narzędzie świadome wykonania, wspólnie optymalizowane z RL, zapewnia większą odporność niż wielonarzędziowe pipeline'y.

205
Najlepsze
Ranking
Ulubione
