Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Budowanie za pomocą agentów AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Dzielę się spostrzeżeniami na temat budowania za pomocą LLM i agentów ⬇️ AI
Długie zrozumienie wideo łamie większość multimodalnych LLM-ów.
Domyślne podejście do przetwarzania godzinnych filmów polega na kompresji treści do stratnych podsumowań lub agresywnym zmniejszaniu liczby klatek.
Przesuwa to obciążenie rozumowania temporalnego na wczesny, nieodwracalny etap. Szczegółowe dowody giną, zanim model zacznie rozumować.
Ale co jeśli model mógłby aktywnie decydować, co obserwować, kiedy pytać o szczegóły i kiedy zgromadził wystarczająco dowodów?
Te nowe badania wprowadzają LongVideoAgent, ramy wieloagentowe, w których główny LLM koordynuje wyspecjalizowane agenty zamiast pasywnie kodować wszystko z góry.
Rozumowanie agentowe pozwala modelom skupić się na istotnych klipach i zbierać ukierunkowane dowody, zamiast liczyć na to, że odpowiednie informacje przetrwają kompresję.
Architektura ma trzy komponenty. Główny agent zajmuje się rozumowaniem i decyduje, jakie działania podjąć na każdym kroku. Agent lokalizacyjny lokalizuje segmenty związane z pytaniem w pełnej osi czasu odcinka. Agent wizji wyodrębnia ukierunkowane obserwacje z konkretnych klatek w tych segmentach.
Główny agent działa przez maksymalnie K kroków, emitując dokładnie jedno zorganizowane działanie na turę: żądanie lokalizacji, zapytanie o szczegóły wizualne lub odpowiedź. Wynik każdego działania zasila kontekst dla następnej decyzji. Gdy zgromadzi się wystarczająca ilość dowodów, główny agent produkuje ostateczną odpowiedź.
RL uczy głównego agenta, kiedy eksplorować, a kiedy przestać. Szkolenie GRPO wykorzystuje dwie proste nagrody: ważność strukturalną dla dobrze uformowanych działań i poprawność odpowiedzi przy zakończeniu. Ten minimalny cel prowadzi do zorganizowanej koordynacji wieloetapowej bez gęstej superwizji.
Na LongTVQA i LongTVQA+, benchmarki na poziomie odcinka zebrane z TVQA, podejście agentowe konsekwentnie przewyższa nie-agentowe podstawy. GPT5-mini skacze z 62,4% do 71,1% z ramą wieloagentową. Qwen2.5-3B poprawia się z 23,5% do 47,4% po szkoleniu RL, niemal podwajając wydajność. Nawet DeepSeek-R1-671B zyskuje na projektowaniu agentowym.
Sama lokalizacja przewyższa nie-agentową podstawę na poziomie 69,0% w porównaniu do 64,3%, a dodanie wizji zwiększa dokładność do 74,8%.
Artykuł:
Naucz się budować skuteczne agenty AI w naszej akademii:

"Coraz częściej kod nie jest już wąskim gardłem."
Jestem w pełni przekonany, że Claude Code był rzeczywiście momentem przełomowym.
To prymityw, jakiego programiści nigdy wcześniej nie widzieli.
To inteligentny orkiestrator zdolny do kodowania i nie tylko.
I to wciąż dopiero początek.

Boris Cherny27 gru, 20:11
Kiedy stworzyłem Claude Code jako projekt poboczny we wrześniu 2024 roku, nie miałem pojęcia, że rozwinie się w to, czym jest dzisiaj. To pokorniejące widzieć, jak Claude Code stał się podstawowym narzędziem deweloperskim dla tak wielu inżynierów, jak entuzjastyczna jest społeczność i jak ludzie używają go do różnych rzeczy, od kodowania, przez devops, po badania i przypadki użycia nietechniczne. Ta technologia jest obca i magiczna, a dzięki niej znacznie łatwiej jest ludziom budować i tworzyć. Coraz częściej kod nie jest już wąskim gardłem.
Rok temu Claude miał problemy z generowaniem poleceń bash bez problemów z ucieczką. Działał przez sekundy lub minuty. Zauważyliśmy wczesne oznaki, że może pewnego dnia stać się szeroko użyteczny do kodowania.
Przenieśmy się do dzisiaj. W ciągu ostatnich trzydziestu dni zrealizowałem 259 PR-ów -- 497 commitów, 40 tys. linii dodanych, 38 tys. linii usuniętych. Każda linia została napisana przez Claude Code + Opus 4.5. Claude konsekwentnie działa przez minuty, godziny i dni (używając Stop hooks). Inżynieria oprogramowania się zmienia, a my wkraczamy w nowy okres w historii kodowania. A dopiero zaczynamy..

72
Rozumiem, skąd pochodzi Karpathy.
Szczerze mówiąc, rzadkość i szybki postęp wcale mnie nie niepokoją.
Staraj się nie traktować tego jak wyścigu.
Teraz jest to szeroko otwarte, a kreatywne rozwiązania i przepływy pracy mogą pochodzić z każdego miejsca i od każdego.
I to nie dzieje się tylko w kodowaniu, ale także w badaniach i wielu dziedzinach wymagających dużej wiedzy.
Spędzasz kilka godzin na Claude Code i szybko zdajesz sobie sprawę, jak dużo bardziej zdolny jesteś, niż myślałeś. To mnie napędza.
To także dobra okazja, aby zagłębić się w obszary, na które w przeciwnym razie nie miałbyś czasu.
Ekspertyza w danej dziedzinie to mnożnik siły.
Zachęcam ludzi do dalszego eksperymentowania i dzielenia się notatkami.
Spędzaj przynajmniej 2 godziny dziennie na zabawie z narzędziami takimi jak Claude Code.
Staraj się budować systemy, które kumulują się z czasem. Zawsze myśl o tym, jak wprowadzić najlepszy kontekst dla agentów.
Inżynieria kontekstu to miejsce, w którym gra się zaostrza, a dosłownie każdy może wnieść swój wkład.
Wszyscy próbujemy to zrozumieć.
Po prostu miej otwarty umysł.
Zacieśnione społeczności są ważniejsze niż kiedykolwiek.
Ale najważniejsze, buduj, buduj i buduj.

Andrej Karpathy27 gru, 01:36
Nigdy nie czułem się tak bardzo w tyle jako programista. Zawód jest dramatycznie przekształcany, ponieważ wkład programisty staje się coraz bardziej rzadki i rozproszony. Mam wrażenie, że mógłbym być 10 razy bardziej wydajny, gdybym tylko odpowiednio połączył to, co stało się dostępne w ciągu ostatniego ~roku, a brak umiejętności, by to wykorzystać, wydaje się zdecydowanie problemem ze zdolnościami. Pojawiła się nowa programowalna warstwa abstrakcji do opanowania (oprócz zwykłych warstw poniżej), obejmująca agentów, podagentów, ich polecenia, konteksty, pamięć, tryby, uprawnienia, narzędzia, wtyczki, umiejętności, haki, MCP, LSP, polecenia slash, przepływy pracy, integracje IDE oraz potrzebę zbudowania wszechstronnego modelu mentalnego dla mocnych i słabych stron zasadniczo stochastycznych, omylnych, nieczytelnych i zmieniających się bytów, które nagle mieszają się z tym, co kiedyś było tradycyjnym inżynierią. Wyraźnie przekazano jakieś potężne obce narzędzie, ale nie ma do niego instrukcji, a wszyscy muszą dowiedzieć się, jak je trzymać i obsługiwać, podczas gdy wynikająca z tego trzęsienie ziemi o magnitudzie 9 wstrząsa zawodem. Zakasać rękawy, aby nie zostać w tyle.
105
Najlepsze
Ranking
Ulubione
