Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Długie zrozumienie wideo łamie większość multimodalnych LLM-ów.
Domyślne podejście do przetwarzania godzinnych filmów polega na kompresji treści do stratnych podsumowań lub agresywnym zmniejszaniu liczby klatek.
Przesuwa to obciążenie rozumowania temporalnego na wczesny, nieodwracalny etap. Szczegółowe dowody giną, zanim model zacznie rozumować.
Ale co jeśli model mógłby aktywnie decydować, co obserwować, kiedy pytać o szczegóły i kiedy zgromadził wystarczająco dowodów?
Te nowe badania wprowadzają LongVideoAgent, ramy wieloagentowe, w których główny LLM koordynuje wyspecjalizowane agenty zamiast pasywnie kodować wszystko z góry.
Rozumowanie agentowe pozwala modelom skupić się na istotnych klipach i zbierać ukierunkowane dowody, zamiast liczyć na to, że odpowiednie informacje przetrwają kompresję.
Architektura ma trzy komponenty. Główny agent zajmuje się rozumowaniem i decyduje, jakie działania podjąć na każdym kroku. Agent lokalizacyjny lokalizuje segmenty związane z pytaniem w pełnej osi czasu odcinka. Agent wizji wyodrębnia ukierunkowane obserwacje z konkretnych klatek w tych segmentach.
Główny agent działa przez maksymalnie K kroków, emitując dokładnie jedno zorganizowane działanie na turę: żądanie lokalizacji, zapytanie o szczegóły wizualne lub odpowiedź. Wynik każdego działania zasila kontekst dla następnej decyzji. Gdy zgromadzi się wystarczająca ilość dowodów, główny agent produkuje ostateczną odpowiedź.
RL uczy głównego agenta, kiedy eksplorować, a kiedy przestać. Szkolenie GRPO wykorzystuje dwie proste nagrody: ważność strukturalną dla dobrze uformowanych działań i poprawność odpowiedzi przy zakończeniu. Ten minimalny cel prowadzi do zorganizowanej koordynacji wieloetapowej bez gęstej superwizji.
Na LongTVQA i LongTVQA+, benchmarki na poziomie odcinka zebrane z TVQA, podejście agentowe konsekwentnie przewyższa nie-agentowe podstawy. GPT5-mini skacze z 62,4% do 71,1% z ramą wieloagentową. Qwen2.5-3B poprawia się z 23,5% do 47,4% po szkoleniu RL, niemal podwajając wydajność. Nawet DeepSeek-R1-671B zyskuje na projektowaniu agentowym.
Sama lokalizacja przewyższa nie-agentową podstawę na poziomie 69,0% w porównaniu do 64,3%, a dodanie wizji zwiększa dokładność do 74,8%.
Artykuł:
Naucz się budować skuteczne agenty AI w naszej akademii:

Najlepsze
Ranking
Ulubione
