Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NOVÝ výzkum od Applu.
Když se nad tím zamyslíte, systémy RAG jsou zásadně rozbité. Vyhledávání a generování jsou optimalizovány odděleně, vyhledávání vybírá dokumenty na základě povrchové podobnosti, zatímco generátory vytvářejí odpovědi bez zpětné vazby o tom, jaké informace jsou skutečně potřeba.
Existuje architektonický nesoulad.
Husté retrievery řadí dokumenty v prostoru pro vložení, zatímco generátory spotřebovávají surový text. To vytváří nekonzistentní prostory reprezentace, které brání end-to-end optimalizaci, redundantní zpracování textu způsobující přetečení kontextu a duplicitní kódování jak pro vyhledávání, tak pro generování.
Tento nový výzkum představuje CLaRa, jednotný rámec, který provádí vyhledávání a generování přes sdílené kontinuální reprezentace dokumentů.
Dokumenty kódují jednou do kompaktních reprezentací paměťových tokenů, které slouží oběma účelům. Místo udržování samostatných embeddingů a surového textu jsou dokumenty komprimovány do hustých vektorů, na kterých přímo pracují jak retrívr, tak generátor.
To umožňuje něco, co bylo dříve nemožné: gradienty proudící z generátoru zpět k retrívru přes diferencovatelný top-k volič pomocí odhadu Straight-Through. Retrívr se učí, které dokumenty skutečně podporují generování odpovědí, místo aby se spoléhal na povrchovou podobnost.
Aby komprese fungovala, zavádějí SCP, předtréninkový rámec, který syntetizuje QA páry a parafrázuje, aby kompresor naučil, které informace jsou nezbytné. Jednoduché QA zachycuje atomární fakta, komplexní QA podporuje relační uvažování a parafráze zachovává sémantiku, zatímco mění povrchovou formu.
Výsledky:
Při 16násobné kompresi CLaRa-Mistral-7B překonává textový DRO-Mistral-7B na NQ (51,41 vs 51,01 F1) a 2Wiki (47,18 vs 43,65 F1), přičemž zpracovává mnohem méně kontextu. Při 4x kompresi překračuje průměr nekomprimovaného textu o 2,36 % na Mistral-7B.
Nejvýrazněji CLaRa trénovaná pouze s slabým dohledem z predikce dalšího tokenu překonává plně dozorované retrievery s ground-truthe relevance štítky. Na HotpotQA dosahuje 96,21 % Recall@5, což překoná BGE-Reranker (85,93 %) o více než 10 bodů, přestože nepoužívá žádná anotovaná data relevance.
Dobře trénovaná měkká komprese dokáže zachovat důležité informace o uvažování a zároveň výrazně zkrátit délku vstupu. Komprimované reprezentace filtrují irelevantní obsah a zaměřují generátor na kontext relevantní pro uvažování, což vede k lepšímu zobecnění než surové textové vstupy.
Skvělá četba pro vývojáře AI. (ulož si to)
Článek:
Naučte se stavět s RAG a AI agenty na mé akademii:

Top
Hodnocení
Oblíbené
