NOVÝ výzkum od Applu. Když se nad tím zamyslíte, systémy RAG jsou zásadně rozbité. Vyhledávání a generování jsou optimalizovány odděleně, vyhledávání vybírá dokumenty na základě povrchové podobnosti, zatímco generátory vytvářejí odpovědi bez zpětné vazby o tom, jaké informace jsou skutečně potřeba. Existuje architektonický nesoulad. Husté retrievery řadí dokumenty v prostoru pro vložení, zatímco generátory spotřebovávají surový text. To vytváří nekonzistentní prostory reprezentace, které brání end-to-end optimalizaci, redundantní zpracování textu způsobující přetečení kontextu a duplicitní kódování jak pro vyhledávání, tak pro generování. Tento nový výzkum představuje CLaRa, jednotný rámec, který provádí vyhledávání a generování přes sdílené kontinuální reprezentace dokumentů. Dokumenty kódují jednou do kompaktních reprezentací paměťových tokenů, které slouží oběma účelům. Místo udržování samostatných embeddingů a surového textu jsou dokumenty komprimovány do hustých vektorů, na kterých přímo pracují jak retrívr, tak generátor. To umožňuje něco, co bylo dříve nemožné: gradienty proudící z generátoru zpět k retrívru přes diferencovatelný top-k volič pomocí odhadu Straight-Through. Retrívr se učí, které dokumenty skutečně podporují generování odpovědí, místo aby se spoléhal na povrchovou podobnost. Aby komprese fungovala, zavádějí SCP, předtréninkový rámec, který syntetizuje QA páry a parafrázuje, aby kompresor naučil, které informace jsou nezbytné. Jednoduché QA zachycuje atomární fakta, komplexní QA podporuje relační uvažování a parafráze zachovává sémantiku, zatímco mění povrchovou formu. Výsledky: Při 16násobné kompresi CLaRa-Mistral-7B překonává textový DRO-Mistral-7B na NQ (51,41 vs 51,01 F1) a 2Wiki (47,18 vs 43,65 F1), přičemž zpracovává mnohem méně kontextu. Při 4x kompresi překračuje průměr nekomprimovaného textu o 2,36 % na Mistral-7B. Nejvýrazněji CLaRa trénovaná pouze s slabým dohledem z predikce dalšího tokenu překonává plně dozorované retrievery s ground-truthe relevance štítky. Na HotpotQA dosahuje 96,21 % Recall@5, což překoná BGE-Reranker (85,93 %) o více než 10 bodů, přestože nepoužívá žádná anotovaná data relevance. Dobře trénovaná měkká komprese dokáže zachovat důležité informace o uvažování a zároveň výrazně zkrátit délku vstupu. Komprimované reprezentace filtrují irelevantní obsah a zaměřují generátor na kontext relevantní pro uvažování, což vede k lepšímu zobecnění než surové textové vstupy. Skvělá četba pro vývojáře AI. (ulož si to) Článek: Naučte se stavět s RAG a AI agenty na mé akademii: