NOWE badania od Apple. Kiedy się nad tym zastanowisz, systemy RAG są zasadniczo wadliwe. Wyszukiwanie i generowanie są optymalizowane osobno, wyszukiwanie wybiera dokumenty na podstawie powierzchownej podobieństwa, podczas gdy generatory produkują odpowiedzi bez informacji zwrotnej na temat tego, jakie informacje są naprawdę potrzebne. Istnieje niezgodność architektoniczna. Gęste wyszukiwarki klasyfikują dokumenty w przestrzeni osadzeń, podczas gdy generatory konsumują surowy tekst. Tworzy to niespójne przestrzenie reprezentacji, które uniemożliwiają optymalizację end-to-end, redundantne przetwarzanie tekstu, które powoduje przepełnienie kontekstu, oraz zduplikowane kodowanie zarówno dla wyszukiwania, jak i generowania. Te nowe badania wprowadzają CLaRa, zintegrowaną ramę, która wykonuje wyszukiwanie i generowanie na wspólnych ciągłych reprezentacjach dokumentów. Kodują dokumenty raz w kompaktowych reprezentacjach pamięci-token, które służą obu celom. Zamiast utrzymywać oddzielne osadzenia i surowy tekst, dokumenty są kompresowane do gęstych wektorów, na których bezpośrednio operują zarówno wyszukiwarka, jak i generator. To umożliwia coś wcześniej niemożliwego: gradienty płynące z generatora z powrotem do wyszukiwarki przez różnicowy selektor top-k przy użyciu estymacji Straight-Through. Wyszukiwarka uczy się, które dokumenty naprawdę wspierają generację odpowiedzi, zamiast polegać na powierzchownej podobieństwie. Aby kompresja działała, wprowadzają SCP, ramę wstępnego uczenia, która syntetyzuje pary QA i parafrazy, aby nauczyć kompresora, które informacje są istotne. Proste QA uchwyca atomowe fakty, złożone QA promuje rozumowanie relacyjne, a parafrazy zachowują semantykę, zmieniając jednocześnie formę powierzchniową. Wyniki: Przy 16-krotnej kompresji, CLaRa-Mistral-7B przewyższa tekstowy DRO-Mistral-7B na NQ (51.41 vs 51.01 F1) i 2Wiki (47.18 vs 43.65 F1), przetwarzając znacznie mniej kontekstu. Przy 4-krotnej kompresji, przewyższa niekompresowane podstawy tekstowe o 2.36% średnio na Mistral-7B. Co najważniejsze, CLaRa trenowana tylko z słabą superwizją z przewidywania następnego tokena przewyższa w pełni nadzorowane wyszukiwarki z etykietami rzeczywistej istotności. Na HotpotQA osiąga 96.21% Recall@5, przewyższając BGE-Reranker (85.93%) o ponad 10 punktów, mimo że nie używa danych z adnotacjami istotności. Dobrze wytrenowana miękka kompresja może zachować istotne informacje o rozumowaniu, jednocześnie znacznie redukując długość wejścia. Skondensowane reprezentacje filtrują nieistotne treści i koncentrują generator na kontekście istotnym dla rozumowania, co prowadzi do lepszej generalizacji niż surowe dane wejściowe tekstowe. Świetna lektura dla deweloperów AI. (zapisz to) Artykuł: Naucz się budować z RAG i agentami AI w mojej akademii: