Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NY forskning fra Apple.
Når du tenker over det, er RAG-systemene fundamentalt ødelagte. Henting og generering optimaliseres separat, henting velger dokumenter basert på overfladisk likhet, mens generatorer gir svar uten tilbakemelding om hvilken informasjon som faktisk trengs.
Det er en arkitektonisk mismatch.
Tette retrievere rangerer dokumenter i embedding-rommet, mens generatorer bruker råtekst. Dette skaper inkonsistente representasjonsrom som hindrer ende-til-ende-optimalisering, redundant tekstbehandling som forårsaker kontekstoverflyt, og duplisert koding for både henting og generering.
Denne nye forskningen introduserer CLaRa, et samlet rammeverk som utfører henting og generering over delte kontinuerlige dokumentrepresentasjoner.
De koder dokumenter én gang inn i kompakte minnetoken-representasjoner som tjener begge formål. I stedet for å opprettholde separate embeddinger og råtekst, komprimeres dokumenter til tette vektorer som både henteren og generatoren opererer direkte på.
Dette muliggjør noe som tidligere var umulig: gradienter som flyter fra generatoren tilbake til retrieveren gjennom en deriverbar top-k-velger ved bruk av Straight-Through-estimering. Retrieveren lærer hvilke dokumenter som virkelig forbedrer svargenereringen, i stedet for å stole på overfladisk likhet.
For å få komprimering til å fungere, introduserer de SCP, et fortreningsrammeverk som syntetiserer QA-par og parafraser for å lære kompressoren hvilken informasjon som er essensiell. Enkel QA fanger atomære fakta, kompleks QA fremmer relasjonell resonnering, og parafraser bevarer semantikk samtidig som de endrer overflateformen.
Resultater:
Ved 16x komprimering overgår CLaRa-Mistral-7B den tekstbaserte DRO-Mistral-7B på NQ (51.41 vs 51.01 F1) og 2Wiki (47.18 vs 43.65 F1) samtidig som den behandler langt mindre kontekst. Ved 4x komprimering overgår den ukomprimert tekstbaseline med 2,36 % i gjennomsnitt på Mistral-7B.
Mest bemerkelsesverdig presterer CLaRa, trent med kun svak veiledning fra next-token-prediksjon, bedre enn fullt overvåkede retrievere med relevansetiketter for grunn-sannhet. På HotpotQA oppnår den 96,21 % Recall@5, og overgår BGE-Reranker (85,93 %) med over 10 prosentpoeng til tross for at den ikke bruker annoterte relevansdata.
Veltrent myk komprimering kan beholde essensiell resonnementsinformasjon samtidig som den reduserer inputlengden betydelig. De komprimerte representasjonene filtrerer ut irrelevant innhold og fokuserer generatoren på resonnement-relevant kontekst, noe som gir bedre generalisering enn rå tekstinput.
Flott lesning for AI-utviklere. (bokmerk det)
Artikkel:
Lær å bygge med RAG og AI-agenter på akademiet mitt:

Topp
Rangering
Favoritter
