DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

NEUE Forschung von Apple. Wenn man darüber nachdenkt, sind RAG-Systeme grundsätzlich fehlerhaft. Retrieval und Generierung werden separat optimiert, Retrieval wählt Dokumente basierend auf oberflächlicher Ähnlichkeit aus, während Generatoren Antworten produzieren, ohne Feedback darüber zu erhalten, welche Informationen tatsächlich benötigt werden. Es gibt eine architektonische Diskrepanz. Dichte Retriever bewerten Dokumente im Einbettungsraum, während Generatoren mit Rohtext arbeiten. Dies schafft inkonsistente Repräsentationsräume, die eine End-to-End-Optimierung verhindern, redundante Textverarbeitung, die zu Kontextüberlauf führt, und doppelte Kodierung sowohl für Retrieval als auch für Generierung. Diese neue Forschung stellt CLaRa vor, ein einheitliches Framework, das Retrieval und Generierung über gemeinsame kontinuierliche Dokumentrepräsentationen durchführt. Sie kodieren Dokumente einmal in kompakte Speicher-Token-Repräsentationen, die beiden Zwecken dienen. Anstatt separate Einbettungen und Rohtext zu pflegen, werden Dokumente in dichte Vektoren komprimiert, auf denen sowohl der Retriever als auch der Generator direkt arbeiten. Dies ermöglicht etwas, das zuvor unmöglich war: Gradienten fließen vom Generator zurück zum Retriever durch einen differenzierbaren Top-k-Selektor unter Verwendung der Straight-Through-Schätzung. Der Retriever lernt, welche Dokumente die Antwortgenerierung tatsächlich verbessern, anstatt sich auf oberflächliche Ähnlichkeit zu verlassen. Um die Kompression zu ermöglichen, führen sie SCP ein, ein Pretraining-Framework, das QA-Paare und Paraphrasen synthetisiert, um dem Kompressor beizubringen, welche Informationen wesentlich sind. Einfache QA erfasst atomare Fakten, komplexe QA fördert relationale Schlussfolgerungen, und Paraphrasen bewahren die Semantik, während sie die Oberflächenform ändern. Ergebnisse: Bei 16-facher Kompression übertrifft CLaRa-Mistral-7B die textbasierten DRO-Mistral-7B auf NQ (51,41 vs. 51,01 F1) und 2Wiki (47,18 vs. 43,65 F1), während es deutlich weniger Kontext verarbeitet. Bei 4-facher Kompression übertrifft es unkomprimierte Text-Baselines um durchschnittlich 2,36 % auf Mistral-7B. Am bemerkenswertesten ist, dass CLaRa, das nur mit schwacher Überwachung durch die Vorhersage des nächsten Tokens trainiert wurde, vollständig überwachte Retriever mit Ground-Truth-Relevanzlabels übertrifft. Auf HotpotQA erreicht es 96,21 % Recall@5 und übertrifft BGE-Reranker (85,93 %) um mehr als 10 Punkte, obwohl keine annotierten Relevanzdaten verwendet werden. Gut trainierte weiche Kompression kann wesentliche Schlussfolgerungsinformationen beibehalten und gleichzeitig die Eingabelänge erheblich reduzieren. Die komprimierten Repräsentationen filtern irrelevante Inhalte heraus und konzentrieren den Generator auf kontextrelevante Schlussfolgerungen, was zu einer besseren Generalisierung als bei Rohtexteingaben führt. Eine großartige Lektüre für AI-Entwickler. (Lesezeichen setzen) Papier: Lerne, mit RAG und AI-Agenten in meiner Akademie zu bauen:

Top

Ranking

Favoriten