Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NUOVA ricerca da Apple.
Se ci pensi, i sistemi RAG sono fondamentalmente rotti. Il recupero e la generazione sono ottimizzati separatamente, il recupero seleziona documenti in base a somiglianze superficiali mentre i generatori producono risposte senza feedback su quali informazioni siano realmente necessarie.
C'è una discrepanza architettonica.
I recuperatori densi classificano i documenti nello spazio di embedding mentre i generatori consumano testo grezzo. Questo crea spazi di rappresentazione incoerenti che impediscono l'ottimizzazione end-to-end, un'elaborazione testuale ridondante che causa overflow di contesto e codifiche duplicate sia per il recupero che per la generazione.
Questa nuova ricerca introduce CLaRa, un framework unificato che esegue recupero e generazione su rappresentazioni documentali continue condivise.
Essi codificano i documenti una sola volta in rappresentazioni di token di memoria compatte che servono a entrambi gli scopi. Invece di mantenere embedding e testo grezzo separati, i documenti vengono compressi in vettori densi su cui operano direttamente sia il recuperatore che il generatore.
Questo consente qualcosa di precedentemente impossibile: gradienti che fluiscono dal generatore al recuperatore attraverso un selettore top-k differenziabile utilizzando la stima Straight-Through. Il recuperatore impara quali documenti migliorano realmente la generazione delle risposte piuttosto che fare affidamento sulla somiglianza superficiale.
Per far funzionare la compressione, introducono SCP, un framework di pre-addestramento che sintetizza coppie QA e parafrasi per insegnare al compressore quali informazioni siano essenziali. Le QA semplici catturano fatti atomici, le QA complesse promuovono il ragionamento relazionale e le parafrasi preservano il significato alterando la forma superficiale.
Risultati:
A 16x di compressione, CLaRa-Mistral-7B supera il DRO-Mistral-7B basato su testo su NQ (51.41 vs 51.01 F1) e 2Wiki (47.18 vs 43.65 F1) mentre elabora molto meno contesto. A 4x di compressione, supera le baseline di testo non compresso del 2.36% in media su Mistral-7B.
Particolarmente notevole, CLaRa addestrato con solo supervisione debole dalla previsione del token successivo supera i recuperatori completamente supervisionati con etichette di rilevanza verificate. Su HotpotQA, raggiunge il 96.21% di Recall@5, superando BGE-Reranker (85.93%) di oltre 10 punti nonostante non utilizzi dati di rilevanza annotati.
Una compressione ben addestrata può mantenere informazioni di ragionamento essenziali riducendo sostanzialmente la lunghezza dell'input. Le rappresentazioni compresse filtrano contenuti irrilevanti e concentrano il generatore su contesti rilevanti per il ragionamento, portando a una migliore generalizzazione rispetto agli input di testo grezzo.
Ottima lettura per gli sviluppatori di AI. (salvalo tra i segnalibri)
Carta:
Impara a costruire con RAG e AI Agents nella mia accademia:

Principali
Ranking
Preferiti
