Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NUEVA investigación de Apple.
Si lo piensas, los sistemas RAG están fundamentalmente rotos. La recuperación y generación se optimizan por separado, la recuperación selecciona documentos basándose en similitudes superficiales, mientras que los generadores producen respuestas sin retroalimentación sobre qué información realmente se necesita.
Hay un desajuste arquitectónico.
Los retrievers densos clasifican los documentos en el espacio de incrustación mientras que los generadores consumen texto en bruto. Esto crea espacios de representación inconsistentes que impiden la optimización de extremo a extremo, procesamiento redundante de texto que provoca desbordamiento de contexto y codificación duplicada tanto para la recuperación como para la generación.
Esta nueva investigación introduce CLaRa, un marco unificado que realiza recuperación y generación sobre representaciones continuas de documentos compartidas.
Codifican documentos que antes eran representaciones compactas de memoria que cumplen ambos propósitos. En lugar de mantener incrustaciones y texto en bruto separados, los documentos se comprimen en vectores densos sobre los que tanto el recuperador como el generador operan directamente.
Esto permite algo que antes era imposible: gradientes que fluyen desde el generador de vuelta al recuperador a través de un selector diferenciable top-k usando estimación Straight-Through. El retriever aprende qué documentos realmente mejoran la generación de respuestas en lugar de depender de la similitud superficial.
Para que la compresión funcione, introducen SCP, un marco de preentrenamiento que sintetiza pares de QA y parafraseas para enseñar al compresor qué información es esencial. La QA simple captura hechos atómicos, la QA compleja promueve el razonamiento relacional y las paráfrasis preservan la semántica mientras alteran la forma superficial.
Resultados:
Con compresión de 16x, CLaRa-Mistral-7B supera al DRO-Mistral-7B basado en texto en NQ (51.41 frente a 51.01 F1) y 2Wiki (47.18 frente a 43.65 F1) mientras procesa mucho menos contexto. A compresión 4x, supera las líneas base de texto sin comprimir en un 2,36% de media en Mistral-7B.
Lo más notable es que CLaRa entrenado con solo una supervisión débil de la predicción del siguiente token supera a los recuperadores totalmente supervisados con etiquetas de relevancia de verdad en el terreno. En HotpotQA, alcanza un 96,21% de Recall@5, superando a BGE-Reranker (85,93%) por más de 10 puntos a pesar de no utilizar datos de relevancia anotados.
Una compresión suave bien entrenada puede retener la información esencial del razonamiento mientras reduce sustancialmente la longitud de entrada. Las representaciones comprimidas filtran contenido irrelevante y centran el generador en el contexto relevante para el razonamiento, lo que conduce a una mejor generalización que las entradas de texto en bruto.
Una lectura excelente para desarrolladores de IA. (lo marca)
Papel:
Aprende a construir con agentes RAG e IA en mi academia:

Populares
Ranking
Favoritas
