Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NOVA pesquisa da Apple.
Quando você pensa bem, os sistemas RAG são fundamentalmente quebrados. Recuperação e geração são otimizadas separadamente, a recuperação seleciona documentos com base na similaridade superficial, enquanto geradores produzem respostas sem feedback sobre quais informações realmente são necessárias.
Há uma incompatibilidade arquitetônica.
Retrievers densos classificam documentos no espaço de embedding enquanto geradores consomem texto bruto. Isso cria espaços de representação inconsistentes que impedem a otimização de ponta a ponta, processamento redundante de texto que causa excesso de contexto e codificação duplicada tanto para recuperação quanto para geração.
Essa nova pesquisa introduz o CLaRa, um framework unificado que realiza recuperação e geração sobre representações contínuas compartilhadas de documentos.
Eles codificam documentos uma vez em representações compactas de tokens de memória que servem a ambos os propósitos. Em vez de manter embeddings separados e texto bruto, os documentos são comprimidos em vetores densos nos quais tanto o recuperador quanto o gerador operam diretamente.
Isso possibilita algo antes impossível: gradientes fluindo do gerador de volta para o recuperador através de um seletor top-k diferenciável usando estimativa Straight-Through. O retriever aprende quais documentos realmente melhoram a geração de respostas, em vez de depender da semelhança superficial.
Para fazer a compressão funcionar, eles introduzem o SCP, um framework de pré-treinamento que sintetiza pares de QA e parafraseias para ensinar ao compressor quais informações são essenciais. A QA simples captura fatos atômicos, a QA complexa promove o raciocínio relacional, e as paráfrases preservam a semântica enquanto alteram a forma superficial.
Resultados:
Com compressão 16x, CLaRa-Mistral-7B supera o DRO-Mistral-7B baseado em texto no NQ (51,41 vs 51,01 F1) e no 2Wiki (47,18 vs 43,65 F1), processando muito menos contexto. Com compressão 4x, supera as linhas de base de texto não comprimido em média de 2,36% no Mistral-7B.
Mais notavelmente, o CLaRa treinado com apenas supervisão fraca da previsão do próximo token supera os retrievers totalmente supervisionados com rótulos de relevância de verdade. No HotpotQA, alcança 96,21% de Recall@5, superando o BGE-Reranker (85,93%) em mais de 10 pontos, apesar de não usar dados de relevância anotados.
Uma compressão suave bem treinada pode reter informações essenciais de raciocínio enquanto reduz substancialmente o comprimento da entrada. As representações comprimidas filtram conteúdos irrelevantes e focam o gerador em contexto de raciocínio, levando a uma generalização melhor do que entradas de texto bruto.
Ótima leitura para desenvolvedores de IA. (marca nos favoritos)
Papel:
Aprenda a construir com RAG e AI Agents na minha academia:

Melhores
Classificação
Favoritos
