Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
НОВЫЕ исследования от Apple.
Если подумать, системы RAG по своей сути сломаны. Извлечение и генерация оптимизируются отдельно, извлечение выбирает документы на основе поверхностного сходства, в то время как генераторы создают ответы без обратной связи о том, какая информация на самом деле нужна.
Существует архитектурное несоответствие.
Плотные извлекатели ранжируют документы в пространстве встраивания, в то время как генераторы используют необработанный текст. Это создает несогласованные представления, которые препятствуют оптимизации от начала до конца, избыточной обработке текста, что приводит к переполнению контекста, и дублированному кодированию как для извлечения, так и для генерации.
Это новое исследование представляет CLaRa, унифицированную структуру, которая выполняет извлечение и генерацию на основе общих непрерывных представлений документов.
Они кодируют документы один раз в компактные представления памяти-токенов, которые служат обеим целям. Вместо того чтобы поддерживать отдельные встраивания и необработанный текст, документы сжимаются в плотные векторы, с которыми работают как извлекатель, так и генератор напрямую.
Это позволяет сделать то, что ранее было невозможно: градиенты текут от генератора обратно к извлекателю через дифференцируемый селектор top-k с использованием оценки Straight-Through. Извлекатель учится, какие документы действительно улучшают генерацию ответов, а не полагается на поверхностное сходство.
Чтобы сделать сжатие эффективным, они вводят SCP, структуру предварительного обучения, которая синтезирует пары QA и перефразировки, чтобы научить компрессор, какая информация является важной. Простые QA захватывают атомарные факты, сложные QA способствуют реляционному рассуждению, а перефразировки сохраняют семантику, изменяя поверхностную форму.
Результаты:
При сжатии 16x CLaRa-Mistral-7B превосходит текстовый DRO-Mistral-7B по NQ (51.41 против 51.01 F1) и 2Wiki (47.18 против 43.65 F1), обрабатывая при этом гораздо меньше контекста. При сжатии 4x он превышает несжатые текстовые базовые линии на 2.36% в среднем по Mistral-7B.
Наиболее примечательно, что CLaRa, обученная только слабыми сигналами от предсказания следующего токена, превосходит полностью контролируемые извлекатели с метками релевантности. На HotpotQA он достигает 96.21% Recall@5, превышая BGE-Reranker (85.93%) более чем на 10 пунктов, несмотря на отсутствие аннотированных данных о релевантности.
Хорошо обученное мягкое сжатие может сохранить важную информацию для рассуждений, значительно сокращая длину входных данных. Сжатые представления фильтруют нерелевантный контент и фокусируют генератор на контексте, важном для рассуждений, что приводит к лучшей обобщаемости, чем необработанные текстовые входы.
Отличное чтение для разработчиков ИИ. (добавьте в закладки)
Статья:
Научитесь строить с RAG и AI Agents в моей академии:

Топ
Рейтинг
Избранное
