Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
НОВЕ дослідження від Apple.
Якщо подумати, системи RAG фундаментально зламані. Пошук і генерація оптимізуються окремо: retrieval вибирає документи на основі поверхневої схожості, тоді як генератори дають відповіді без зворотного зв'язку щодо того, яка інформація насправді потрібна.
Існує архітектурна невідповідність.
Щільні ретривери ранжують документи у просторі вбудовування, тоді як генератори споживають сирий текст. Це створює непослідовні простори представлення, які перешкоджають наскрізній оптимізації, надмірну обробку тексту, що спричиняє переповнення контексту, та дублювання кодування як для пошуку, так і для генерації.
Це нове дослідження представляє CLaRa — уніфіковану структуру, яка здійснює пошук і генерацію спільних безперервних представлень документів.
Вони кодують документи у компактні представлення пам'яті-токенів, які виконують обидві функції. Замість того, щоб зберігати окремі вкладення та сирий текст, документи стискаються у щільні вектори, з якими безпосередньо працюють і ретривер, і генератор.
Це дозволяє те, що раніше було неможливе: градієнти, що проходять від генератора назад до ретривера через диференційований верхній k селектор за допомогою оцінки Straight-Through. Ретривер дізнається, які документи справді покращують генерацію відповідей, а не покладаються на поверхневу схожість.
Щоб компресія працювала, вони впроваджують SCP — фреймворк попереднього навчання, який синтезує пари QA та парафрази, щоб навчити компресора, яка інформація є необхідною. Просте QA фіксує атомарні факти, складне QA сприяє реляційному мисленню, а парафрази зберігають семантику, змінюючи поверхневу форму.
Результати:
При 16-кратному стисненні CLaRa-Mistral-7B перевершує текстовий DRO-Mistral-7B на NQ (51.41 проти 51.01 F1) та 2Wiki (47.18 проти 43.65 F1), при цьому обробляючи значно менше контексту. При 4-кратному стисненні він перевищує базові рядки тексту з несжатим текстом на 2,36% у середньому на Mistral-7B.
Найпомітніше, що CLaRa, навчена лише під слабким наглядом від прогнозування наступного токена, перевершує повністю контрольованих ретриверів із мітками релевантності на землі. На HotpotQA він досягає 96,21% Recall@5, перевищуючи BGE-Reranker (85,93%) більш ніж на 10 пунктів, незважаючи на відсутність анотованих даних релевантності.
Добре натреноване м'яке стиснення може зберігати важливу інформацію про логіку, водночас суттєво скорочуючи довжину вхідних даних. Стиснені представлення фільтрують нерелевантний зміст і фокусують генератор на контексті, релевантному для мислення, що призводить до кращої узагальнення, ніж сирий текст.
Чудове читання для розробників ШІ. (зберіть у закладки)
Стаття:
Навчіться будувати з RAG та AI Agents у моїй академії:

Найкращі
Рейтинг
Вибране
