Apple'dan YENİ araştırma. Düşününce, RAG sistemleri temelde bozuk. Arama ve üretim ayrı ayrı optimize edilir; arama yüzeysel benzerliğe göre belgeleri seçerken, üreteçler hangi bilginin gerçekten gerekli olduğuna dair geri bildirim vermeden yanıtlar üretir. Mimari bir uyumsuzluk var. Yoğun alıcılar belgeleri göme alanında sıralarken, üreteçler ham metin tüketir. Bu, uçtan uca optimizasyonu engelleyen tutarsız temsil alanları, bağlam taşmasına neden olan gereksiz metin işleme ve hem arama hem de üretim için tekrarlanan kodlama yaratır. Bu yeni araştırma, paylaşılan sürekli belge temsilleri üzerinde arama ve üretim gerçekleştiren birleşik bir çerçeve olan CLaRa'yı tanıtıyor. Belgeleri bir kez kompakt bellek-belirteç temsillerine kodlarlar ve bu temsiller her iki amaca hizmet eder. Ayrı gömüler ve ham metin yerine, belgeler hem alıcının hem de üreticinin doğrudan çalıştığı yoğun vektörlere sıkıştırılır. Bu, daha önce imkansız olan bir şeyi mümkün kılar: gradyanlar, jeneratörden top-k seçici aracılığıyla Straight-Through tahmini kullanılarak yönlendiriciye akan gradyanlar. Retriever hangi belgelerin gerçekten cevap üretimini geliştirdiğini öğrenir, yüzeysel benzerliğe dayanmak yerine. Sıkıştırmayı sağlamak için, sıkıştırmaya hangi bilginin gerekli olduğunu öğretmek için QA çiftlerini ve parafrazlarını sentezleyen SCP adlı ön eğitim çerçevesini tanıtıyorlar. Basit QA atomik gerçekleri yakalarken, karmaşık QA ilişkisel akıl yürütmeyi teşvik eder ve paraphrase'lar yüzey biçimini değiştirirken anlamı korur. Sonuçlar: 16x sıkıştırma ile CLaRa-Mistral-7B, NQ'da metin tabanlı DRO-Mistral-7B'yi (51.41 vs 51.01 F1) ve 2Wiki'yi (47.18 vs 43.65 F1) geçer ve çok daha az bağlam işliyor. 4x sıkıştırmada, Mistral-7B'de sıkıştırılmamış metin taban çizgilerini ortalama %2,36 aşmaktadır. En dikkat çekici olanı, sadece zayıf bir sonraki token tahminiyle eğitilen CLaRa, yeraltı gerçeklik alaka etiketlerine sahip tam denetimli retrieverların önüne geçiyor. HotpotQA'da %96,21 Recall@5 elde ederek BGE-Reranker'ı (%85,93) 10 puandan fazla geride bıraktı; açıklamalı önem verisi kullanılmamasına rağmen. İyi eğitilmiş yumuşak sıkıştırma, temel akıl yürütme bilgilerini koruyabilir ve giriş süresini önemli ölçüde azaltabilir. Sıkıştırılmış temsiller, alakasız içeriği filtreler ve üreticiyi akıl yürütme ile ilgili bağlama odaklar; bu da ham metin girdilerinden daha iyi genellemeye yol açar. Yapay zeka geliştiricileri için harika bir okuma. (yer imlerine işaret ediyor) Makale: Akademimde RAG ve AI Ajanları ile inşa etmeyi öğrenin: