Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Riset BARU dari Apple.
Ketika Anda memikirkannya, sistem RAG pada dasarnya rusak. Pengambilan dan pembuatan dioptimalkan secara terpisah, pengambilan memilih dokumen berdasarkan kesamaan tingkat permukaan sementara generator menghasilkan jawaban tanpa umpan balik tentang informasi apa yang sebenarnya dibutuhkan.
Ada ketidakcocokan arsitektur.
Retriever padat memberi peringkat dokumen dalam ruang penyematan sementara generator mengonsumsi teks mentah. Ini menciptakan ruang representasi yang tidak konsisten yang mencegah pengoptimalan end-to-end, pemrosesan teks redundan yang menyebabkan luapan konteks, dan pengodean duplikat untuk pengambilan dan pembuatan.
Penelitian baru ini memperkenalkan CLaRa, kerangka kerja terpadu yang melakukan pengambilan dan pembuatan melalui representasi dokumen berkelanjutan bersama.
Mereka mengkodekan dokumen sekali ke dalam representasi token memori kompak yang melayani kedua tujuan tersebut. Alih-alih mempertahankan penyematan terpisah dan teks mentah, dokumen dikompresi menjadi vektor padat yang dioperasikan oleh retriever dan generator secara langsung.
Ini memungkinkan sesuatu yang sebelumnya tidak mungkin: gradien mengalir dari generator kembali ke retriever melalui pemilih top-k yang dapat dibedakan menggunakan estimasi Straight-Through. Retriever mempelajari dokumen mana yang benar-benar meningkatkan pembuatan jawaban daripada mengandalkan kesamaan permukaan.
Untuk membuat kompresi bekerja, mereka memperkenalkan SCP, kerangka kerja prapelatihan yang mensintesis pasangan QA dan parafrase untuk mengajarkan kompresor informasi mana yang penting. QA sederhana menangkap fakta atom, QA kompleks mempromosikan penalaran relasional, dan parafrase mempertahankan semantik sambil mengubah bentuk permukaan.
Hasil:
Pada kompresi 16x, CLaRa-Mistral-7B melampaui DRO-Mistral-7B berbasis teks pada NQ (51.41 vs 51.01 F1) dan 2Wiki (47.18 vs 43.65 F1) sementara memproses konteks yang jauh lebih sedikit. Pada kompresi 4x, ini melebihi garis besar teks yang tidak dikompresi dengan rata-rata 2,36% pada Mistral-7B.
Terutama, CLaRa yang dilatih hanya dengan pengawasan yang lemah dari prediksi token berikutnya mengungguli retriever yang diawasi penuh dengan label relevansi kebenaran dasar. Di HotpotQA, ia mencapai 96,21% Recall@5, melebihi BGE-Reranker (85,93%) dengan lebih dari 10 poin meskipun tidak menggunakan data relevansi beranotasi.
Kompresi lunak yang terlatih dengan baik dapat menyimpan informasi penalaran penting sekaligus mengurangi panjang input secara substansial. Representasi terkompresi menyaring konten yang tidak relevan dan memfokuskan generator pada konteks yang relevan dengan penalaran, yang mengarah pada generalisasi yang lebih baik daripada input teks mentah.
Bacaan yang bagus untuk pengembang AI. (tandai)
Kertas:
Belajar membangun dengan Agen RAG dan AI di akademi saya:

Teratas
Peringkat
Favorit
