المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لقد فهمت أخيرا سبب كون عمليات إعادة الترتيب قوية جدا بمجرد أن أدركت الفرق الرئيسي بين أجهزة التشفير الثنائية والمتقاطعة.
لقد وجدت أيضا طريقة للجمع بين قوتهم باستخدام بنية موحدة.
اسمحوا لي أن أشرح:
RAG هو استرجاع 80٪ و 20٪ جيل. لذلك إذا كانت RAG لا تعمل ، فعلى الأرجح ، فهي مشكلة في الاسترجاع.
هذا هو بالضبط السبب في أن الحصول على بنية الاسترجاع الصحيحة أمر مهم للغاية - ويبدأ بفهم هذين النهجين (الثلاثة في الواقع) للترميز.
(راجع الصورة المرئية أدناه أثناء قراءتها)
1️⃣ أجهزة التشفير الثنائية
تعالج أجهزة التشفير الثنائية (العمود الفقري للبحث المتجه) الاستعلامات والمستندات بشكل منفصل.
- يتم حساب تضمينات المستندات مسبقا
- يتم تضمين الاستعلام في وقت البحث
هذا يجعل أجهزة التشفير الثنائية مثالية للاسترجاع الأولي:
- سريع للغاية
- يعمل على نطاق واسع
- يفتقد معلومات سياقية مهمة
2️⃣ التشفير المتقاطع
تتخذ أجهزة التشفير المتقاطعة نهجا مختلفا تماما لإعادة الترتيب.
يقومون بمعالجة الاستعلام وكل مستند كوحدة واحدة.
- دمج الاستعلام مع المستند ([CLS] الاستعلام [SEP] المستند [SEP])
- قم بتشغيل النموذج معا للحصول على الانتباه المتبادل الكامل
هذا يجعل أجهزة التشفير المتقاطع مثالية للمرحلة الثانية:
- يلتقط العلاقات الدلالية للحصول على دقة أفضل
- ولكن أبطأ بكثير وثقيل الموارد للمجموعات الكبيرة
الآن ، ماذا لو تمكنا من الجمع بين أفضل ما في العالمين!
3️⃣ كولبرت
يجمع ColBERT بين قوة أجهزة التشفير المتقاطعة وقابلية توسع أجهزة التشفير الثنائية.
- ترميز الاستعلامات والمستندات بشكل منفصل
- إنشاء مصفوفة تفاعل بدرجات التشابه بين جميع أزواج الرموز المميزة لمستندات الاستعلام
- احصل على أقصى درجة لكل رمز مميز للاستعلام عبر الرموز المميزة للمستند
- مجموع الدرجات القصوى لدرجة المطابقة النهائية
_____
هذا التفاف!
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك.
تجدني → @akshay_pachaar ✔️
لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!

46.67K
الأفضل
المُتصدِّرة
التطبيقات المفضلة