المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
يمكن أن تكون النماذج الصغيرة أيضا أسبابا جيدة.
ها هي المشكلة والحل المقترح:
غالبا ما تزداد النماذج الصغيرة سوءا عندما تقوم بتحريكها على آثار CoT للمعلم.
تثبت هذه الورقة الفشل على اختلال المحاذاة التوزيعية وتقدم فك تشفير المضاربة العكسي (RSD): أثناء توليد التتبع ، يقترح المعلم الرموز المميزة ، لكن الطالب يقبل فقط الرموز المميزة المحتملة بدرجة كافية بموجب توزيعه الخاص.
والنتيجة هي آثار صديقة للطلاب تحافظ على صحتها مع الحفاظ على إمكانية التحكم في التصفح خطوة بخطوة.
يستخدم RSD أخذ عينات الرفض لتحديد التتبعات الصحيحة والمتوافقة وإقرانها ببادئات UPFT للعناصر التي لم يتم حلها: تدريب التتبعات الكاملة حيث يجد RSD حلا صحيحا وتدريب أول 128 رمزا مميزا حيث لا يفعل ذلك.
عند تطبيقه على Qwen3-0.6B ، يؤدي التقطير المباشر لبيانات تتبع التفكير s1K-1.1 إلى تدهور متوسط الأداء بنسبة 20.5٪ ، بينما يحقق نفس النموذج المدرب على آثار التفكير التي تم إنشاؤها بواسطة RSD تحسينات ذات مغزى بنسبة 4.9٪.
ورق:

الأفضل
المُتصدِّرة
التطبيقات المفضلة