المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الرهان على بناء نظام تعليمي مستمر. ماذا يعني هذا؟ تحديث المؤشر هو مثال عملي. تأتي بيانات جديدة ، يعرف النظام كيفية تصفية العينات الأكثر قيمة. ثم يستفيد من RL / خوارزميات أخرى لنشر نقطة تفتيش مدربة باستخدام البيانات المذكورة.

23 أغسطس 2025
نقدم وصفة أفضل لجمع بيانات ما بعد التدريب عند استخدام GRPO. يعد جمع العينات من الخبراء مكلفا ، وميزانيات التعليقات التوضيحية محدودة. ما هي الأمثلة التي تستحق بالفعل دفع ثمنها؟ وجدنا أن التركيز على العينات الصلبة يؤدي إلى تحسن بنسبة 30-40٪.
1/7

يجب دراسة كل مكون بعناية أولا لبناء خوارزمية وصفية يمكنها تشغيل مثل هذا النظام. أثناء تشغيل التدريب ، يمكنه تقييم ما إذا كان سيتم الاستمرار في الجري أو إيقافه بناء على العلامات المبكرة. للقيام بذلك ، يتم استيعاب الرؤى من 100 ثانية من الجولات في مثل هذا النظام.
يبدأ هذا النوع من العمل هذه العملية لحل المشكلات بمكافآت يمكن التحقق منها. نظرا لأن هذا هو الإعداد الأكثر "استقرارا" لبناء خط أنابيب بسيط للتعلم. ستكون الحدود التالية هي LLM-as-judge وإعدادات المكافآت المتأخرة ذات الأفق الطويل.
939
الأفضل
المُتصدِّرة
التطبيقات المفضلة