المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
إطلاق Grpo V2 Repo الخاص بي: Nano-Grpo-Reasoning-Gym
تغييران كبيران (1) ينفذ هذا التغيير بالكامل مكدس تدريب GRPO من مجرد pytorch / كود Python بسيط للغاية - ولكن يتم توسيعه الآن لاستخدام vLLM و liger kernel والتحسينات الأخرى التي تجعل تدريب النماذج أسرع بكثير 
(2) إنه مبني على رأس مستودع الصالة الرياضية المنطقي - وهو مبني فقط في الاعتبار للتدريب والتقييم في بيئات التفكير هذه
أحب حقا كتابة الأشياء من الصفر للحصول على حدس جيد لكيفية عمل الأشياء ، وأيضا تتضمن الكثير من اهتماماتي البحثية القيام بأشياء غريبة / صغيرة لعملية التدريب ، وأجد أنه من الأسهل بكثير القيام به على تعليمات برمجية أبسط
تم بناء الريبو السابق الخاص بي بنفس النية - ولكن لإبقائه بسيطا في النهاية ، لم يكن لدي أي تحسينات حقا - لذلك في حين أنه كان من السهل للغاية تغيير الأشياء ، إلا أنه كان بطيئا جدا وغير عملي لعمليات تدريب أكثر جدية
مثل الكثير من الناس ، أصبحت أكثر اهتماما بكيفية تعلم النماذج في بيئات متعددة - يوفر Reasoning Gym مجموعة موحدة لطيفة من المهام لتجربة ذلك. يجعل الريبو من السهل مزج مهام التفكير المختلفة ، والتدريب على بعضها ، والمقارنة على البعض الآخر
بالنسبة لي ، يتعلق الأمر بوجود صندوق رمل سريع ولكنه بسيط لاختبار الأفكار. بالنسبة للآخرين ، قد يكون من المفيد فهم كيفية عمل grpo / vllm / liger في الممارسة العملية ، أو كنقطة انطلاق لتجاربك الخاصة
إليك الجولة الأولى - التدريب على leg_counting + family_relationships ، والتقييم على تلك + coin_flip
تتم جميع الحلول ب pass@1 احتمالية ل 5 إكمالات لكل مشكلة ، ولا تزال صاخبة بالطبع.
يحصل عدد الأرجل على أداء + 20٪ ، وعلاقة عائلية + 35٪ ، وقلب العملة (+ 8٪؟ ربما مجرد ضوضاء؟)
رابط Github أدناه




الأفضل
المُتصدِّرة
التطبيقات المفضلة

