إطلاق Grpo V2 Repo الخاص بي: Nano-Grpo-Reasoning-Gym تغييران كبيران (1) ينفذ هذا التغيير بالكامل مكدس تدريب GRPO من مجرد pytorch / كود Python بسيط للغاية - ولكن يتم توسيعه الآن لاستخدام vLLM و liger kernel والتحسينات الأخرى التي تجعل تدريب النماذج أسرع بكثير (2) إنه مبني على رأس مستودع الصالة الرياضية المنطقي - وهو مبني فقط في الاعتبار للتدريب والتقييم في بيئات التفكير هذه أحب حقا كتابة الأشياء من الصفر للحصول على حدس جيد لكيفية عمل الأشياء ، وأيضا تتضمن الكثير من اهتماماتي البحثية القيام بأشياء غريبة / صغيرة لعملية التدريب ، وأجد أنه من الأسهل بكثير القيام به على تعليمات برمجية أبسط تم بناء الريبو السابق الخاص بي بنفس النية - ولكن لإبقائه بسيطا في النهاية ، لم يكن لدي أي تحسينات حقا - لذلك في حين أنه كان من السهل للغاية تغيير الأشياء ، إلا أنه كان بطيئا جدا وغير عملي لعمليات تدريب أكثر جدية مثل الكثير من الناس ، أصبحت أكثر اهتماما بكيفية تعلم النماذج في بيئات متعددة - يوفر Reasoning Gym مجموعة موحدة لطيفة من المهام لتجربة ذلك. يجعل الريبو من السهل مزج مهام التفكير المختلفة ، والتدريب على بعضها ، والمقارنة على البعض الآخر بالنسبة لي ، يتعلق الأمر بوجود صندوق رمل سريع ولكنه بسيط لاختبار الأفكار. بالنسبة للآخرين ، قد يكون من المفيد فهم كيفية عمل grpo / vllm / liger في الممارسة العملية ، أو كنقطة انطلاق لتجاربك الخاصة إليك الجولة الأولى - التدريب على leg_counting + family_relationships ، والتقييم على تلك + coin_flip تتم جميع الحلول ب pass@1 احتمالية ل 5 إكمالات لكل مشكلة ، ولا تزال صاخبة بالطبع. يحصل عدد الأرجل على أداء + 20٪ ، وعلاقة عائلية + 35٪ ، وقلب العملة (+ 8٪؟ ربما مجرد ضوضاء؟) رابط Github أدناه