المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لقد غيرت Meta للتو لعبة RL!
أصعب جزء في التعلم المعزز ليس التدريب.
إنها إدارة البيئة: العالم الافتراضي حيث يتعلم وكيلك عن طريق التجربة والخطأ.
مع عدم وجود طريقة قياسية لبناء هذه العوالم ، يبدأ كل مشروع من نقطة الصفر بواجهات برمجة تطبيقات جديدة وقواعد جديدة وحلقات تغذية مرتدة جديدة.
النتيجة؟ الوكلاء الذين لا يستطيعون التحرك عبر المهام ، والباحثون يقضون وقتا أطول في بيئات الأسلاك أكثر من تحسين السلوك.
هذا هو بالضبط ما يحله PyTorch OpenEnv. فكر في الأمر على أنه لحظة MCP لتدريب RL.
يوحد OpenEnv كيفية تدريب الوكلاء مع التعلم المعزز. إنه يمنح كل نظام RL عالما معياريا مشتركا. بيئة معبأة في حاويات مبنية على واجهات برمجة التطبيقات المستوحاة من Gymnasium والتي تتحدث لغة مشتركة:
- إعادة تعيين () → بدء حلقة جديدة
- الخطوة (الإجراء) → اتخاذ إجراء والحصول على تعليقات
- state() → مراقبة التقدم
تعمل كل بيئة بمعزل عن HTTP: بسيطة وآمنة من النوع وقابلة للتكرار.
هذا هو التدفق في الممارسة:
- يتصل وكيل من خلال عميل OpenEnv
- يقوم العميل بتوجيه الإجراءات إلى بيئة FastAPI التي تعمل في Docker
- عمليات معالجة البيئة وتحديث الحالة وإرجاع الملاحظات
- تستمر الحلقة
نفس النمط ، سواء كانت لعبة لعبة أو بيئة ترميز أو أي عالم مخصص تريد أن يتفاعل معه وكلائك.
تماما مثل أداة MCP القياسية التي تستدعي الوكلاء ، يقوم OpenEnv بتوحيد كيفية تفاعل الوكلاء مع بيئات تدريب RL....
الأفضل
المُتصدِّرة
التطبيقات المفضلة

