Meta baru saja mengubah game RL! Bagian tersulit dari pembelajaran penguatan bukanlah pelatihan. Ini mengelola lingkungan: dunia virtual tempat agen Anda belajar dengan coba-coba. Tanpa cara standar untuk membangun dunia ini, setiap proyek dimulai dari awal dengan API baru, aturan baru, loop umpan balik baru. Hasilnya? Agen yang tidak dapat bergerak melintasi tugas, dan peneliti menghabiskan lebih banyak waktu untuk menghubungkan lingkungan daripada meningkatkan perilaku. Inilah yang diselesaikan oleh PyTorch OpenEnv. Anggap saja sebagai momen MCP untuk pelatihan RL. OpenEnv menstandarkan bagaimana agen berlatih dengan pembelajaran penguatan. Ini memberi setiap sistem RL dunia modular bersama. Lingkungan dalam kontainer yang dibangun di atas API yang terinspirasi dari Gymnasium yang berbicara dalam bahasa yang sama: - reset() → memulai episode baru - langkah(tindakan) → mengambil tindakan dan mendapatkan umpan balik - state() → mengamati kemajuan Setiap lingkungan berjalan secara terpisah melalui HTTP: sederhana, aman untuk jenis, dan dapat direproduksi. Berikut alur dalam praktiknya: - Agen terhubung melalui klien OpenEnv - Klien merutekan tindakan ke lingkungan FastAPI yang berjalan di Docker - Lingkungan memproses, memperbarui status, dan mengembalikan umpan balik - Putaran berlanjut Pola yang sama, apakah itu permainan mainan, lingkungan pengkodean, atau dunia khusus apa pun yang Anda inginkan untuk berinteraksi dengan agen Anda. Sama seperti alat standar MCP yang memanggil agen, OpenEnv menstandarkan bagaimana agen berinteraksi dengan lingkungan pelatihan RL....