Meta vừa thay đổi trò chơi RL! Phần khó nhất của học tăng cường không phải là đào tạo. Mà là quản lý môi trường: thế giới ảo nơi tác nhân của bạn học hỏi qua thử và sai. Với việc không có cách tiêu chuẩn để xây dựng những thế giới này, mỗi dự án bắt đầu từ con số không với các API mới, quy tắc mới, và vòng phản hồi mới. Kết quả? Các tác nhân không thể di chuyển giữa các nhiệm vụ, và các nhà nghiên cứu dành nhiều thời gian hơn để kết nối môi trường hơn là cải thiện hành vi. Đây chính là điều mà PyTorch OpenEnv giải quyết. Hãy nghĩ về nó như là khoảnh khắc MCP cho đào tạo RL. OpenEnv chuẩn hóa cách các tác nhân được đào tạo với học tăng cường. Nó cung cấp cho mỗi hệ thống RL một thế giới chung, mô-đun. Một môi trường được đóng gói dựa trên các API lấy cảm hứng từ Gymnasium nói một ngôn ngữ chung: - reset() → bắt đầu một tập mới - step(action) → thực hiện một hành động và nhận phản hồi - state() → quan sát tiến trình Mỗi môi trường chạy độc lập qua HTTP: đơn giản, an toàn về kiểu, và có thể tái tạo. Dưới đây là quy trình trong thực tế: - Một tác nhân kết nối qua client OpenEnv - Client định tuyến các hành động đến một môi trường FastAPI chạy trong Docker - Môi trường xử lý, cập nhật trạng thái, và trả về phản hồi - Vòng lặp tiếp tục Cùng một mẫu, cho dù đó là một trò chơi đồ chơi, một môi trường lập trình, hay bất kỳ thế giới tùy chỉnh nào mà bạn muốn các tác nhân của mình tương tác. Giống như MCP chuẩn hóa việc gọi công cụ cho các tác nhân, OpenEnv chuẩn hóa cách các tác nhân tương tác với các môi trường đào tạo RL....