phát hành repo grpo v2 của tôi: nano-grpo-reasoning-gym hai thay đổi lớn (1) cái này hoàn toàn triển khai ngăn xếp đào tạo grpo chỉ từ pytorch/mã python rất đơn giản - nhưng giờ đã được mở rộng để sử dụng vLLM, kernel liger và các tối ưu hóa khác giúp việc đào tạo mô hình nhanh hơn nhiều (2) nó được xây dựng trên repo reasoning gym - và được xây dựng chỉ với mục đích đào tạo và đánh giá trên những môi trường lý luận này tôi thực sự thích viết mọi thứ từ đầu để có được trực giác tốt về cách mọi thứ hoạt động, và cũng nhiều sở thích nghiên cứu của tôi liên quan đến việc làm những điều kỳ lạ/nho nhỏ với quy trình đào tạo, và tôi thấy dễ dàng hơn nhiều khi làm trên mã đơn giản hơn repo trước đây của tôi được xây dựng với cùng một ý định - nhưng để giữ cho nó thực sự đơn giản, tôi không có bất kỳ tối ưu hóa nào - vì vậy trong khi nó cực kỳ dễ dàng để thay đổi mọi thứ, nó rất chậm và không thực tế cho các lần đào tạo nghiêm túc hơn như nhiều người, tôi đã trở nên quan tâm hơn đến cách các mô hình có thể học trong nhiều môi trường - reasoning gym cung cấp một bộ nhiệm vụ tiêu chuẩn hóa đẹp để thử nghiệm với điều này. repo giúp dễ dàng kết hợp các nhiệm vụ lý luận khác nhau, đào tạo trên một số, đánh giá trên những cái khác đối với tôi, điều này là về việc có một sandbox nhanh nhưng đơn giản để thử nghiệm ý tưởng. đối với những người khác, có thể hữu ích để hiểu cách grpo/vllm/liger hoạt động trong thực tế, hoặc như một điểm khởi đầu cho các thí nghiệm của riêng bạn đây là một lần chạy đầu tiên - đào tạo trên leg_counting + family_relationships, đánh giá trên những cái đó + coin_flip Tất cả các đánh giá đều được thực hiện với xác suất pass@1 cho 5 lần hoàn thành mỗi vấn đề, vẫn còn ồn ào tất nhiên. Leg count tăng +20% hiệu suất, mối quan hệ gia đình + 35%, coin flip (+8%? Có thể chỉ là tiếng ồn?) Liên kết Github bên dưới