Veröffentlichung meines grpo v2 Repos: nano-grpo-reasoning-gym einige große Änderungen (1) dieses implementiert vollständig den grpo Trainingsstapel nur mit pytorch/sehr einfachem Python-Code - wurde aber jetzt erweitert, um vLLM, den Liger-Kernel und andere Optimierungen zu nutzen, die es viel schneller machen, Modelle zu trainieren. (2) es basiert auf dem Reasoning Gym Repo - und wurde ausschließlich mit dem Ziel entwickelt, in diesen Denkumgebungen zu trainieren und zu evaluieren. Ich schreibe wirklich gerne Dinge von Grund auf neu, um ein gutes Gefühl dafür zu bekommen, wie die Dinge funktionieren, und viele meiner Forschungsinteressen beinhalten, seltsame/kleine Dinge am Trainingsprozess zu machen, und ich finde es viel einfacher, dies mit einfacherer Code zu tun. Mein vorheriges Repo wurde mit derselben Absicht erstellt - aber um es letztendlich einfach zu halten, hatte ich wirklich keine Optimierungen - also war es extrem einfach, Dinge zu ändern, aber es war sehr langsam und unpraktisch für ernsthaftere Trainingsläufe. Wie viele Leute bin ich interessierter daran geworden, wie Modelle in mehreren Umgebungen lernen können - das Reasoning Gym bietet eine schöne standardisierte Reihe von Aufgaben, um damit zu experimentieren. Das Repo macht es einfach, verschiedene Denkaufgaben zu mischen, einige zu trainieren und andere zu evaluieren. Für mich geht es darum, einen schnellen, aber einfachen Sandbox zu haben, um Ideen zu testen. Für andere könnte es nützlich sein, zu verstehen, wie grpo/vllm/liger in der Praxis funktionieren, oder als Ausgangspunkt für eigene Experimente. Hier ist ein erster Lauf - Training auf leg_counting + family_relationships, Evaluation auf diesen + coin_flip. Alle Auswertungen werden mit probabilistischem pass@1 für 5 Abschlüsse pro Problem durchgeführt, immer noch laut, natürlich. Die Legenzahl erhält +20% Leistung, Familienbeziehung + 35%, Münzwurf (+8%? Vielleicht nur Rauschen?) Github-Link unten.