Pariul este pe construirea unui sistem de învățare continuă. Ce înseamnă asta? Actualizarea lui Cursor este un exemplu de lucru. Apar date noi, sistemul știe cum să filtreze cele mai valoroase probe. Apoi folosește RL / alți algoritmi pentru a implementa un punct de control antrenat folosind datele respective.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 aug. 2025
Introducem o rețetă mai bună pentru colectarea datelor post-antrenament atunci când utilizați GRPO. Colectarea de mostre de la experți este costisitoare, bugetele de adnotare sunt limitate. Pentru ce exemple merită de fapt să plătiți? Constatăm că concentrarea pe probe dure are ca rezultat o îmbunătățire de 30-40%. 1/7
Fiecare componentă trebuie studiată cu atenție mai întâi pentru a construi un meta-algoritm care poate opera un astfel de sistem. În timpul unei curse de antrenament, poate evalua dacă să continue sau să oprească alergarea pe baza semnelor timpurii. Pentru a face acest lucru, informațiile din 100 de alergări sunt digerate într-un astfel de sistem.
Această linie de lucru începe acest proces pentru probleme de raționament cu recompense verificabile. Deoarece aceasta este cea mai "stabilă" setare pentru construirea unei conducte simple pentru învățare. Următoarele frontiere ar fi LLM-as-judge și setările de recompensă întârziate cu orizont lung.
944