Břitva RL: Řádkování podle zásad zapomíná méně než SFT. I při shodné přesnosti vykazuje RL méně katastrofické zapomínání Klíčový faktor: Zaujatost RL v oblasti aktualizací zásad směrem k řešením s minimálním obsahem KL Teorie + LLM a experimenty s hračkami potvrzují, že RL zůstává blíže základnímu modelu
102,93K