Takže, jak jsme předpokládali, jemné doladění pod dohledem byla lobotomie. Jsem rád, že jsme tuto éru nechali za sebou.
Aran Komatsuzaki
Aran Komatsuzaki5. 9. 12:36
Břitva RL: Řádkování podle zásad zapomíná méně než SFT. I při shodné přesnosti vykazuje RL méně katastrofické zapomínání Klíčový faktor: Zaujatost RL v oblasti aktualizací zásad směrem k řešením s minimálním obsahem KL Teorie + LLM a experimenty s hračkami potvrzují, že RL zůstává blíže základnímu modelu
11,91K