🚀LLM se mohou učit přímo z verbální zpětné vazby – nejsou potřeba žádné skalární odměny! 😥Skalární odměny komprimují bohatou zpětnou vazbu – "nadbytečné, ale správné" vs. "stručné, ale překlepové" může být 0,8 💡Navrhujeme naučit se Feedback-Conditional Policy (FCP), extrémně škálovatelné paradigma!