🚀LLM-y mogą uczyć się bezpośrednio z werbalnych informacji zwrotnych — nie są potrzebne nagrody skalarne! 😥Nagrody skalarne kompresują bogate informacje zwrotne — „redundantne, ale poprawne” vs „zwięzłe, ale pełne literówek” mogą mieć obie wartość 0.8 💡Proponujemy nauczyć się Polityki Warunkowej na podstawie Informacji Zwrotnej (FCP), niezwykle skalowalnego paradygmatu!