Ludzie nie chcą ani nie potrzebują tego
Jednak xAI, Meta i teraz OpenAI wszyscy starają się to zbudować.
To prawdopodobnie zła rzecz dla ludzkości. Nie rób tego.
To jest mniej więcej to, co chciałbym móc wykorzystać do trenowania modeli, jeśli to rzeczywiście to, na co wygląda - Chcesz być jak "Nie, nie wywołuj metody asynchronicznej w ten sposób, to spowoduje problem x y z" lub coś w tym stylu i to się uczy, ale muszę to dokładniej zbadać, aby zobaczyć, czy rzeczywiście o to chodzi?
🚀LLM-y mogą uczyć się bezpośrednio z werbalnych informacji zwrotnych — nie są potrzebne nagrody skalarne!
😥Nagrody skalarne kompresują bogate informacje zwrotne — „redundantne, ale poprawne” vs „zwięzłe, ale pełne literówek” mogą mieć obie wartość 0.8
💡Proponujemy nauczyć się Polityki Warunkowej na podstawie Informacji Zwrotnej (FCP), niezwykle skalowalnego paradygmatu!