🚀LLM могут учиться напрямую на основе вербальной обратной связи — без необходимости в скалярных вознаграждениях! 😥Скалярные вознаграждения сжимают богатую обратную связь — "избыточные, но правильные" против "кратких, но полных опечаток" могут быть оба 0.8 💡Мы предлагаем изучить Политику, зависящую от обратной связи (FCP), крайне масштабируемую парадигму!