La gente no quiere ni necesita esto
Sin embargo, xAI, Meta y ahora OpenAI están luchando por construirlo.
Esto es probablemente algo malo para la humanidad. No lo hagas.
Esto es algo con lo que me gustaría poder entrenar modelos si es lo que parece: ¿Quieres ser como "No, no llames a un método asíncrono de esa manera causará un problema x y z" o algo así y aprende, pero tendré que profundizar en esto para ver si eso es realmente lo que es?
🚀Los LLM pueden aprender directamente de la retroalimentación verbal, ¡no se necesitan recompensas escalares!
😥Las recompensas escalares comprimen la retroalimentación rica: "redundante pero correcto" frente a "conciso pero lleno de errores tipográficos" podrían ser 0.8
💡Proponemos aprender la Política Condicional de Retroalimentación (FCP), ¡un paradigma extremadamente escalable!