1/ Para hacer de acero mi último hilo. Los investigadores podrían preguntarse: "¿Por qué no usar RL para extraer contexto institucional?" ¡Sí, inténtalo! Pero convertir modelos en productos utilizables para la ley, la atención médica o el servicio no es Atari. Son flujos de trabajo, y RL se topa rápidamente con paredes desordenadas.
2/ El primer paso suena simple: registre las acciones de los expertos. Cada línea roja, anulación o escalada es un punto de datos. En teoría, se puede clonar una política de la historia. En la práctica, los registros no capturan por qué. Una cláusula puede ser eliminada por riesgo legal, preferencia del cliente o puro hábito.
3/ A continuación, entrene un modelo de recompensa a partir de comentarios. Recopile comparaciones: "este borrador es más seguro que aquel". Funciona muy bien en los papeles RLHF. En dominios de alto riesgo, el tiempo de los expertos es escaso y sus juicios a menudo entran en conflicto. Señal escasa, costosa y desordenada.
4/ Incluso cuando tienes resultados, ¿la asignación de créditos parece un poco brutal? El resultado de un caso depende de años de mociones; la recuperación de un paciente en docenas de intervenciones. ¿Qué acción "ganó la recompensa"? RL prospera en horizontes cortos, no en escalas de tiempo institucionales.
24.88K