Compartiendo la transcripción por si, como yo, la buscaste recientemente y no pudiste encontrarla. Roon (@tszzl): “Cada vez que entrenas un modelo, podrías no cambiar nada sobre el conjunto de datos, y luego ejecutar una nueva semilla de RL, y tendrías una personalidad ligeramente diferente. Es porque hay cierta variabilidad en el proceso de entrenamiento. Es aleatorio: estás haciendo un paseo aleatorio a través del espacio del modelo. Ni siquiera podemos reproducir una personalidad en la misma ejecución de entrenamiento tan fácilmente, y mucho menos a lo largo del tiempo... Es una pregunta muy difícil internamente [en OpenAI]. Intentamos minimizar la deriva de personalidad, porque la gente llega a amar los modelos, pero es un problema muy complicado.”