أشارك النص في حال، مثلي، بحثت عن هذا مؤخرا ولم تجده. رون (@tszzl): "في كل مرة تدرب فيها نموذجا، قد لا تغير شيئا في مجموعة البيانات، ثم تشغل بذرة RL جديدة، وسيكون لديك شخصية مختلفة قليلا. ذلك بسبب وجود بعض التفاوت في عملية التدريب. الأمر عشوائي - أنت تقوم بجولة عشوائية عبر فضاء النموذج. لا يمكننا حتى إعادة إنتاج شخصية في نفس فترة التدريب بهذه السهولة، ناهيك عن أن نعبر عبر كل العصور ... إنه سؤال صعب جدا داخليا [في OpenAI]. نحاول تقليل انحراف الشخصية، لأن الناس يحبون العارضات، لكنها مشكلة صعبة جدا."