La mayoría no siempre tiene razón Entrenamiento RL para la agregación de soluciones