Die Mehrheit hat nicht immer recht RL-Training zur Lösungsaggregation