الأغلبية ليست دائما على حق تدريب RL لتجميع الحلول