sube, perdedor, estamos escalando modelos de RL desde cero