Escalando el Aprendizaje de Agentes a través de la Síntesis de Experiencias 📝: ¡Escalando entornos de entrenamiento para RL simulándolos con LLMs de razonamiento! Modelos de entorno + Buffer de repetición + Nuevas tareas = RL barato para cualquier entorno! - Fuertes mejoras sobre entornos no listos para RL y múltiples familias de modelos! - Funciona mejor en configuraciones de RL sim-2-real → Inicio en caliente para entornos de alto costo 🧵1/7