Aprendiendo cuándo planificar Los agentes LLM entrenados con planificación dinámica aprenden cuándo gastar recursos computacionales en tiempo de prueba, equilibrando costo y rendimiento. Este es el primer trabajo que explora el entrenamiento de agentes LLM para la asignación dinámica de recursos computacionales en tiempo de prueba en tareas de toma de decisiones secuenciales.