Aprender cuándo planificar Los agentes de LLM capacitados con planificación dinámica aprenden cuándo gastar el tiempo de prueba en el cómputo, equilibrando el costo y el rendimiento. Este es el primer trabajo que explora el entrenamiento de agentes LLM para la asignación informática dinámica en tiempo de prueba en tareas secuenciales de toma de decisiones.
12.31K