Aprendendo quando planejar Os agentes de LLM treinados com planejamento dinâmico aprendem quando gastar computação em tempo de teste, equilibrando custo e desempenho. Este é o primeiro trabalho a explorar o treinamento de agentes LLM para alocação dinâmica de computação em tempo de teste em tarefas sequenciais de tomada de decisão.