学习何时规划 经过动态规划训练的LLM代理学习何时花费测试时间的计算,平衡成本与性能。 这是首个探索在顺序决策任务中训练LLM代理进行动态测试时间计算分配的工作。
12.31K