學習何時規劃 經過動態規劃訓練的LLM代理學習何時花費測試時間的計算,平衡成本與性能。 這是首個探索在順序決策任務中訓練LLM代理進行動態測試時間計算分配的工作。
12.31K