Apprendre Quand Planifier Les agents LLM entraînés avec une planification dynamique apprennent quand dépenser des ressources de calcul en temps de test, équilibrant coût et performance. C'est le premier travail à explorer l'entraînement des agents LLM pour l'allocation dynamique des ressources de calcul en temps de test dans des tâches de prise de décision séquentielle.
12,31K