計画を立てるタイミングを学ぶ 動的計画でトレーニングされたLLMエージェントは、テスト時間、コンピューティングをいつ費やすかを学び、コストとパフォーマンスのバランスをとります。 これは、逐次的な意思決定タスクにおける動的なテスト時のコンピューティング割り当てのための LLM エージェントのトレーニングを検討する最初の研究です。
12.31K