對於對話代理來說,使用者就是環境。可以將每次對話視為一個策略的展開,該策略引導使用者朝向模型的目標。