会話型エージェントの場合、ユーザーは環境です。各会話は、ユーザーをモデルの目標に導くポリシーのロールアウトと見なすことができます。