对话策略是任务型对话系统构建的核心组件,通常被定义为强化学习,通过代理和环境的交互,提升对话策略效率。针对当前任务型的对话系统缺少高质量的标注数据集及模型难于收敛等问题,提出了结合规划的双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient)算法,用以优化对话策略。该算法使用孪生网络结构,采用软更新、策略噪音和延迟学习等方法,有效的改善了过估计问题。实验结果表明,该方法加速了模型的收敛,提升了对话成功率。