本文拟采用Double Deep Q-learning模型进行算法设计,该算法是强化学习中的一种values-based算法,实现一种神经网络模型来代替表格Q-Table,解决了系统状态过多导致的Q-Table过大问题。