针对深度确定性策略梯度算法(DDPG)中的经验回放机制,提出了一种综合了高优先级数据重播和高相似度数据剪枝,并对送入网络训练的样本数据进行处理的方法。针对先进先出存储方法和重放缓冲区中随机采样方式造成经验回放效率较低的问题,提出了解决方案:选择高优先级样本送入网络进行训练,同时移除缓冲区中的相似度较高的样本并保留一些罕见的样本。通过相关实验表明,方法不仅可以在更短的训练时间内达到更好的性能,而且可以加快训练过程,提高学习稳定性和长期记忆能力。