摘要
针对传统Q-learning算法在路径规划中存在收敛速度慢、难以平衡探索与利用的关系等问题,采用改进后的势场对Q-learning算法的Q表初值进行优化,引入多步长策略减少算法的迭代次数和路径中的拐点个数,加入动态调节贪婪因子平衡探索与利用的关系。仿真结果证明,与Q-learnig算法相比,改进后的IMD-Q-learnig算法可将最优路径长度缩短79.09%,拐点个数减少46.67%,算法效率提升88.40%。
-
单位中国电子科技集团公司第三十六研究所; 南昌大学信息工程学院