摘要
将分布式Q学习算法与Pareto排序法相结合,提出了一种利用强化学习算法解决多目标优化问题的策略。该策略充分利用Q学习语句式的奖赏机制来描述问题的多重目标函数,并结合一般的Pareto排序法,在有限的迭代过程后输出可以充分接近于Pareto前沿的非支配解集。与其他智能搜索算法相比,该策略具有结构简单、无需先验知识、参数设置少的特点。测试函数优化问题验证了算法的有效性,为智能算法解决多目标优化问题提供了一种新思路。
-
单位软控股份有限公司; 北京化工大学