针对强化学习在应用过程中存在的探索与利用平衡问题,提出一种基于动作概率的强化学习动作探索策略。该策略结合强化学习中状态-动作值函数的大小,动态调整动作选择概率,以提高强化学习效率,解决探索与利用之间的平衡问题。通过两个格子世界的仿真环境,结合Q-learning算法和DeepSARSA算法进行仿真验证,对比了ε-greedy策略和Softmax分布策略,结果表明提出的探索策略具有较好的收敛速度和稳定性。