以无线传能网络的节点控制问题为研究对象,针对统一化的节点模型设计一种基于策略梯度的强化学习算法。该算法使用神经网络作为控制器,并设计一套奖励机制用来评估控制结果的优劣,以最大化累计奖励为目标优化网络参数,使神经网络控制器达到更好的控制效果。仿真结果表明,只需设置对控制结果的奖励机制,就可以让节点根据供电需求的变化学习到对应的控制策略,适用于近似周期性的供电场景,也适用于极端情况的供电控制。