针对工程以及机械结构中的优化问题,本研究提出一种基于强化学习思想的结构优化算法,该算法受到强化学习中的状态转移模型的启发,将设计变量定义为动作,相应的界限函数作为状态,神经网络的损失值由待优化的目标函数代替,采用神经网络去模拟策略函数,通过反向传播、梯度下降的原理去迭代更新神经网络使其收敛于参数的最优值。基于Python语言的案例仿真结果用布谷鸟搜素算法进行了验证。在文章的最后说明了该算法的局限性。