摘要
本发明公开一种基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA-FR的图像字幕生成方法,主要解决现有技术中注意力模型在某时刻的输出仅考虑图像的特征集合和前一时刻的单词向量,只使用交叉熵损失函数训练网络所带来的生成字幕描述不准确、表述不流畅的问题。本发明的具体步骤如下:(1)生成自然图像测试集和训练集;(2)提取特征向量;(3)构建ASCA-FR网络;(4)训练ASCA-FR网络;(5)获得自然图像字幕;本发明利用MLL损失函数对构建的ASCA-FR网络进行训练,使得生成的字幕描述准确且表述流畅。
- 单位