摘要
为了让科学家快速定位实验关键过程,获取更为详细的实验过程信息,需要对空间科学实验自动添加描述性文字内容。针对空间科学实验目标较小且数据样本较少的问题,本文提出了基于多模态学习的空间科学实验图像描述算法模型,主要分为四部分:基于改进U-Net的语义分割模型,基于语义分割的空间科学实验词汇候选,自下而上的通用场景图像特征向量提取和基于多模态学习的描述语句生成。此外,本文构建了空间科学实验目标数据集,包括语义掩码标注和图像描述标注,来对空间科学实验进行图像描述。实验结果表明:相对于经典的图像描述模型Neuraltalk2,本文提出的算法在精度评定方面,METEOR结果平均提升了0.089,SPICE结果平均提升了0.174;解决了空间科学实验目标较小、样本较少的难点,构建基于多模态学习的空间科学实验图像描述模型,满足对空间科学实验场景进行专业性、精准性的描述要求,实现从低层次感知到深层场景理解的能力。
-
单位中国科学院空间应用工程与技术中心; 中国科学院大学