摘要

近年来,因工人未佩戴安全帽而造成的施工事故频繁发生,为降低事故发生率,对工人安全帽佩戴情况进行图像描述的研究。当前基于神经网络的图像描述方法缺乏可解释性且细节描述不充分,施工场景图像描述的研究较为匮乏,针对该问题,提出采用YOLOv3(You Only Look Once)的检测算法,以及基于语义规则和语句模板相结合的方法递进式地生成安全帽佩戴的描述语句。首先,采集数据,制作安全帽佩戴检测数据集和图像字幕数据集;其次,使用K-means算法确定适用于该数据集的锚框参数值,用以YOLOv3网络的训练与检测;再次,预定义一个语义规则,结合目标检测结果来提取视觉概念;最后,将提取出的视觉概念填充进由图像字幕标注生成的语句模板,以生成关于施工场景中工人安全帽佩戴的图像描述语句。使用Ubuntu16.04系统和Keras深度学习框架搭建实验环境,在自制的安全帽佩戴数据集上进行不同算法的对比实验。实验结果表明,所提方法不仅能够有效界定安全帽佩戴者和未佩戴者的数量,而且在BLEU-1和CIDEr评价指标上的得分分别达到了0.722和0.957,相比其他方法分别提高了6.9%和14.8%,证明了该方法的有效性和优越性。