摘要

视频显著性预测任务目的在于预测出视频片段中人的注意力最可能关注的区域。为了解决该任务中时间与空间特征联合建模的问题,本文提出了联合时空注意力机制 (COStA), 强调出特定时间和区域的特征供模型来感知。基于该机制,本文进一步提出了视频显著性预测模型TASED-COStA, 对比实验表明,COStA机制能为神经网络模型在CC、NSS 与SIM三个评价指标上获得大于8%的性能提升, TASED-COStA模型能有效地建模视频信息中的时间与空间关系,并给出准确的预测结果。

全文