摘要
行为识别是通过对视频数据进行处理分析从而让计算机理解人的动作和行为.不同模态数据在外观、姿态、几何、光照和视角等主要特征上各有优势,通过多模态融合将这些特征进行融合可以获得比单一模态数据更好的识别效果.本文对现有行为识别多模态融合方法进行介绍,对比了它们之间的特点以及获得的性能提升,包括预测分数融合、注意力机制、知识蒸馏等晚期融合方法,以及特征图融合、卷积、融合结构搜索、注意力机制等早期融合方法.通过这些分析和比较归纳出未来多模态融合的研究方向.
-
单位厦门大学; 厦门市美亚柏科信息股份有限公司