摘要

自动人格识别是当前心理学、计算机科学等相关领域的研究热点。为了有效利用视频序列中的时间维度特征和帧注意力特征,提出一种基于Transformer视频序列人格识别方法。首先,通过预训练好的卷积神经网络提取出对应的视觉帧级特征;然后,利用双向长短时记忆网络与Transformer网络对它们分别进行时间信息和帧注意力信息建模,学习高层次的视觉全局特征;最后,通过特征层融合方法将视觉全局特征结合,实现视觉人格识别。在公开人格数据集ChaLearn First Impression V2的实验结果表明,该方法取得了0.9141的大五人格平均分数,能够有效提升视觉人格识别效果。

全文