摘要
本发明提供一种基于音视频多模态特征融合的人格画像生成方法、系统、存储介质和电子设备,涉及人格预测技术领域。本发明包括预处理受试者的音视频数据,获取面部运动单元、头部姿态、眼睛注视角度组成的组合序列特征,去除掉背景的面部图像特征和帧间运动差分特征;以及预处理音频数据,获取音频模态特征;将组合序列特征、面部图像特征、帧间运动差分特征和音频模态特征,分别输入对应预先构建好的学习网络中,获取第一、第二、第三和第四模态人格预测信息并融合,利用融合信息预测大五人格分值,生成受试者的人格画像。利用无接触的音视频特征多模态融合评估实现了用户人格画像的去量表化测量,可以准确地描绘出受试者的人格画像。
- 单位