摘要
注视估计从人脸图像中估计3D注视方向。然而,由于注视直接相关的眼睛细节在人脸图像中的稀缺性,现有的注视估计模型存在忽略小尺度的眼睛细节和被图像特征中的注视无关信息淹没的问题。为此,提出了一种基于多尺度聚合和共享注意力的模型以改进特征的表达能力。首先,模型使用分流自注意力聚合图像中不同尺度的眼睛和人脸信息,并引导模型学习不同尺度对象之间的相关性,以此缓解模型对图像中眼睛细节的遗漏;其次,通过建立共享注意力来捕获图像之间的共享特征,减少对注视无关特征的关注;最后,结合多尺度聚合和共享注意力,进一步提高注视估计的精度。实验结果表明,在公开数据集MPIIFaceGaze、Gaze360、Gaze360_Processed和GAFA-Head上,本文模型的平均角度误差相比GazeTR降低了5.74%、4.09%、4.82%和10.55%,且在背对相机的困难图像上也降低了4.70%的平均角度误差。证明了本文模型能有效地聚合多尺度的注视信息和共享注意力,提高注视估计的准确性和鲁棒性。
-
单位生物医学工程学院; 南方医科大学