如今,视频事件检测正在越来越广泛地被应用于智能视频监控领域,其中采用的最广泛的检测方法是事件描述。自注意力机制可以实现自动关注到图像的核心区域,并利用编码和解码方法转化为图像描述。本文提出了一种深度学习和自注意力机制的视频事件描述方法,该方法首先提取视频中有代表性的关键帧,然后基于深度学习模型和注意力机制生成每个关键帧的图像描述,最后生成视频的事件描述。实验结果表明,本文方法能够很好地关注到事件发生区域,并生成高质量的视频事件描述。