目前,在时空动作检测任务中,很少有方法明确提出使用优化动作交互关系特征来提升检测的准确性。笔者提出基于多头注意力的交互特征增强方法,包括人物视觉、人的时序、全局背景和空间位置的特征增强,采用串行融合策略连接增强块,有效提升了时空动作检测的准确性。模型在自建Unload-Actions数据集上的帧级mAP达到27.93%,并在消融实验中证明了交互特征增强块和串行融合策略的有效性。