为更好提升视频中的多对象视觉检测和追踪的有效性,提出一种用于视觉对象检测的深度卷积神经网络架构,考虑时域信息和空域信息的基础上直接以视频作为输入,通过引入粒化层,确保更好地定位含有检测对象的前景区域;提出一种对象追踪方法,由于只涉及同一类对象内的逐帧关联,该方法在减少运行时间的同时增加追踪精度。在不同对象检测和追踪的基准集上与不同检测方法和追踪方法的各种评价指标对比验证了该方法的有效性。