摘要

目的建立自回归移动平均(autoregressive integrated moving average,ARIMA)模型,并对全国(不包括我国港澳台地区,下同)肺结核月报告患者例数进行预测效果研究,为肺结核防控措施的制定提供科学参考。方法通过中国疾病预防控制中心主办的《疾病监测》杂志公布的我国每月甲、乙、丙类传染病疫情动态简介,搜集2006年1月至2019年8月全国肺结核月报告患者例数。采用SPSS 26.0统计学软件,以2006年1月至2018年12月的全国肺结核月报告患者例数为基础建立时间序列,初步识别和定阶ARIMA模型类型;再以满足模型简洁、ARIMA模型各参数[包括自回归法(AR),平均移动法(MA),季节自回归法(SAR),季节移动平均法(SMA)]均有统计学意义(P值均<0.05),以及P>0.05的模型总体检验指标(Ljung-Box Q值)、最大平稳决定系数(R2)、最小整体模型的标准化贝叶斯信息准则值(NBIC)、最小均方根误差(RMSE)为标准筛选几种ARIMA模型;继而以2019年1—8月报告患者例数作为验证数据,参照预测值相对误差越小模型越优的原则筛选出最小相对误差的模型为最优模型;最后再以该模型预测我国2019年9月至2020年12月肺结核月报告患者例数。结果根据2006—2018年每年的全国肺结核月报告患者例数为基础建立时间序列,确定需拟合ARIMA(p,d,q)或ARIMA(p,d,q)×(P,D,Q)模型。以Ljung-Box Q值所对应的P值均>0.05、模型简洁、模型各参数均有统计学意义(P值均<0.05)筛选出12个基本模型,然后再以R2最大的模型[ARIMA(1,0,1)(0,1,1)12,R2=0.707]、RMSE最小的模型[ARIMA(0,1,2)(0,1,1)12,RMSE=9147.85]、NBIC最小的模型[ARIMA(0,1,1)(0,1,1)12,NBIC=18.355]、Ljung-Box Q值最小的模型[ARIMA(1,1,1)(0,1,1)12,Ljung-Box Q=8.797]作为备用模型,预测2019年1—8月中国肺结核月报告患者例数,并与实际的月报告患者例数进行比较,确定预测平均相对误差最小(0.55%)、MA(1)=0.875(t=19.243,P<0.001)、SMA(1)=0.876(t=7.596,P<0.001)、Ljung-Box Q=9.876(df=16,P=0.873)的ARIMA(0,1,1)(0,1,1)12模型为最优模型。再以该模型预测我国2019年9月至2020年12月肺结核月报告患者例数,其中2020年1—12月患者总计1 025 863例,平均每月85 489例。结论ARIMA(0,1,1)(0,1,1)12模型对预测中国肺结核月报告患者例数方面效果较好,但应注意模型的建立和预测是个动态变化过程,需不断根据积累的数据进行调整,从而提高预测精度。

  • 单位
    上海中医药大学附属龙华医院