摘要
目的了解全国传染病报告信息管理系统中法定传染病报告卡重复报告(重卡)现状,分析重卡原因,提出解决方法,进一步规范报告管理,提高数据质量。方法基于Hadoop和Spark为核心的大数据分析平台,利用Python和Jupyter notebook,按照查重条件对2005—2017年全国法定传染病报告卡分别统计分析年度内重卡、累计重卡和跨年度重卡,并利用Python包matplotlib绘图展示统计结果。结果 2005—2017年年度内重卡率平均为7.65/万,累计重卡数1 141 539张,累计重卡率133.47/万,重卡数居前3位的疾病是乙型肝炎、手足口病和肺结核,占比分别为30.23%、28.01%和12.96%。其中2017年年度内重卡率为11.19/万,年内重卡数8 497张,跨年度重卡累计276 194张。结论法定传染病年度内卡片重复报告依然有待加强管理,跨年度重卡和累计重卡逐年增多,严重影响数据分析,需要尽快采取相应的数据管理和分析对策。
- 单位