摘要

目的探索应用文本挖掘技术开展全球传染病风险预警地理分布图的计算机自动绘制。方法采用网络文本爬取、数据清洗、关键信息挖掘、数据库整合、地图平面投射、传染病信息标记等智能化大数据处理技术,在SAS 9.4大数据挖掘软件中实现对全球传染病发生或流行的周期性评估、可视化展现。结果以近6个月为周期从互联网上爬取全球传染病信息约3 000条9.5万个字符组建非结构化数据仓库,构建48种国际主要传染病的风险评估数据库和12.2万条数据信息的国家或地区字典库。完成文本挖掘后在世界地图上以红、橙、蓝3色分别显示不同国家或地区传染病的高、中、低风险等级,并可通过鼠标悬停或触摸屏手指触摸实现任意一个国家或地区正在发生或流行的传染病病种警示。结论基于文本挖掘的大数据技术能高效处理包括文本在内的非结构数据信息,从而通过计算机的全自动运算展现警示,有效提升我国对境外传染病输入风险的防控效率。