基于Aho_Corasick算法的中医药数据清洗方法

作者:郭春丽; 纪树峰*; 林源; 黄海松; 王俐良
来源:计算机时代, 2022, (03): 77-80.
DOI:10.16644/j.cnki.cn33-1094/tp.2022.03.020

摘要

中医药经过数千年的发展,积累了大量的各种类型的数据。很多研究人员利用大数据技术,对方剂或药品数据预处理后,使用相关算法挖掘和探寻疾病诊疗规律,为新药研制、疾病诊治、医学科研提供科学的依据。但随着方剂规模的增大,人工预处理的方式效率低且易出错。因此,文章提出一种基于Aho_Corasick算法的清洗方法,将药物作为模式串,对方剂或药品的药物信息进行识别,规范统一方剂中的药物名称,为后续挖掘工作提供高质量的数据。实验结果显示,准确率达到95%以上,数据清洗效果明显。