摘要

从结构复杂多样的电子病历文本中提取出疾病表征词,是电子病历文本研究与应用的关键环节。LDA模型可以实现对文本信息的有效提取,但标准LDA(latent Dirichlet allocation)及其相关改进模型在提取疾病表证词时针对性较弱、精确率较低。该文提出了FW-LDA(feature weighting LDA)模型,针对中文电子病历文本的数据特征,降低非任务相关词的共现频率,在标准LDA模型的基础上引入了词特征加权,以实现对疾病表证词的针对性提取。通过分析心血管疾病数据的特点,形成了相适应的词性、词长和词义特征加权计算公式,构建了对应的任务侧重和非任务侧重的外部语义词库,并通过实验验证了词特征加权对疾病表征词提取任务的影响程度。与LDA模型相比,在主题数值小于30时,FW-LDA模型的主题一致性有显著提升;在主题数值范围[5,65]上,FW-LDA模型的疾病表征词提取平均精确率提升了48.5%。

全文