基于文本词特征加权LDA的疾病表征提取方法

余肖生; 沈胜; 陈鹏

doi:10.3969/j.issn.1673-629X.2022.05.002

摘要

从结构复杂多样的电子病历文本中提取出疾病表征词，是电子病历文本研究与应用的关键环节。LDA模型可以实现对文本信息的有效提取，但标准LDA(latent Dirichlet allocation)及其相关改进模型在提取疾病表证词时针对性较弱、精确率较低。该文提出了FW-LDA(feature weighting LDA)模型，针对中文电子病历文本的数据特征，降低非任务相关词的共现频率，在标准LDA模型的基础上引入了词特征加权，以实现对疾病表证词的针对性提取。通过分析心血管疾病数据的特点，形成了相适应的词性、词长和词义特征加权计算公式，构建了对应的任务侧重和非任务侧重的外部语义词库，并通过实验验证了词特征加权对疾病表征词提取任务的影响程度。与LDA模型相比，在主题数值小于30时，FW-LDA模型的主题一致性有显著提升；在主题数值范围[5,65]上，FW-LDA模型的疾病表征词提取平均精确率提升了48.5%。

全文

访问全文

收藏分享被引浏览

更新时间：2024-09-23 19:29

基于文本词特征加权LDA的疾病表征提取方法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友