病理镜检文本数据的结构化处理方法

陈德华; 刘茜茜; 乐嘉锦; 潘乔; 朱立峰

摘要

目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想,且国内的中文医学术语标准化进程不足。针对此问题,提出一种基于统计信息对镜检文本数据进行结构化处理的方法。该方法以聚类文本为基础,基于断点词与重合串分词,利用分词词串的统计信息获取关键词以及词语类别信息,并进行词语扩充,从而得到最终词库作为字典。利用基于字典的双向最大匹配分词算法,对文本数据进行分词,并通过添加否定检出的规则,获取结构化数据。实验结果表明,该方法获取的医学词库的准确率达到了80%,实现了不依赖分词工具获得结构化数据的功能。

单位
东华大学; 上海交通大学医学院附属瑞金医院

收藏分享被引浏览

更新时间：2024-05-14 10:46

病理镜检文本数据的结构化处理方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友