摘要
目的:为智能医疗的网络问诊设计一个前端任务模块,对互联网真实医患对话文本进行自动标注研究,探索识别对话实体阴阳性准确率较高的方法。方法:对医患对话真实文本特点进行分析,选取BERT及BERT-WWM对医患对话真实文本中的实体进行嵌入向量化,再通过语义信息获取,最终对实体属性进行分类和计算,自动标注其阴阳性。结果:实验结果表明BERT-WWM在处理中文对话的实体分类标注时优于BERT约16%。结论:优先选择全词掩码,以单元(Unit)来替代以字为单位的掩码对医学类实体进行分类和标注,可大大提高原模型的准确度。
-
单位中国医学科学院北京协和医学院; 北京协和医院