摘要

针对面向电子病历的疾病辅助诊断问题,文中将词向量和文本判别方法应用到电子病历的文本语义解析任务中。具体地,采用预训练语言模型作为字符的语义表征,从而对文本特征进行准确表达,在卷积神经网络中提取N元特征后,使用胶囊单元对特征进行聚类,从而更好地捕获文本的高层语义特征,同时减少对数据量的需求。实验发现,基于ERNIE+CNN+Capsule的组合模型在真实的电子病历数据集上取得了良好的效果。此外,受到图像风格迁移的启发,文中训练了从电子病历文本到病情自述文本的风格转换模型,利用非平行数据,在风格转换模型的基础上,增加了对抗思想和困惑度评价指标,可以有效缓解训练数据和测试数据分布不一致的问题。最后,相比ALBERTtiny,BERT等模型,所提模型在病历文本上获得了86.89%的F1值,提升了1.36%~3.68%;在泛化性能任务评估中,获得了94.95%的F1值。实验证明,所提模型在保证较高准确率的前提下,可以有效地适应疾病辅助诊断任务。