摘要
针对一般领域的命名实体识别方法不能直接用于中文医学专业实体的识别,现有的相关研究只专注于英文文本和扁平结构的医学实体识别等问题,通过对专业领域实体识别方法的研究,结合中文医学实体的特点提出了一种面向中文医学实体的级联识别方法。将每个字符元素相对于实体的位置标签嵌入模型,并结合中文医学实体跨度内不同元素的重要程度进行实体的融合表示。首先通过序列标注方法检测字符的位置标签,然后利用字符的位置信息指导候选实体生成,并进行实体语义分类。模型在CMeEE和CCKS2018数据集以及中文糖尿病科研文献数据集上分别进行扁平实体、嵌套实体和不连续性长实体的识别实验。实验结果表明,该方法能够有效的识别中文医学文本中不同结构的实体。
- 单位