摘要

离合现象是指汉语中一种词语的前后语素之间可以插入其他成分,但分离后表达的意思仍然是一个整体的现象。该文采用字符级序列标注方法解决二字动词离合现象的自动识别问题,以避免自动分词及词性标注的错误传递;引入掩码机制,遮蔽句中离合词,以强化对中间插入成分的学习,并对前后语素采用不同的掩码以强调其出现顺序;设计双编码模型,对原始句子与掩码后的句子分别进行编码。实验结果表明,该文提出的BERT_MASK+2BiLSTMs+CRF模型比当前性能最优的离合词识别模型提高了2.85%的F1值。