摘要

自然语言中包含很多显式命题,正确理解这些命题是理解文本信息的关键。正确识别显式命题并解析其中的关键成分有助于理清语言中的逻辑关系、辅助自然语言理解。该文基于百度百科数据构建了自然语言显式命题标注数据集,并提出两个研究任务:自然语言显式命题自动识别和命题关键成分解析。其中,显式命题自动识别任务判断一个自然语言句子是否为命题;显式命题关键成分解析任务从已获取的命题中解析出支撑该命题成立的关键成分。针对任务一,构建基于BERT的二分类模型;针对任务二,构建基于BERT-BiLSTM-CRF的序列标注模型。实验结果表明,模型在任务一的正确率达到74.95%,超过基线模型15.30%;在任务二的F值达到90.74%,超过基线模型17.69%。该文为下一步研究提供了可靠的标注数据集和基线方法。

  • 单位
    北京语言大学