面向中文AMR标注体系的兼语语料库构建及兼语结构识别

作者:侯文惠; 曲维光*; 魏庭新; 李斌; 顾彦慧; 周俊生
来源:清华大学学报, 2021, 61(09): 920-926.
DOI:10.16511/j.cnki.qhdxxb.2021.21.007

摘要

兼语结构是汉语中常见的一种动词结构,由述宾短语与主谓短语共享兼语,结构复杂,给句法分析造成困难,因此兼语识别工作对于语义解析及下游任务都具有重要意义。但现存兼语语料库较少,面向中文抽象语义表示(AMR)标注体系的兼语语料库构建仍处于空白阶段。针对这一现状,该文总结出一套兼语语料库标注规范,构建了包含4 760个兼语句的面向中文AMR标注体系的兼语语料库。基于构建的语料库,采用LA-BiLSTM-CRF模型识别兼语结构,达到了86.06%的F1,并分析了识别结果,提出了改进方向。

全文