汉语语篇零形式识别与填充方法研究

作者:张月平; 李茹*; 王元龙; 柴清华; 武宇娟; 关勇
来源:计算机工程, 2020, 46(03): 79-86.
DOI:10.19678/j.issn.1000-3428.0055783

摘要

零形式识别与填充是在语篇上下文中为句中缺失的语义角色寻找填充项,然而采用分类思想预测集合中正确填充项的方法制约了零形式填充的性能。针对该问题,结合启发式规则与决策树算法识别出需要填充内容的零形式,将上下文中填充过框架元素的内容构成候选语集合,并通过改进的SMOTE算法对少数类样本数据进行扩展,解决了候选语集合数据的非平衡问题。在此基础上,借助汉语框架知识库提取语义相似性特征,利用框架元素间的映射关系提升零形式填充效果。实验结果表明,该方法在数据层面对填充样本的非平衡性进行处理,可使最终的F值提高约12%。

全文