摘要

事实验证旨在检查一个文本陈述是否被给定的证据所支持.由于表格结构上具有依赖性、内容上具有隐含性,以表格作为证据的事实验证任务仍面临很多挑战.现有工作或者利用逻辑表达式来解析基于表格证据的陈述,或者设计表格感知神经网络来编码陈述-表格对,以此实现基于表格的事实验证任务.但是,这些方法没有充分利用陈述背后隐含的表格信息,从而导致模型的推理性能下降,并且基于表格证据的中文陈述具有更加复杂的语法和语义,也给模型推理带来更大的困难.为此,提出基于胶囊异构图注意力网络(CapsHAN)的中文表格型数据事实验证方法,所提方法能充分理解陈述的结构和语义,进而挖掘和利用陈述所隐含的表格信息,有效提升基于表格的事实验证任务准确性.具体而言,首先通过对陈述进行依存句法分析和命名实体识别来构建异构图,接着对该图采用异构图注意力网络和胶囊图神经网络进行学习和理解,然后将得到的陈述文本表示与经过编码的表格文本表示进行拼接,最后完成结果的预测.更进一步,针对现有中文表格型事实验证数据集匮乏而难以支持基于表格的事实验证方法性能评价的难题,首先对主流TABFACT和INFOTABS表格事实验证英文数据集进行中文转化,并且专门针对中文表格型数据的特点构建了基于UCL国家标准的数据集UCLDS,该数据集将维基百科信息框作为人工注释的自然语言陈述的证据,并被标记为蕴含、反驳或中立3类. UCLDS在同时支持单表和多表推理方面比传统TABFACT和INFOTABS数据集更胜一筹.在上述3个中文基准数据集上的实验结果表明,所提模型的表现均优于基线模型,证明该模型在基于中文表格的事实验证任务上的优越性.

全文