摘要

基于模板的上下位关系抽取是上下位关系自动获取的重要方法。目前学术界通常采用两类模板,但目前中文上下位关系抽取研究尚缺乏对这两类模板的客观比较。针对这一问题,提出基于大规模语料的匹配抽取和高质量人工标注,以实现对两类模板的优劣进行客观对比和评价,为上下位关系自动获取提供坚实基础。对于四种主流的上下位相关句型,在3 800万句中文语料上进行匹配抽取,并人工标注2 800个随机抽取的上下位候选词对。实验结果表明,依存句法模板的准确度比词法模板高出9.07百分点,而召回度则略低了0.32百分点。