基于密度优先策略的答案源搜索方法研究

作者:李伟康; 洪宇*; 陈鑫; 邹博伟; 张民
来源:山西大学学报(自然科学版), 2019, 42(01): 12-22.
DOI:10.13451/j.cnki.shanxi.univ(nat.sci.).2018.11.05.002

摘要

针对特定自然问题,答案源搜索的目标是检索蕴含答案的相关短文本。在大规模数据集中高效精准地获取答案源,能够有效辅助现有的阅读理解技术实现开放域的答案抽取。以统计和语义编码策略为基础的相关度计算模型,已在获取相关短文本方面取得了显著成果。然而,前者虽具有较高时效性,却往往精度偏低;后者虽精度较高,但却消耗较大计算成本与时空代价。针对这一问题,文章提出一种密度优先策略,旨在利用问题关键词在短文本中的最大分布密度,实现问题与候选答案源的相关性度量。利用SQuAD数据集进行测试,并与现有方法进行对比。实验结果显示,密度优先策略对比其他方法取得了较为明显的性能优势,并体现了较高的计算效率。

全文