摘要

针对从海量食品安全事件新闻报道中很难抽取出所需答案的问题,以食品安全事件语料库为研究对象,提出了一种基于信息抽取技术的自动问答系统。首先,利用深度学习模型Text CNN对用户输入的问题进行分类,得到其所属类型。其次,对于输入问题,借助Lucene搜索引擎找到其最佳匹配文档。再次,根据输入问题的类型,从食品安全事件数据库(采用信息抽取技术自动提取的一个结构化数据库)中筛选出该文档所包含的答案候选句集合。最后,利用深度学习模型Bi-LSTM及基于答案候选句上下文的特征提取方法构建一个答案抽取模型,该模型能从给定的答案候选句集合中提取出最终答案。为检查基于食品安全事件数据库的答案候选句筛选方式及基于答案候选句上下文的特征提取方式对整个自动问答系统性能的影响,进行了多种比较实验,结果表明含有基于食品安全事件数据库的答案候选句筛选方式和基于答案候选句上下文的特征提取方式的问答系统表现最佳,其回答准确率达到44%。这相比于传统的问答系统,具有明显的优势。