摘要
近年来,基于知识图谱的问答系统逐渐成为学术界和工业界的研究和应用热点方向,而传统方法通常存在效率不高以及未充分利用数据信息的问题。针对以上问题,本文将中文知识图谱问答分为实体抽取和属性选择2个子任务,采用双向长短期记忆条件随机场(Bi-LSTM-CRF)模型来进行实体识别,并提出一种多粒度特征表示的属性选择模型。该模型采用字符级别以及词级别分别对问句和属性进行嵌入表示并通过编码器进行编码,对于属性同时还引入热度编码的信息。通过不同粒度文本表示的结合,并对问句和属性进行相似度计算,最终该系统在NLPCC-ICCPOL 2016 KBQA数据集上取得了73.96%的F1值,能够较好地完成知识图谱问答任务。
-
单位中国科学院; 中国科学院大学; 中国科学院电子学研究所