摘要
通过结合2 738个领域词汇组成的词典对新疆旅游领域语料进行预处理操作,对文本信息进行实体关系抽取研究,提出基于旅游领域的词典信息,融合多级特征的Bi-LSTM、CNN和Attention机制的领域级关系抽取模型.该模型首先使用预训练模型生成含较强的语义表征能力的词向量;再使用Bi-LSTM获取更好的语义信息和词向量拼接以捕获长距离的语义特征;用CNN进行特征提取,加强局部特征的学习,并使用注意力池化层(Attentive-pooling)用以强化特征的表达;最后通过Softmax完成关系抽取任务.结果表明:该模型在SemEval-2010 Task 8公开数据集中F1值达到83.46%,证明了其有效性.且模型在新疆旅游领域语料的关系抽取任务中的F1值达到92.73%,优于目前的主流关系抽取模型.
- 单位