摘要
针对通用领域的命名实体识别算法难以充分挖掘到科技学术会议论文数据中语义信息的问题,提出一种结合关键词–字符长短期记忆网络和注意力机制的科技学术会议命名实体识别算法。首先对论文数据集中的关键词特征进行预训练,获得词汇层面的潜在语义信息,将其与字符级别的语义信息融合,解决错误的词汇边界影响识别准确率的问题。然后,将双向长短期记忆网络和注意力机制输出的向量进行融合,同时考虑上下文和全局信息。最后利用条件随机场进行实体的识别。实验表明,所提出的算法在不同数据集上都取得了较好的识别效果,和对比算法相比,准确率、召回率、F1指数均有一定程度的提升。
- 单位