摘要
本发明涉及一种基于神经网络的学者用户画像信息抽取方法,包含以下步骤:对网页进行文本预处理,并对网页进行结构调整和实体标注;对已识别网页所有文本节点及其字符分别构建词库表;对文本节点和前后节点的上下文特征进行提取,接着对文本节点序列进行训练,得到包含节点序列上下文信息的词向量h;对词向量输出进行解码计算,对应地得到每个词向量对目标标签的得分,计算节点序列的标签概率分布,对模型输出结果进行解码,使目标函数最小时即得到最优的预测标签序列,完成模型构建并进行模型训练。本发明能够实现模型的端到端训练,而且利用LSTM网络本身的序列记忆特性,有效地解决目标抽取实体间的长时期依赖关系问题。
- 单位