摘要

[目的/意义]旨在为企业建立自己的专家信息库提供参考。[方法/过程]构建一个统一的专家信息元数据框架,对专家信息进行了规范化描述;对专家主页的网页标题、网页URL和网页内容等进行了分析,并从中提取特征进行专家主页的识别;构建一个自适应多种主页类型的Bi-LSTM-CRF专家信息抽取模型,并对模型性能进行了实验分析。[结果/结论]基于专家主页的专家信息抽取方法能够利用机器学习技术从海量的Web页面中有效识别专家主页,并且通过改进的信息抽取模型从专家主页中自动抽取企业所需要的专家信息。本文提出的方法是有效的。

全文