基于LDA模型的网页采集算法设计研究

作者:胡**
来源:大庆师范学院学报, 2018, 38(06): 55-58.
DOI:10.13356/j.cnki.jdnu.2095-0063.2018.06.014

摘要

根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法。本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系。基于关联的LDA提供了概念级匹配,来建立文本和网页动态内容之间的对应关系,以达到更高检索精确度。实验结果表明,与基于SVM方法相比,本算法具有较高的精确度和召回率。

  • 单位
    安徽电子信息职业技术学院