摘要
根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容采集算法。本算法能为网页中的动态内容提供自动注释,并且利用了动态内容和文本内容之间的语义关系。基于关联的LDA提供了概念级匹配,来建立文本和网页动态内容之间的对应关系,以达到更高检索精确度。实验结果表明,与基于SVM方法相比,本算法具有较高的精确度和召回率。
-
单位安徽电子信息职业技术学院