Web站点层次结构抽取算法的分析和实现

作者:冯雁; 王申康
来源:浙江大学学报(工学版), 2005, (10): 49-53.
DOI:10.3785/j.issn.1008-973X.2005.10.010

摘要

为了提高搜索引擎、网站管理及推荐系统的运行效率,提出了一种重构网站层次结构的方法,该方法以人工智能及图论为基础,通过对标记信息、网站的目录信息以及链接信息等的分析,定义和建立了网站的数据模型:结构标记图,并采用最短路径算法(Dijkstral),完成Web站点的层次结构抽取.算法体系由5层构成:显示层、网站层、页面分析层、预处理层和连接层.实验结果证明该方法能正确地建立网站的层次结构,并具有较快的运行时间.

全文