摘要
提出了一套超链语义分类框架,并详细叙述了其具体实现。该分类系统对反映超链内容语义的各种相关特征进行自动提取以及量化处理,并采用基于决策树的分类方法,使用C4.5机器学习算法,通过对大量人工标注超链样本的学习进行特征优化和选择,形成分类规则。该分类系统,从超链的语义角度研究了Web中超链的类别,有助于对Web上的资源进行更加有效的自动化处理,并在更深层次上挖掘Web结构信息。
-
单位计算机软件新技术国家重点实验室; 南京大学