基于SVM与DOM重心半径模型的Web正文提取

作者:易国洪; 代瑜*; 冯智莉; 黎慧源
来源:计算机工程, 2019, 45(06): 206-210.
DOI:10.19678/j.issn.1000-3428.0050677

摘要

为了从网页中精确地提取正文内容,提出一种基于支持向量机(SVM)与DOM重心半径模型的算法。通过SVM对网页DOM节点集进行提取,得出文本块节点。根据网页链接信息和初次提取的文本块节点计算重心半径,利用重心半径模型进行二次精确提取,并给出相应的公式推导和超参数选取过程。实验结果表明,与统计抽取、FFT抽取等算法相比,该算法的准确率和提取效率较高,泛化能力较好。

全文