NEMTF:基于多维度文本特征的新闻网页信息提取方法

作者:翁彬月; 秦永彬*; 黄瑞章; 任丽娜; 田悦霖
来源:计算机应用研究, 2022, 39(04): 1043-1048.
DOI:10.19734/j.issn.1001-3695.2021.10.0407

摘要

目前主流的网页抽取方法存在两大问题:提取信息类型单一,难以获取多种类新闻信息;多依赖HTML标签,难以扩展至不同来源。为此提出一种基于多维度文本特征的新闻网页信息提取方法,利用新闻文本的写作特点划分出写作、语义和位置特征,通过多通道卷积神经网络融合为多维度文本特征,用于提取多种类新闻网页信息;仅需少量数据集训练,就可提取新来源的新闻网页信息。实验结果表明,该方法在性能上高于当前最优方法。