摘要

针对当前方法在进行动态分块网页主题信息自动提取是存在提取准确率较低、错误率较高、耗时较长的缺点,采用混合加权方法对动态分块网页主题信息进行自动提取。在对动态分块网页主题信息进行预处理的基础上,构建预处理后动态分块网页主题信息的分层树模型,确定网页主题信息的内在联系,采用二元集合序列描述目标提取的动态分块网页主题信息,计算不同的网页主题信息文本对全网页主题信息的贡献程度;采用空间向量模型描述动态分块网页主题信息特征,并利用混合加强的方法从空间向量模型中提取动态分块网页主题信息。仿真结果证明,采用的方法耗时可控制在0.1s内,对样本数据提取的准确率较高。说明采用的方法能够实现动态分块网页主题信息的准确、高效提取。