摘要

大数据环境下,出版行业面临着富媒体数据带来的跨媒体数据组织和海量历史数据的挑战。为了形成有效的知识组织,针对富媒体出版社的文本数据具有数据量巨大、标签分层级的特点,本论文使用截断奇异值分解进行降维,应用线性分类核支持向量机模型,并且设计了多层级分类方法,对富媒体文本进行文本分类。实验表明,在富媒体出版社的文本数据下,本文方法取得了较好的文本分类结果。在150维的文本特征下,区域分类的第二级分类效果最好,其中准确率达到0.98,召回率达到0.76,F1指标达到0.87。

全文