摘要

针对数字图书馆领域中的中文图书书目自动化分类问题,提出一种基于极限学习机的自动化图书信息分类方法。首先使用基于统计的分词方法对图书信息进行预处理形成特征项集合,并采用信息增益(IG)实现特征选择,从而减少特征项的数量;然后通过基于TF-IDF特征权重的向量空间模型进行文本表示;最后采用机器学习算法中的极限学习机对图书语料进行学习和测试。实验结果表明,相比朴素贝叶斯分类、K最近邻策略分类和支持向量机分类,基于极限学习机的分类方法可以有效实现图书自动分类过程,并具有较高的准确率和分类效果。

全文