摘要

文本挖掘中,特征提取和选择是非常关键的问题,决定了分类、聚类、信息挖掘等后续处理的效率和质量。本文针对一般方法进行特征选择所存在的信息损失问题,提出了提高特征选择质量的思路:精确的特征提取和准确的特征合并。围绕着这个思路,基于C-Value特征提取理论,提出了特征提取算法,能够提高多词特征词串的提取精度;以知网(HowNet)为工具,提出了基于语义相似度的特征合并算法,在不损失特征信息的情况下,有效地合并特征词串、降低特征维数,并使特征的语义更为清晰。