摘要

针对传统的数字图书馆文本特征抽取方法存在特征抽取不完整,抽取准确率低的问题,提出基于多标签分类的数字图书馆文本特征抽取方法。从引文功能标签集合中选取元子集,确定样本的引文全局功能集合。根据引文句功能合并示例,研究词汇、句法、物理、整体特征。构建基于多标签分类的数字图书馆文本特征提取模型,分析特征之间相关性,采用绝对值法和增加概率系数法的改进措施,避免了特征词缺失,完成了数字图书馆文本特征抽取。由实验结果可知,该方法抽取的文本特征完整且准确率高,为数字图书馆高效管理提供保障。

  • 单位
    上海城建职业学院