基于双层语料过滤器的短语抽取方法

作者:林波; 林伟佳; 郭靖羽; 丁东辉; 黄翰
来源:计算机与现代化, 2015, (12): 7-14.
DOI:10.3969/j.issn.1006-2475.2015.12.002

摘要

文本主题提取技术能够有效地精炼文本消息,传统的中文文本由最基本的词语组成,由于词汇本身的信息粒度过小,针对词语进行中文信息抽取不能完整表达文本片段的语义信息。短语本身包含较为丰富的细粒度语义信息,更能表达出文本片段的主题性。本文提出基于双层语料过滤器(词性过滤器与短语扩展规则过滤器)的方法来进行文本语料的冗余信息过滤并抽取文本主题短语信息。实验证明,本文的方法具有一定的可靠性和应用性。

全文