摘要

Web文本主题抽取是文本分类与知识发现的研究热点,既有的抽取方法一般存在主题粒度确定、主题语义解释、新网络词汇识别等难题,限制了其在开放应用领域的使用效果.论文借助百度百科词条背景,基于关系概念的概念分层以及主题连通的思想,面向中文文本构建了关系概念主题抽取模型(relational concept topic model,RCTM),RCTM模拟人的概念局部识别,上下文语境理解的并行阅读方式,由此实现中文文本的主题抽取.RCTM中主题的表达相对独立、语义连通灵活,主题的描述具有更好的通用性与可解释性,为Web文本主题抽取提供了新的研究思路.实验表明,RCTM具有良好的主题抽取准确率,文本抽取出的主题词,简洁直观、可解释性好.针对开放的WEB文本,具有更好的通用性、稳定性.