摘要

主题标签可为人工采集和智能采集语情信息提供检索词,提高检索效率。基于自建的小型汉语国际传播主题语料库,借助LancsBox语料分析工具,分析该主题下的高频词;结合T值计算高频词的高频搭配。据此可得到汉语国际传播主题下的主题标签。为了验证主题标签检索文本的准确度,可选取其中一组标签为检索词在光明网上搜集新闻语料,并创建验证语料库。借助QUITA文本计量工具,计算两个语料库文本的h点及主题集中度。经检验发现,两个语料库在主题集中度这一指标上没有显著差异,说明采用主题标签检索出来的新闻语篇具有很高的话题拟合性,利用主题标签进行搜索可以提高检索效率。