摘要

为解决精准识别短文本数据的问题,提出一种基于子语义空间的短文本策略挖掘方法。该方法首先采用语义空间技术,解决短文本在分析过程中存在的"词汇鸿沟"与"数据稀疏"问题;然后基于聚类算法将语义空间划分为多个子语义空间,在各子语义空间并行挖掘关联规则,提高了策略生成的效率与质量;最后利用二叉树进行策略归并,生成最简策略集。实验证明,与传统的分类模型相比,该方案生成的策略集在误报率为6.5%的情况下,准确率可达88%。在违规短信的发现处理中,使用该技术挖掘的策略集,覆盖能力强、准确率高,具有很强的实用性。

  • 单位
    中国移动通信有限公司研究院