摘要
随着互联网中信息技术的高速发展,各类新媒体应用如Tweet、微博、问答系统等,无时无刻都产生着海量的文本数据,这些文本数据大多为短文本,具有特征稀疏、用词多样、口语化、上下文依赖强等特征。目前较为常用的文本分类方法大多是基于向量空间模型,但该方法是假设词与词之间的相互独立为前提,这样就无法利用文本的内部结构信息。针对现有短文本分类算法的不足,提出基于结构-语义图的短文本分类方法,通过将文本中的语序结构映射到图结构中,同时基于Probase考虑不同词性的词对名词语义的影响,结合外部概念知识库来提高短文本分类的性能。
- 单位