摘要

[目的 /意义]以主题特征在中文社交媒体文本作者识别中的使用研究为基本目的,利用Word2vec补充主题模型获取主题特征的不足,同时进一步制定策略对主题特征中的核心主题进行识别和筛选,优化主题特征的使用方法,从而提高主题特征在作者识别中的使用效果。[方法 /过程]首先利用LDA主题模型抽取候选作者的学术主题和社交主题,然后利用Word2vec制定合并筛选策略进行核心主题的识别和表示,最后结合N-gram特征和相似度计算的办法实现作者识别。[结果 /结论 ]利用核心主题特征对科研人员社交文本进行作者识别有一定的积极作用,同时本研究提出的核心主题特征相关策略和应用也能优化主题特征的使用效果,将其结合文体风格特征应用于作者识别,最高识别率达到83%。

全文