摘要

[目的/意义]研究微博语料库和数据处理相关技术,以实现对微博主题语料库的设计。[方法/过程]选取"大V"微博用户和草根微博用户各500个,采集每个用户发布的前300条信息作为研究对象,对微博数据进行预处理及信息过滤,构建由"大V"用户高频词、草根用户高频词、"大V"用户高频词排名、草根用户高频词排名4个部分组成的主题语料库。[结果/结论 ]该语料库具有查看、搜索、添加及高频词排名等功能,能够查询相应的"大V"用户和草根用户的微博主题高频词。