摘要
面向中亚国家"一带一路"网络舆情分析这一应用目标,探讨如何构建中亚国家通用语料库。首先利用爬虫完成新闻语料采集,其次在语料预处理的基础上,对其进行唯一编码并利用关系数据库完成语料的结构化组织和持久存储,并采用人机结合的标注方式对语料内容按照主题进行分类,最后研究语料库的信息服务方式以最大化其价值。目前,语料库词语容量已达到1.5亿,且还在持续更新,但仍然属于生语料,后续需根据具体应用领域完成相应标注工作。以文章构建的语料库为基础,不仅为分析中亚国家"一带一路"网络舆情提供可依托的语料库,还可用于中亚国家语言的研究学习和教学科研等相关场景。
-
单位信息工程大学