摘要

近年来自然语言处理发展较为迅速,自然语言的处理离不开大量的、高质量的数据集。藏文语言处理是自然语言处理的一个重要应用。但公开的藏文数据集获取难度高,为提高自建藏文命名实体数据集,对藏文命名实体数据集半自动构建器进行了研究,包含爬虫部分和拆分部分,并提出了一种基于滑动窗口的命名实体匹配算法。其中,爬虫部分通过应用十分成熟稳定的八爪鱼采集器创建任务实现。拆分部分使用WPF技术设计操作界面,采用C#编程语言实现拆分算法。