摘要
针对民国文献资料开发利用的实际需求,以民国抗战史主题词表为例提出一套专题主题词表自动构建方案,用以组织民国资料信息并探索专题词表的构建技术。以《申报》为主要语料,通过实例给出民国抗战史主题词表构建关键技术解决方案,包括多种途径收集民国抗战史领域词汇,采用词频统计、同现分析等统计自然语言处理方法辅助编表专家确定词表收词范围和识别词汇之间的概念关系,并探讨了民国抗战史主题词表的宏观结构、收词范围和方法、存储与发布利用。运用自动化方法并辅以人工判定实现主题词表的构建,能够节省编表时间,降低编表负担和节约成本,便于词表维护,从而促进主题词表的应用和推广。
- 单位