摘要
相比较现代汉语和传世文献数据库而言,出土文献数据库中的集外字占比较大。因此在利用数字人文手段对出土文献文本处理时,集外字在数据库中的存在形式及参与方式将直接影响信息处理。参考藏文、甲骨文、西夏文的数字化文本的处理方式,提出一种适应于出土文献集外字在文本信息处理中的程序化方法。该方法不仅提高了出土文献数据库中的数据完整性,也可使得以往不能被用于文本信息处理的集外字参与至自然语言信息处理技术中。利用目前主流的分词工具jieba进行试验,结果显示该方法在出土文献的文本信息处理中是有效的。
-
单位西北大学; 高等研究院