面向数字人文的典籍语义词汇抽取研究&mdash;&mdash;以SikuBERT预训练模型为例

孙文龙; 张逸勤; 王凡铭<sup>*</sup>; 鱼汇沐; 刘江峰; 王东波

摘要

利用关键词抽取技术可以帮助读者提取高度凝练的文本主题，快速获得古籍文本的中心内容，对普及古汉语知识和传播中华优秀传统文化有着重要意义。文章以先秦两汉时期的“儒家”“史书”数据库语料为分析对象，测试SikuBERT预训练模型在古汉语文本关键词抽取任务中的性能。实验结果表明，从两类语料中分别抽取的20个关键词基本能体现出相应典籍类别的主题内容：前者与所抽儒家典籍文本的相似度为76%～78%，后者与所抽史书文本的相似度为75%～78%。实验验证了SikuBERT模型在古籍文本关键词抽取中的适用性，能为开展古汉语文本主题分类、聚类和知识深度开发提供参考。

单位
南京工业大学; 南京农业大学; 南京大学

收藏分享被引浏览

更新时间：2024-03-19 23:20

面向数字人文的典籍语义词汇抽取研究——以SikuBERT预训练模型为例

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友