基于数据驱动方法的历史报纸词汇变化研究

作者:西蒙·恒晨; 鲁本·罗斯; 亚尼·马尔亚宁; 米科·托洛宁; 方华康
来源:数字人文研究, 2022, 2(04): 74-92.

摘要

“民族”(nation)和“民族性”(nationhood)属于思想史领域最常研究的概念,而“民族”一词及其历史用法又十分模糊。文章旨在开发一种利用依存分析和神经词嵌入的数据驱动方法,以澄清这一概念的演变过程。为此提出以下两个步骤。首先,使用语言处理,创建一个与“民族”主题相关的大型单词集合。其次,训练历时词嵌入,并使用它们来量化这些词之间语义相似性的强度,从而创建有意义的聚类,然后将之历时排列。为了说明该方法在跨语言、多时间段及大型数据集研究上的稳健性,将其应用于荷兰语、瑞典语、芬兰语和英语共五份全套历史报纸档案集合。迄今为止,还没有如此大规模的比较研究——以数据驱动方法掌握多达四种不同语言的长期发展。文章所描述的方法还有一个特殊优势:通过设计,该方法可扩展应用至其他问题,而不仅限于对“民族性”的研究,并且可在不同语境中重复使用。