摘要
近年来,日本语言学研究界在数据挖掘技术的应用方面取得了长足进步。相关分析方法不仅被用于词汇、语法研究,而且拓展到了表记、音韵、方言、篇章、语用等众多领域。数据分析工具的功能不断强化。在传统的描述性统计的基础上,研究者逐步导入卡方检验、方差检验、主成分分析、聚类分析、对应分析等推断性统计方法。之后,又尝试使用决策树、随机森林、主题模型、共起网络等基于机器学习的新算法、新技术,有效地提高了数据分析能力。但同时,该领域的研究尚存在使用模式不成熟、特征指标不丰富、专门语料库建设差强人意、知识技能瓶颈有待突破、学科协同意识亟需加强等问题。
-
单位上海外国语大学