汉语方言自动聚类与分区及相关计算方法

江荻

摘要

本文回顾了学界对汉语方言之间相互关系的三种计量方法：特征统计、词源统计和词汇相似度计量，指出这三种计量方法采用的是非整体的、语音和词汇上受限的考察方法。文章阐述了一种更适用的计算模型，即Levenshtein Distance算法(莱文斯坦距离，或称编辑距离),该方法对语言或方言之间线性字符串的语音相似性和词汇对应性具有协调功能，并蕴含特征比对和词源概率效用。本文自动分区实验汇集了南方吴、闽、粤、湘、客、赣、徽、淮8个分区的78个方言，官话方言有东北、北京、冀鲁、胶辽、中原、兰银、西南108个方言，共计186个汉语方言点。每个方言收集了斯瓦迪士100个基本词，并对方言之间展开相似性计算。计算结果与传统分区基本一致，但更为精准。

单位
江苏师范大学; 中国社会科学院民族学与人类学研究所

收藏分享被引浏览

更新时间：2024-03-19 19:16

汉语方言自动聚类与分区及相关计算方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友