摘要
【应用背景】在朝鲜语语音信息处理的资源建设中,自动标音技术即字音转换技术起着至关重要的作用。目前学界对于字音转换技术的方法主要有基于知识和基于数据两种。【目的】为解决以往仅基于知识驱动的方法难以适应大量数据信息的实际情况,导致模型复杂、计算困难等问题;以及仅基于数据驱动的方法依赖高质量数据又难以合理确定输入变量,需要模型特征充足且选取精准等问题。【方法】本文提出了一种知识与数据驱动相融合的朝鲜语自动标音方法。首先根据朝鲜语语音变异规律为基础提取精准的特征属性,获得高质量数据;然后结合数据驱动模型能够较好拟合输入与输出变量之间映射关系的优点,训练学习模型,实现对朝鲜语的自动标音。【结果】通过本文方法,最终标音结果能够兼顾朝鲜语连续语流中音节弱化、脱落、增音、异化等音变现象,并能够准确地获得字素相对应的音素。经交叉测试,该方法使预测模型性能提高,平均正确字音转换率可达94.63%。【结论】利用本文提出的朝鲜语自动标音方法能够有效建立准确的朝鲜语发音字典,有望为朝鲜语语音识别与语音合成等系统提供技术支持。
- 单位