维-哈-柯多语言词素切分集成环境研究

作者:穆凯代姆罕·伊敏江; 沙尔旦尔·帕尔哈提; 艾斯卡尔·艾木都拉; 米吉提·阿不里米提*
来源:电视技术, 2020, 44(06): 46-63.
DOI:10.16280/j.videoe.2020.06.010

摘要

开发一个多语言统一用户界面的集成信息处理软件环境,对少数民族自然语言处理研究工作特别是派生类语言的文本及语音等信息处理带来了巨大便利。系统基于词-词素平行语料库,从语音、词素、词以及句子等多个层面出发,对3种派生类黏着性语言进行声学和形态分析层面的分析,将繁杂的归一化、单元切分等工作集成到一个工程内。系统在语言和功能上可扩展,可嵌入独立的统计模型,对维-哈-柯语的词素切分准确率分别达到96%、92%和88%。