摘要

在大数据时代的今天,语音小助手无处不在,发微信语音可以方便大家在不能听语音的时也能及时收到信息;车载语音解放我们的双手,避免因开车时手持电话而造成的安全事故;地图软件上可以通过语音功能搜索目的地,也可以随时播报语音,通知路况,提醒道路违章等等。由此可见,语音智能已经深深地融入到我们的生产生活实践中了。那么,如何让机器听懂我们的声音,更好地为我们所用?这就需要依靠语音识别技术。而语音识别技术的形成的最重要的基础就是语音语料库的建设,语音语料库的建设则需要大量的人工去标注出这些“说出的话”所对应的“文字”,用大量的语音语料训练模型,让机器学会这些语音,最后再一点点修正语音和文字转换之间的误差,这就是语音标注。笔者之前有过两年的语料组主管任职经历,在工作中学习了大量的自然语音语料标注及检验经验。故此,本文结合现代汉语的相关知识及较为丰富的现代汉语语音标注经验,着力于研究中文语音语料库的建设中语音标注的相关问题,如标注的类型、标注工具及在标注实践中形成的标注规则等。以此为语音语料库建设的相关研究提供一定的经验基础。

  • 单位
    郑州成功财经学院