摘要

为解决语音AI的方言语音数据采集存在的数据量不够多、样本分布不均衡等问题,以语音数据收集、标注、数据交叉校验、数据集打包分享为目标,设计开发了一个语音数据采集与服务平台,提供语音数据采集、任务定制、语音与文本数据管理、数据标注、数据检索、数据下载等功能,通过微信小程序和手机APP吸引用户参与有趣的语音游戏,从而实现可定制的语音数据采集、标注、交叉校验等工作,在提升语音数据量的同时,有效解决数据采集过程中的样本分布不均衡问题,提升语音数据在方言人群和地域方面覆盖范围,提升数据质量,助力方言语音识别。

  • 单位
    中国传媒大学

全文