用户评论驱动的语音测试数据生成方法

作者:曹冬玉; 陶传奇; 郭虹静; 黄志球
来源:小型微型计算机系统, 2022, 44(07): 1-10.
DOI:10.20009/j.cnki.21-1106/TP.2021-0820

摘要

目前,语音识别的测试需要提供语音及其转录文本,测试语音需要涵盖各个场景下的语音输入,因此,测试语音的数量远远不够。鉴于用户评论中包含用户使用场景等可辅助测试的信息,文中提出一种用户评论驱动的语音测试数据生成方法。首先,爬取移动应用市场中语音相关应用的用户评论,对其进行清洗和预处理。其次,提取评论中的语音属性并分析语音属性在评论中的组合。最后,通过数据蜕变对语音种子进行语音属性及其组合的变换,生成语音测试数据。文中对百度、阿里云和讯飞语音识别进行实验,通过语音种子与生成测试语音的输出结果是否一致来评估识别错误率。实验结果表明,生成的测试语音可以有效检测出三款语音识别软件中的错误行为。

全文