摘要
对声学行为识别的研究目前主要依赖于特定用户的数据,且需要过滤异常值,导致较难获取可用于训练的数据集.提出了一种基于梅尔频谱图与Google AudioSet中提取的embedding的新策略,保证了模型的泛化能力,摆脱了依赖特定用户数据的限制.使用深度强化学习方法对11种常见室内行为进行识别,动态控制数据分布,解决数据不平衡问题.总体识别准确率达到87.5%,对每个行为的识别准确率均超过了83%.
-
单位机电工程学院; 上海师范大学