知识蒸馏正则化方法研究(英文)

作者:王雪纯
来源:新疆大学学报(自然科学版)(中英文), 2023, 40(05): 534-549.
DOI:10.13568/j.cnki.651094.651316.2023.02.26.0002

摘要

在深度学习中,正则化是防止模型过拟合和提高模型泛化性能的重要工具.知识蒸馏(Knowledge Distillation,KD)是一组由一个模型生成的软标签作为监督信号去指导另一个模型的相对较新的,流行的正则化方法.首先,给出了KD正则化的基本知识并将现有的知识蒸馏正则化分为两大类,即正向蒸馏和互蒸馏.对每种类型,都详细介绍了关键的组成部分和代表性方法.其次,比较了这两大类正则化方法的优缺点并在图像分类上评估了模型的泛化性能.同时,也为特定的任务和场景选择合适的KD正则化方法提供了指南.最后,总结了KD正则化方法存在的关键性挑战并讨论了将来的研究方向.

全文