摘要
在机器学习应用中,由于数据来源渠道多以及部分标注者水平不足,训练数据质量很难得到保证.通过深度结合机器学习和可视化技术,可视分析技术将人融入数据质量分析与提升回路中,帮助提升训练数据质量,从而提高模型性能.文中首先总结了训练数据质量问题的三大类型:标注错,覆盖窄,标注缺;然后基于这些问题类型,介绍分析了相关的可视分析工作,包括标注错误修正方法,数据集偏离纠正方法和无标注数据质量提升方法;最后深入分析了基于可视分析的训练数据质量提升面临的机遇与挑战,包括在复杂任务、大语言模型、多模态数据、流数据等场景下的数据质量提升.
-
单位清华大学; 中国航天科工集团公司