摘要
数据增强被认为是一种有效提升模型效果的方案。但是在选取生成的数据时,需考虑固有的数据特征和相应的任务关联性。针对这一问题,以中文纠错任务场景为例,提出了一种可用于数据集增强质量的评价方法。该方法首先使用对比学习优化后的预训练模型提取数据集的特征向量,然后提出互覆盖度、总分散度、自支撑度等三个基本评价指标,并给出一个综合性的数据集质量融合指标。在四种数据增强方法、两个中文纠错数据集和三个中文纠错模型上的实验分析结果表明,上述评价方法能够独立于测试集性能检验方法,为不同增强数据集的选用提供重要依据。
- 单位