摘要
一种序列标注任务的文本数据增强方法及系统,该方法包括:将序列标注任务的文本数据集按照7:1:2的比例划分为训练集、验证集和测试集;从序列标注任务的训练集中提取实体和实体类型;将每种实体类型的不同实体合并为实体列表,每种实体类型和对应的实体列表为一个键值对,多个键值对构成实体字典;对序列标注任务的训练集进行数据增强,生成增强文本;对于生成的若干个增强本文进行去重处理将训练集和增强文本合并,得到增强文本集,进行深度学习模型训练。本申请的序列标注任务包括:命名实体识别任务或关系抽取任务,通过实体替换的方法进行数据增强,能够有效保留实体间上下文语义,提高模型的泛化能力。
- 单位