司法机器阅读理解的优化策略研究

作者:秦永彬; 黄辉; 王凯
来源:华中科技大学学报(自然科学版)科技大学, 2022, 50(02): 142-148.
DOI:10.13245/j.hust.220222

摘要

针对司法领域阅读理解数据集缺乏、现有模型在不可回答问题样本和噪声样本上表现不佳等问题,提出了三种优化策略.首先,采用通用领域阅读理解数据集对RoBERTa-wwm模型进行预训练;然后,采用基于UniLM的问句生成模型生成不可回答问题样本,扩充已有训练集;最后,在微调阶段采用对抗训练算法对模型进行优化,增强模型的鲁棒性.在CJRC数据集上的实验结果表明:本文优化方法相比基线模型F1值提高了5%,并且在小样本情况下具有优异的表现.

全文