一种人工智能领域文档关键信息抽取方法

作者:曲晨帆; 金连文; 林上港; 马骏; 刘振鑫; 谭濯
来源:2021-04-01, 中国, ZL202110353610.X.

摘要

本发明公开了一种人工智能领域文档关键信息抽取方法,包括以下步骤:S1、收集人工智能领域文档数据,进行关键信息抽取数据标注;S2、对预训练模型RoBERTa进行进一步预训练;S3、构建信息抽取模型;S4、利用进一步预训练得到的RoBERTa模型进行骨干网络参数初始化;S5、利用已标注数据进行训练,训练过程中对标注数据进行随机替换和数据增强并利用平方交叉熵损失来计算反向传播的误差;S6、利用训练得到的信息抽取模型在人工智能领域无结构化文本中进行信息抽取得到结果三元组。本发明方法将信息抽取作为一种机器阅读理解任务来求解,预测文本中各个关键信息的起点和终点位置,解决了序列标注模型应对长跨度知识文本时性能效果大幅度下降的问题。