预训练语言模型的扩展模型研究综述

阿布都克力木·阿布力孜; 张雨宁; 阿力木江·亚森; 郭文强; 哈里旦木·阿布都克里木<sup>*</sup>

摘要

近些年，Transformer神经网络的提出，大大推动了预训练技术的发展。目前，基于深度学习的预训练模型已成为了自然语言处理领域的研究热点。自2018年底BERT在多个自然语言处理任务中达到了最优效果以来，一系列基于BERT改进的预训练模型相继被提出，也出现了针对各种场景而设计的预训练模型扩展模型。预训练模型从单语言扩展到跨语言、多模态、轻量化等任务，使得自然语言处理进入了一个全新的预训练时代。主要对轻量化预训练模型、融入知识的预训练模型、跨模态预训练语言模型、跨语言预训练语言模型的研究方法和研究结论进行梳理，并对预训练模型扩展模型面临的主要挑战进行总结，提出了4种扩展模型可能发展的研究趋势，为学习和理解预训练模型的初学者提供理论支持。

单位
新疆财经大学

收藏分享被引浏览

更新时间：2024-03-20 09:50

预训练语言模型的扩展模型研究综述

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友