面向国产深度学习平台的自然语言处理模型迁移研究

葛慧斌; 王德鑫; 郑涛; 张婷; 熊德意<sup>*</sup>

摘要

深度学习平台在新一代人工智能的发展中扮演了重要的角色。近年来，以昇腾平台为代表的国产人工智能软硬件系统快速发展，为国产深度学习平台的发展开辟出新的道路。与此同时，为了发现并解决昇腾系统存在的潜在漏洞，昇腾平台积极开展常用深度学习模型的迁移工作。从自然语言处理算法角度切入，针对机器阅读理解、神经机器翻译、序列标注和文本分类四大自然语言处理任务，以昇腾平台的高性能硬件芯片为基础，探究迁移ALBERT、RNNSearch、BERT-CRF和TextING四类典型的自然语言处理模型。基于以上模型迁移研究，本文发现和整理了昇腾平台架构设计在自然语言处理研究与业务上的主要不足之处：计算图节点动态空间分配特性、资源算子下沉设备侧、图算融合以及混合精度训练四个方面的问题，并为以上问题提出了相应解决方案，并进行了实验验证。最后，本文为国产深度学习平台的发展提出未来优化的方向和相关建议。

单位
中译语通科技股份有限公司; 华为技术有限公司; 天津大学

收藏分享被引浏览

更新时间：2024-01-10 09:58

面向国产深度学习平台的自然语言处理模型迁移研究

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友