大语言模型时代的落地方法论——成本、效率与效果

作者:龚睿昊; 范云潜; 魏秀颖; 白世豪; 张运宸; 张祥国
来源:电子科学技术, 2023, (03): 52-61.
DOI:10.16453/j.2096-5036.2023.03.005

摘要

以GPT-4为代表的大语言模型(Large Language Model,LLM)展现出了惊人的通用智能潜力,基于相关技术,一系列大语言模型相继诞生。在这场技术变革中,一方面是巨大的参数量和计算量要求,另一方面是大量的使用需求和有限的算力资源支撑。如何使得其高效、低成本地规模性推广成为LLM更大范围落地的关键。本文围绕压缩、推理和评测三个角度,介绍相关大模型压缩技术和分布式推理技术,以及大模型在应用中的效果评估方式,探讨大语言模型时代的落地方法论,并对未来发展进行展望,期待推动大语言模型在各行各业的广大范围的应用和推广。