科研之友ScholarMate

免费注册

赞收藏引用

分享

科研之友

微信

新浪微博

Facebook

ChatGPT中文性能测评与风险应对

作者：张华平^*; 李林翰; 李春锦

来源：数据分析与知识发现, 2023, 7(03): 16-25.

摘要

【目的】简要介绍ChatGPT的主要技术创新，使用9个数据集在4个任务上测评ChatGPT的中文性能，分析ChatGPT潜在的风险以及中国应对策略建议。【方法】使用ChnSentiCorp数据集测试ChatGPT和WeLM模型，EPRSTMT数据集测试ChatGPT和ERNIE 3.0 Titan，发现ChatGPT在情感分析任务上与国产大模型差距不大；使用LCSTS和TTNews数据集测试ChatGPT和WeLM模型，ChatGPT均优于WeLM；使用CMRC2018和DRCD数据集进行抽取式的机器阅读理解，C3数据集进行常识性的机器阅读理解，发现ERNIE 3.0 Titan在该任务中优于ChatGPT；使用WebQA和CKBQA数据集进行中文闭卷问答测试，发现ChatGPT容易产生事实性错误，与国产模型差距较大。【结果】ChatGPT在自然语言处理的经典任务上表现较好，在情感分析上具有85%以上的准确率，在闭卷问答上出现事实性错误的概率较高。【局限】将判别式的任务转为生成式的过程中可能引入评估分数的误差。本文仅在零样本情况下评估ChatGPT，并不清楚其在其他情况下的表现。由于后续版本的迭代更新，ChatGPT评测结果具有一定的时效性。【结论】ChatGPT很强大但仍然存在一些缺点，研发中国化的大模型应以国家战略需求为导向，并且注意语言模型的风险和局限。

单位
北京理工大学

收藏分享被引(32) 浏览

更新时间：2024-03-18 12:51

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号

科研之友

©2024 深圳市科研之友网络服务有限公司粤B2-20110417 粤公网安备 44030502000213 粤ICP备16046710号