摘要

预训练大模型近年来取得了快速发展,也被广泛应用于各个领域,但其内在的安全风险仍然十分严峻,亟需从技术和治理等角度解决大模型的安全性问题。本文深入探讨了预训练大模型的安全风险和治理方法,从幻觉、不良信息、隐私泄露、偏见等角度分析大模型的安全风险,并介绍了数据清洗、基于人类或AI反馈的强化学习,以及安全性评估等方面的安全性加固技术。针对当前大模型安全性治理,提出了在国家层面上加强大模型安全保障体系建设、推动全球网络空间共同体的建设以及加大科研投入等建议,以期不断提升预训练大模型的安全性,让人工智能更安全地服务于人类。