摘要
价值观对齐关系着AI大模型是否能真正为人类服务,甚至关乎着意识形态安全乃至国家政治安全。从意义、准则、路径、困境四个维度对AI大模型价值观对齐进行全面剖析,认为安全问题与应用保障是AI大模型价值观对齐的驱动力量,原生价值观、目标价值观、普适价值观是AI大模型价值观对齐的价值选择,尤其强调国内AI大模型应以社会主义核心价值观为对齐目标。价值观对齐的主要实践路径包括非递归监督与可扩展监督两条,并对国内外常见的四种价值观对齐范式进行简要介绍,总结出对齐税、价值观以及对齐效果评估方面的对齐困境。
- 单位