摘要

<正>人类级别的表现、人类级别的精度……在开发AI系统的企业中,我们经常会听到这类表述,其指向范围涵盖人脸识别、物体检测,乃至问题解答等各个方面。随着机器学习与深度学习的不断进步,近年来越来越多的产品也开始将AI算法作为实现自身价值的基础。但是,一旦贸然将关键性任务交付给AI模型,这种草率的考核标准往往会导致AI系统产生错误的预期,甚至危险的后果。