摘要

目的探讨基于深度学习的人工智能(AI)系统评估生长发育异常儿童骨龄的准确性。方法回顾性连续收集2020年1月至2021年12月于贵州医科大学附属医院就诊的生长发育异常儿童的左手腕部X线正位片, 共入组717例儿童, 男266例、女451例, 年龄2~18(11±3)岁。基于Tanner Whitehouse 3(TW3)-RUS(尺骨、桡骨、短骨)和TW3-Carpal(腕骨)法, 由3名高年资医师评测骨龄, 并取3者的均值作为参考标准。由AI系统(深睿医疗Dr.Wise骨龄预测软件)和2名低年资放射科医师(医师1、医师2)独立评测骨龄, 并分别计算骨龄结果与参考标准骨龄之间误差在0.5年内的准确度、1年内的准确度、平均绝对误差(MAE)和均方根误差(RMSE)。以配对样本t检验比较AI系统和低年资医师间的MAE。采用组内相关系数(ICC)评价AI系统、低年资医师评测骨龄与参考标准骨龄之间的一致性。绘制Bland-Altman图, 计算AI评测骨龄与参考标准骨龄之间95%一致性界限。结果对TW3-RUS骨龄, 与参考标准相比, AI系统、医师1、医师2误差在0.5年内的准确度分别为75.3%(540/717)、62.1%(445/717)、66.2%(475/717), 误差在1年内的准确度分别为96.9%(695/717)、86.3%(619/717)、89.1%(639/717), MAE分别为0.360、0.565、0.496年, RMSE分别为0.469、0.634、0.572年。对TW3-Carpal骨龄, 与参考标准相比, AI系统、医师1、医师2误差在0.5年内的准确度分别为80.9%(580/717)、65.1%(467/717)、71.7%(514/717), 误差在1年内的准确度分别为96.0%(688/717)、87.3%(626/717)、90.4%(648/717), MAE分别为0.330、0.527、0.455年, RMSE分别为0.458、0.612、0.538年。AI系统TW3-RUS和TW3-Carpal骨龄评测的MAE均小于医师1、医师2, 差异均有统计学意义(P均<0.001)。AI、医师1、医师2评测骨龄结果与参考标准之间均具有较好的一致性(ICC均>0.950)。Bland-Altman图显示AI系统对TW3-RUS和TW3-Carpal骨龄评测的95%一致性界限分别为-0.75~1.02岁、-0.86~0.91岁。结论 AI系统对生长发育异常患儿骨龄评测的准确度接近高年资医师, 优于低年资医师, 且与高年资医师的一致性良好。