结肠镜下计算机辅助息肉检测系统的构建

作者:孙菁; 贺新珏; 张洁; 徐磊; 桑建忠; 毛鑫礼; 陈强; 叶丽萍; 周建波; 丁小云; 顾青; 陈洪潭; 章宏; 陈李华; 许国强; 季峰; 厉有名; 虞朝辉*
来源:中华消化杂志, 2018, 38(07): 473-478.
DOI:10.3760/cma.j.issn.0254-1432.2018.07.010

摘要

目的构建结肠镜下计算机辅助息肉检测系统, 并初步验证其有效性。方法采用基于Faster R-CNN算法, 基于开源框架TensorFlow和Faster R-CNN的开源实现, 构建结肠镜下计算机辅助息肉检测系统。按训练集大小和难度设置5个试验组:试验1、2、3、4分别含1 000、2 000、4 000、6 000个训练样本, 试验5在6 000个训练样本的基础上增加选取难样本的概率。在不同训练集下, 计算该系统检测息肉的灵敏度、特异度等分类评价指标及召回率、精确率等目标检测评价指标。结果分类评价指标显示, 试验1、2、3、4、5的灵敏度分别为90.1%、93.3%、93.3%、93.3%、93.5%, 差异有统计学意义(χ2=25.324, P<0.01), 试验2、3、4、5的灵敏度均高于试验1, 差异均有统计学意义(χ2=13.964、13.508、13.508、13.386, P均<0.006 25)。各试验组特异度和阳性预测值的差异均无统计学意义(P均>0.05)。试验1、2、3、4、5阴性预测值分别为90.4%、93.3%、93.3%、93.3%、93.5%, 差异有统计学意义(χ2=21.862, P<0.01), 试验2、3、4、5的阴性预测值均高于试验1, 差异均有统计学意义(χ2=11.447、11.564、11.755、13.760, P均<0.006 25)。训练样本量从1 000增加至2 000时, AUC值提升了2%, 进一步增加样本至6 000, AUC值提升幅度<1%, 此时保持样本量不变而增加难样本的比例, AUC值又提升了0.4%。目标检测评价指标显示, 各试验组召回率分别为73.6%、79.8%、79.5%、79.8%、83.3%, 差异有统计学意义(χ2=71.936, P<0.01), 其中试验2、3、4的召回率均高于试验1, 差异均有统计学意义(χ2=25.960、23.492、25.960, P均<0.006 25), 试验5的召回率高于试验1、2、3、4, 差异均有统计学意义(χ2=67.361、9.899、11.527、9.899, P均<0.006 25)。试验1、2、3、4、5的精确率分别为87.9%、85.3%、90.2%、91.4%、89.2%, 差异有统计学意义(χ2=48.194, P<0.01), 其中试验3、5的精确率均高于试验2, 差异均有统计学意义(χ2=24.508、15.223, P均<0.006 25), 试验4的精确率高于试验1、2, 差异均有统计学意义(χ2=13.524、39.120, P均<0.006 25)。随着样本数量增多和训练难度加大, 对应的F1分数和平均精度均值均稳步上升。结论本研究初步构建了结肠镜下计算机辅助息肉检测系统, 目前灵敏度最高可达93.5%, 召回率最高可达83.3%。增大训练集可一定程度上提升息肉检测成绩, 但会到达一个瓶颈, 此时适当增加训练难度, 可进一步提升检测成绩, 尤其是召回率。

全文