摘要
目的 探索深度学习技术(Transformer模型)在胃镜视频中部位实时识别的性能评价。方法 使用深圳市第二人民医院2021年5至7月录制的50部胃镜视频为研究资料,抽帧形成“视频图像集合”,其中40部为训练集1,10部为测试集;以含有25 525张胃镜图像的“胃镜图像集合”为对照组,形成训练集2。Transformer模型基于训练集1、训练集2、“训练集1+训练集2”学习训练分别形成“基于视频智能系统”、“基于图像智能系统”、“基于视频和图像智能系统”。通过测试集比较视频智能系统、图像智能系统、视频和图像智能系统的准确度、特异度等差异。结果 研究组1基于视频智能系统准确度、特异度、总体有效度分别为84.3%、78.9%、81.5%;研究组2基于视频和图像智能系统准确度、特异度、总体有效度分别为82.9%、81.5%、82.2%;对照组基于胃镜图像智能系统准确度、特异度、整体有效度分别为80.0%、76.8%、78.4%。结论 结果具有统计学意义,Transformer模型视频学习效果优于胃镜图像,Transformer模型学习视频+图像效果优于单独视频学习。
- 单位