您当前的位置:
首页 >
文章列表页 >
基于改进YOLOv5s的手术器械检测与分割方法
图像处理 | 更新时间:2024-07-28
    • 基于改进YOLOv5s的手术器械检测与分割方法

    • Detection and segmentation method of surgical instruments based on improved YOLOv5s

    • [{"title":"基于改进YOLOv5s的手术器械检测与分割方法","chapter":"1 引言","content":"基于视觉的内窥镜手术作为一种具有代表性的微创手术,在深度学习[1-2]时代受到越来越多的关注。与传统的手术不同,微创手术在内窥镜相机的辅助下通过一个小的切口进行,组织缝合需要使用专业的手术器械。然而,缺乏对手术技巧、手术质量等有针对性的、客观的反馈是内窥镜手术过程中存在的关键问题之一。手术过程中手术器械检测与分割的准确性对评估外科医师的手术技能具有非常重要的意义[3]。国外针对手术器械检测与分割的研究相对较早,且近年来已有很多研究者将深度学习成功应用于实际内窥镜手术中。Jin等人[4]对手术过程中的手术器械进行检测,采用Faster-RCNN算法框架,主干网络使用VGG-16卷积神经网络,在内窥镜手术中实现了对手术器械的实时检测,可以辅助评估外科医师的操作技能。Mahmood等人[5]提出一种基于双流残差密集网络(DSRD-Net)的手术器械分割方法,利用残差和密集的空间金字塔池化模块优化算法,精准分割手术器械,减少因视野模糊等导致的人为失误,并在公开可用的胃肠内窥镜数据集上进行测试,取得了较好的实验结果。不过此类算法的参数量和运算量较大,如果再添加额外的优化模块,会导致检测和分割速度下降。基于此,文献[6]提出一种Anchor-free的卷积神经网络,通过沙漏网络对内窥镜手术视频进行逐帧检测并将手术器械建模,以点作为边界框的中心点生成检测框,在保证精度的同时,检测速度超过同时期以双阶段目标检测为代表的Anchor-based类算法。但是该网络只能生成手术器械的定位框而未实现对手术器械种类的识别,功能性上略有不足。国内对于深度学习在微创手术领域的研究起步较晚。2018年,郑腾辉等人[7]基于全卷积神经网络(FCN)实现了对手术器械和手术器械收纳盒的图像分割,识别目标的准确度可达到像素级,但是检测目标为手术器械收纳盒中的静态手术器械,因此实用性上有所欠缺。2019年,Ni等人[8]提出一种新的网络Residual Attention U-Net (RAUNet)用于白内障手术中的手术器械语义分割,该网络通过编码-解码结构获取高分辨率的掩膜,同时关注高阶和低阶特征图,从而在保证获取重要特征的基础上有效过滤干扰信息。2022年,Ni等人[9]为解决内窥镜手术中照明因素对手术器械的影响,提出了一种新的网络SurgiNet,通过添加金字塔注意力模块捕捉多尺度特征,通过自蒸馏消除其他的干扰信息。文献[10]提出一种改进的DoubleUNet[11]分割方法,通过对图像进行预处理,并使用密集连接空洞空间卷积池化金字塔(DenseASPP)模块[12]和Focal Tversky Loss损失函数进一步提取图像特征。该方法可以辅助外科医师切除结肠异常组织,从而降低息肉癌变的概率。综上所述,基于深度学习的手术器械检测与分割得到很多研究者的关注。虽然RAUNet网络已经考虑手术器械反光的问题,但在实际的内窥镜手术中,除手术器械金属材质自身导致的反光问题外,组织器官之间的相互遮挡、光线影响以及阴影遮挡等问题[13]也需要被考虑。文献[14]已经证实通过对YOLO算法的Neck部分的下采样进行优化和添加注意力机制,可以在保证模型轻量化的同时进一步提高检测的精度。但目前YOLO算法应用于内窥镜手术的研究相对较少,且目标检测中存在的漏检问题仍然有改进的空间。针对以上问题,本文提出一种改进的YOLOv5s手术器械检测与分割方法。对于内窥镜图像中存在的反光和阴影遮挡等问题,使用Gamma校正算法优化图像亮度和对比度。通过添加CBAM(Convolutional Block Attention Module)[15]、动态卷积以及空间金字塔池化模块以增强目标特征信息的权重,进一步提高手术器械检测的准确度并降低漏检率。最后,在模型的Neck部分添加基于特征金字塔网络(FPN)的语义分割分支,同时实现手术器械的检测和语义分割功能,辅助外科医师提高手术效率,减小手术难度。","result":"介绍了基于视觉的内窥镜手术在深度学习时代受到的关注,以及手术器械检测与分割在评估外科医师手术技能中的重要性。文中回顾了国内外在手术器械检测与分割方面的研究进展,包括Faster-RCNN、DSRD-Net、Anchor-free卷积神经网络等方法,并指出现有算法在参数量、运算量、检测速度、功能性等方面的不足。针对内窥镜手术中反光、遮挡等问题,本文提出了一种改进的YOLOv5s方法,通过Gamma校正、CBAM、动态卷积等技术优化图像处理和特征提取,提高检测准确度和降低漏检率,并在模型中加入FPN实现语义分割功能,以辅助外科医师提高手术效率。","language":"zh"},{"title":"基于改进YOLOv5s的手术器械检测与分割方法","chapter":"2 方法","content":"本文基于YOLOv5s算法框架,针对手术器械的检测与分割问题进行优化,以实现内窥镜图像中手术器械的检测与分割[16],本文算法的整体网络结构如图1所示。在内窥镜图像进行训练之前,需要对图像进行图像增强、图像填充和锚框计算等预处理。在Backbone部分,以YOLOv5s为基础,添加5个Conv模块和C3模块,每一个Conv模块都包含一个1×1的卷积核。对输入的特征图像进行卷积操作,同时通过BatchNorm正则化函数和SiLU激活函数[17]进行处理。C3模块中包含3个标准的Conv卷积层,对残差特征进行学习。特征信息进入C3模块后分为两个分支:一个分支使用多个Bottleneck和3个标准卷积层;另一个分支经过一个卷积模块。然后将两个分支通过Concat进行连接。图像输入尺寸为640×640,每次经过一个Conv与C3的组合模块后,特征图会变为原来尺寸的1/2,再经过5次卷积后,输出20×20的特征图。在Neck部分,采用PANet框架,也称为FPN+PAN。FPN特征金字塔是一个自顶向下的过程,如输入FPN的特征图尺寸为20×20,经过2倍上采样后,特征图尺寸变为40×40。Conv模块输出的40×40特征图经过卷积核后,在Concat模块和经过上采样的特征图融合,后续的Conv、C3和Concat模块重复前述步骤。PAN和FPN相反,是一个自底向上的特征金字塔[18]。FPN是自顶向下传递特征内容,而PAN是自底向上传递特征位置,通过组合可以有效融合两者的优点,同时PAN采用80×80的特征图,经过两次Conv与C3的组合模块后,分别输出40×40和20×20的特征图。图1本文算法网络结构图Fig.1Network structure diagram of our algorithm2.1 Gamma校正在基于深度学习的手术器械检测中,图像的亮度会直接影响模型训练的效果。内窥镜视频中出现的手术器械本身多为金属材质,在手术环境下极易出现反光或阴影遮挡等情况,从而影响目标检测的效果。因此,需要在模型训练前对图像进行预处理。本文采用Gamma校正算法,对内窥镜图像进行预处理。Gamma校正算法的公式如式(1)所示: .(1)如图2所示,红色和蓝色曲线分别代表灰度值过高和过低的情况,当r<1或r>1时,Gamma算法会对图像灰度值进行调整。对于图像中灰度值较高的区域,经过校正后灰度值会减小,使r的值接近于1;对于图像中灰度值较低的区域,经过校正后灰度值会增大,使r的值接近于1。图2Gamma校正算法曲线图Fig.2Graph of Gamma correction algorithm2.2 CBAM与动态卷积模块原有算法特征图信息中每个通道的权重相等,这会导致一些无用信息的比重偏大,而关键信息的比重偏小。因此,我们在Backbone底部添加注意力机制模块CBAM,通过学习的方式获取每个通道的比重并生成权重。CBAM可同时应用空间和通道两个不同的注意力维度。在语义分割部分,由于上采样会导致部分语义信息丢失,因此,在语义分割头的C3部分加入CBAM,通过通道注意力模块以减少重要信息的丢失,可防止由于单独添加CBAM模块导致的网络层数过多的问题。图3为CBAM的结构图。图3CBAM结构Fig.3Structure of CBAM另外,将Neck部分的Conv模块更换为动态卷积ODConv模块[19]。注意力机制可赋予权重,通过注意力权重进行学习可以提高CNN网络的准确性并减少计算量。普通的动态卷积仅关注卷积核数量,而其他3个参数(输入通道数、输出通道数、空间大小)容易被忽略。本文使用的ODConv模块可通过对4个维度的并行策略实现对内核空间互补注意力的学习,从而进一步提高模型的准确度。2.3 空间金字塔池化模块优化YOLOv5s使用的空间金字塔池化模块是 SPPF(Spatial Pyramid Pooling Fast),在保持SPP效果的同时提高其速度。本文使用SPPCSPC模块[20](SPP-CSP-Concat),该模块采用CSP结构[21],通过保留SPP不同尺度的最大池化层使模型视野进一步扩大,可解决特征重复提取的问题。同时,可建立一条新的卷积分支,将原图通过卷积核后,与通过最大池化层得到的特征图进行二次合并,可有效减少池化后的特征损失,从而进一步提高检测的准确度。2.4 FPN语义分割头图1中,在FPN和PAN的连接位置增加语义分割头,使80×80的特征图继续按照FPN特征金字塔结构的上采样步骤进行,实现语义分割功能[22]。在生成80×80的特征图后形成两个分支,一个分支进入PAN模块,另外一个分支继续采用自顶向下的上采样结构实现语义分割。因此,本文模型可同时实现目标检测和语义分割。","result":"基于YOLOv5s算法框架,对手术器械的检测与分割问题进行优化。在内窥镜图像训练前,进行图像增强、填充和锚框计算等预处理。Backbone部分添加5个Conv模块和C3模块,通过BatchNorm和SiLU激活函数处理。C3模块包含3个标准Conv层,学习残差特征。特征信息分为两个分支,通过Concat连接。输入尺寸为640×640,经过5次卷积后输出20×20特征图。Neck部分采用PANet框架,结合FPN和PAN的优点,有效融合特征。Gamma校正算法用于预处理,调整图像灰度值。CBAM模块添加到Backbone底部和语义分割头的C3部分,通过学习获取通道权重。动态卷积ODConv模块替换Conv模块,提高CNN网络准确性。空间金字塔池化模块SPPCSPC优化YOLOv5s的SPPF,减少特征损失。在FPN和PAN连接位置增加语义分割头,实现目标检测和语义分割功能。","language":"zh"},{"title":"基于改进YOLOv5s的手术器械检测与分割方法","chapter":"3 实验与结果分析","content":"3.1 数据集本文数据集采用Cholec80,该数据集中包含大量的内窥镜手术视频,我们选取Cholec80中的20个内窥镜手术视频并按照一定的帧频转换成内窥镜图像序列,将其中不存在手术器械或者手术器械较为模糊的图像剔除。数据集包含4 000幅图像,其中3 000幅图像用于训练,1 000幅图像用于测试。本文将数据集中的手术器械分为7类,分别标注为Grasper、 Hook、 Clipper、 Scissors、 SpecimenBag、 Bipolar和Irrigator。由于模型需要同时实现目标检测和语义分割功能,本文分别通过LabelImg和Labelme制作两种不同格式的标签。目标检测标签设定为txt格式,语义分割标签设定为png格式记录掩膜,并对数据集通过Gamma校正算法进行调整优化。通过实验发现,如果数据集中不同类别手术器械的数量相对平均时,Grasper类型的手术器械识别的准确度明显低于其他6类手术器械。因此,我们在数据集中提高了Grasper类型的比例,将Grasper类型的图像数量提高至1 000幅,其余6类手术器械各为500幅图像。图4为数据集样本的部分图像。由图4(a)可以看出,数据集中手术器械受环境的影响较大,导致图像中亮度分布不均,即使是同一幅图像,手术器械的金属部分反光强烈导致亮度过高,而周围环境和手术器械的其余部分相对较暗。因此,通过Gamma校正算法,可使数据集中的图像亮度分布相对均匀,减少外界因素对目标检测的影响,如图4(b)所示。图4(c)为分割掩膜结果。图4数据集样本。 (a) 原图; (b) Gamma校正后结果; (c) 分割掩膜。Fig.4Dataset sample. (a) Original image ;(b) Results after Gamma correction ;(c) Segmentation mask.3.2 训练环境本文的模型训练在Windows 10操作系统上进行,模型由Python编程语言实现,编程软件采用PyCharm。采用CPU进行模型训练相对缓慢,因此,我们通过GPU对网络框架进行模型训练,GPU的硬件配置如表1所示。表1GPU硬件配置Tab.1Hardware configuration of GPU3.3 实验结果分析3.3.1 模型衡量指标本文需要同时衡量目标检测和语义分割的效果。对于目标检测,本文选用mAP@0.5和 损失作为模型的衡量指标;语义分割通过mIoU进行衡量。最后,通过测试集验证实际检测和分割的效果。3.3.2 目标检测效果分析对于目标检测而言,召回率(Recall)和精确度(Precision)是衡量目标检测结果的两个非常重要的指标。AP为通过计算每一个召回率对应精确度的值并进行平均得到的一个衡量标准;mAP是将目标检测中所有种类的AP取平均值的结果。本文将所提方法与其他目标检测算法的AP和mAP进行比较,结果如表2所示。表2不同方法的AP和mAP比较Tab.2Comparison of AP and mAP with different methods由表2可以看出,无论是在不同手术器械的单项AP上还是整体的mAP上,本文方法都要优于其他方法。相较于YOLOv5s,优化后算法在本文手术器械数据集上的mAP@0.5提高了1.8%,达到了98.2%。在单阶段检测方法中,本文算法在mAP@0.5上仍然具有优势,相较于目前流行的SSD和RetinaNet算法,mAP分别高出3.2%和2.8%;相较于经典的双阶段检测方法Faster-RCNN,本文算法的mAP@0.5提高了11.4%,验证了本文方法在AP上的优势。将本文所提方法和YOLOv5s方法的损失曲线进行对比分析,结果分别如图5和图6所示。图5本文所提方法的损失曲线Fig.5Loss curve of the proposed method图6YOLOv5s方法的损失曲线Fig.6Loss curve of the YOLOv5s method从图5和图6可以看出,对于bounding box检测框损失,本文所提方法和YOLOv5s方法都接近0.02。对于obj目标检测损失,最终两者在数值上比较接近。但在验证集val的obj损失曲线上, YOLOv5s在降低到0.012后缓慢回升,并在0.014附近上下波动;而本文所提方法在降低到0.012后,一直较为平稳的维持在0.014以下。从曲线和数据上可以看出,YOLOv5s在测试集val上的损失曲线更加平滑,当epoch为100时,训练集损失曲线也趋于平稳。本文所提方法由于引入语义分割模块,训练集train的obj损失曲线和测试集val的损失曲线几乎趋近于90°,在训练集train最终损失值相差不大的情况下,本文所提方法的损失曲线下降速度最快,在进入平稳期后波动也最小,不会像YOLOv5s一样出现明显的上下波动。在验证集val上,本文所提方法的损失曲线无论是在训练的波动幅度还是最终损失值上都优于YOLOv5s方法,进一步验证了本文方法的有效性和优势。3.3.3 语义分割效果分析mIoU是评价语义分割效果的重要指标[23]。本文通过添加基于FPN网络的语义分割头实现了语义分割功能,目标检测算法的mIoU通过矩形框计算。为更好地比较分析语义分割的效果,本文在相同条件下训练其他语义分割网络并与本文方法进行比较。由于目标检测部分已经实现对于手术器械的分类功能,语义分割只需将手术器械和背景进行区分即可,因此语义分割的类别这里只定义Instruments和Background两类,将所提方法的mIoU值与其他语义分割方法进行比较,结果如表3所示。表3不同方法的mIoU值比较Tab.3Comparison of mIoU with different methods由表3可以看出,本文方法在语义分割方面有着良好的表现,mIoU值达到了94.0%,远高于经典分割网络FCN。相较于Deeplabv3和UNet图像分割网络,本文方法的mIoU分别高出2.2%和1.3%。相较于目前流行的语义分割网络PSPNet,mIoU提高了0.9%,进一步验证了本文方法的有效性和优势。3.3.4 检测与分割结果本文选取数据集中具有代表性的两帧图像进行检测与分割结果分析,结果如图7所示。图7手术器械检测与分割结果Fig.7Detection and segmentation results of surgical instruments由图7(a)可以看出,本文方法能够较好地实现手术器械的检测和语义分割,在多个手术器械同时存在的情况下也能够进行准确识别。但也会存在漏检的情况,如图7(b)所示,相较于被检测出的Scissors类型的手术器械,漏检的手术器械在图像中所占比例相对较小,且受到手术环境的遮挡,导致模型提取的特征信息不足,被检测器误认为是背景信息,因此出现了漏检现象。但是语义分割模块却能够很好地识别该手术器械并进行准确地分割,在一定程度上弥补了目标检测的漏检问题。","result":"实验与结果分析章节首先介绍了Cholec80数据集,该数据集包含4000幅内窥镜手术图像,分为7类手术器械,并对数据集进行了Gamma校正以优化图像亮度分布。训练环境基于Windows 10操作系统,使用Python和PyCharm,并通过GPU加速模型训练。实验结果分析中,本文方法在目标检测的mAP@0.5和损失上优于其他算法,特别是在与YOLOv5s、SSD、RetinaNet和Faster-RCNN的比较中显示出优势。损失曲线分析表明,本文方法在训练和验证集上的损失下降速度最快且波动最小。在语义分割方面,本文方法的mIoU值达到94.0%,高于FCN、Deeplabv3、UNet和PSPNet等网络。最终的检测与分割结果显示,本文方法能准确识别多类手术器械,尽管存在一些漏检情况,但语义分割模块能较好地识别并分割手术器械,弥补了目标检测的不足。","language":"zh"},{"title":"基于改进YOLOv5s的手术器械检测与分割方法","chapter":"4 结论","content":"本文采用改进的YOLOv5s结合FPN的方法实现了手术器械的检测与语义分割功能。通过Gamma校正算法,减轻反光和阴影等因素的影响;通过CBAM、动态卷积模块、空间金字塔池化模块和FPN语义分割模块,提高检测与分割的准确度,并降低漏检率。实验结果表明,手术器械的检测与语义分割效果良好,手术器械检测的mAP@0.5为98.2%,语义分割的mIoU为94.0%。所提方法可辅助外科医师提高手术效率,减小手术难度,实现术中精准导航。","result":"通过改进YOLOv5s和FPN技术,结合Gamma校正、CBAM、动态卷积、空间金字塔池化等模块,有效提升了手术器械的检测与分割精度。实验结果显示,检测mAP@0.5达到98.2%,语义分割mIoU为94.0%,有助于提高手术效率和精准度。","language":"zh"}]
    • 液晶与显示   2023年38卷第12期 页码:1698-1706
    • DOI:10.37188/CJLCD.2023-0025    

      中图分类号: TP391
    • 纸质出版日期:2023-12-05

      收稿日期:2023-01-31

      修回日期:2023-03-05

    扫 描 看 全 文

  • 孟晓亮, 赵吉康, 王晓雨, 等. 基于改进YOLOv5s的手术器械检测与分割方法[J]. 液晶与显示, 2023,38(12):1698-1706. DOI: 10.37188/CJLCD.2023-0025.

    MENG Xiao-liang, ZHAO Ji-kang, WANG Xiao-yu, et al. Detection and segmentation method of surgical instruments based on improved YOLOv5s[J]. Chinese Journal of Liquid Crystals and Displays, 2023,38(12):1698-1706. DOI: 10.37188/CJLCD.2023-0025.

  •  
  •  

0

浏览量

105

下载量

0

CSCD

文章被引用时,请邮件提醒。
提交
工具集
下载
参考文献导出
分享
收藏
添加至我的专辑

相关文章

融合多维特征的街景图像语义分割方法
基于注意力机制的复杂背景下红外弱小目标检测方法研究
基于类特征注意力机制融合的语义分割算法
基于注意力与特征融合的光学遥感图像飞机目标检测

相关作者

朱磊
车晨洁
姚同钰
潘杨
张博
刘颖
孙海江
赵勇先

相关机构

西安工程大学 电子信息学院
中国科学院 长春光学精密机械与物理研究所
中国科学院大学
贵州大学 大数据与信息工程学院
宁夏大学 物理与电子电气工程学院
0