Your Location:
Home >
Browse articles >
Mask wearing detection based on improved YOLOv7
Image Processing | Updated:2023-08-10
|
    • Mask wearing detection based on improved YOLOv7

    • FU Hui-chen

      12 ,  

      GAO Jun-wei

      12 ,  

      CHE Lu-yang

      12 ,  
    • Chinese Journal of Liquid Crystals and Displays   Vol. 38, Issue 8, Pages: 1139-1147(2023)
    • DOI:10.37188/CJLCD.2022-0371    

      CLC: TP391.4
    • Received:08 November 2022

      Revised:25 November 2022

      Published:05 August 2023

    Scan QR Code

  • Cite this article

    PDF

  • FU Hui-chen, GAO Jun-wei, CHE Lu-yang. Mask wearing detection based on improved YOLOv7[J]. Chinese journal of liquid crystals and displays, 2023, 38(8): 1139-1147. DOI: 10.37188/CJLCD.2022-0371.

  •  
  •  
    Sections

    Abstract

    Wearing masks is an effective way for preventing COVID-19 and cooperating with the national epidemic prevention and control. An improved YOLOv7 algorithm is proposed to solve the problems such as whether masks are correctly worn, different shooting angles and being blocked. Based on YOLOv7, the convolutional attention mechanism is introduced into the Head region of the network to make the feature network more targeted in the processing of the mask region, thus enhancing the learning ability of the feature network to the mask region. The structure of Backbone area is optimized, the ConvNeXt network structure is improved, and partial convolution is introduced into the network instead, which improves the detection accuracy and robustness of the model and enhances the accuracy of prediction without introducing a large number of additional calculations. The space pyramid pool of the Head layer is improved to improve the training speed and accelerate the model convergence. Experiments show that in the case of complexity and occlusion, the loss function of the improved YOLOv7 decreases significantly, and the mAP on the test set is 93.8%, which is 3.6% higher than that of the original YOLOv7 algorithm.The accuracy of each category is improved, and the accuracy of no mask, correct mask and incorrect mask are increased by 6.8%, 2.1% and 1.7%, respectively. The cases of error detection are significantly reduced, and the generalization ability is significantly improved.

    transl

    Keywords

    image processing; object detection; YOLOv7 algorithm; convolutional attention mechanism; space pyramid pooling

    transl

    1 引言

    新冠疫情爆发以来,我国坚持动态清零政策,保证了极低的感染率、病亡率,而居民外出佩戴好口罩,仍是预防疫情反扑的重要方法

    1。但随着时间的推移以及国家正确政策下社会有条不紊运行的情况,让许多居民心存侥幸,麻痹大意,出现了不规范佩戴口罩的情况,例如口罩未覆盖口鼻、口罩戴在下巴上甚至会有不佩戴口罩的情况出现2。因此,在人流密集的公共场合进行口罩佩戴检测,对疫情防控有着重要的作用。传统的口罩检测只是检测了人脸和口罩这两个目标,只能判断出目标人物是否佩戴口罩而无法检测出目标人物的佩戴情况是否有误,针对侧面和遮挡等情况的识别效果也不尽如人意。
    transl

    随着社会的需要和深度学习

    3的发展,出现了不少目标检测算法,如Fast-RCNN算法4、SSD算法和YOLO系列算法5等。文献[6]在YOLO算法中引入了MobileNetv2网络对口罩的佩戴情况进行分类,提高了动态检测的速度;文献[7]在YOLOv4算法的基础上增加了路径聚合网络,并使用标签平滑来降低损失函数,但只是简单地分了是否佩戴口罩这两个类别,没有考虑佩戴错误的情况。YOLO系列算法的检测速度快,精度较高,但考虑到某些具体的检测目标有特征复杂、背景多样等特点,必须对网络结构进行相应的改进。文献[8]通过引入数据增广的方法,提高了细胞信息的利用率。随着检测算法精度和速度的提升,出现了不少能完成实时检测任务的算法。文献[9]通过模板匹配与LSTM相结合,提升了模型检测准确率且能够实现目标实时检测。在实际的检测场景中,多目标检测逐渐成为主流。文献[10]中基于热力图的Top-down和Bottom-up方法可以有效地完成多目标检测任务。随着网络复杂性的提高,网络模型的泛化能力十分重要。文献[11]通过设计随机扩散器的方法,提高了网络的泛化能力。
    transl

    本文将居民佩戴口罩时常见的3种情况(没有佩戴口罩、正确佩戴口罩、错误佩戴口罩)设为检测目标,对YOLOv7算法进行改进。在Head区域加入了卷积注意力机制(CBAM),从通道和空间两方面入手,使得网络更加关注于目标的重要特征,提高了网络对口罩佩戴目标的学习能力。在主干网络(Backbone)区引入了改进后的ConvNeXT,对原有的SPPCSPC进行改进,在原有池化层的结构上增加了串行连接,在不降低识别精度的同时加快了收敛速度和识别速度。

    transl

    2 YOLOv7算法

    YOLOv7算法在2022年由Alexey Bochkovskiy团队提出,在检测精度和速度两方面均优于YOLOv5。YOLOv7的整体结构由输入层、主干网络(Backbone)、Head和预测端4部分组成,其模型结构如图1所示。其中输入层对数据的部分预处理方法延用YOLOv5,如Mosaic数据增强、自适应锚框计算和图片自适应缩放等。

    transl

    fig

    图1  YOLOv7模型结构图

    Fig.1  YOLOv7 model structure

    icon Download:  Full-size image | High-res image | Low-res image

    Mosaic数据增强通过对图片进行随机的缩放、裁剪、排布来充实检测目标的背景变相地对batch_size进行提高。自适应锚框计算会在网络模型训练的初始状态设定好锚框,随后输出一个预测框,将锚框跟真实框进行对照,再多次计算误差并进行反馈,通过不断的计算和补偿来选取适应度最好的锚框,从而产生最后的预测框

    12。图片自适应缩放通过获取较小的放缩系数减少图片放缩后增添的黑边,在推理时减少信息冗余,大幅减少计算量以及提高检测的速度13
    transl

    YOLOv7对Mosaic数据增强方法进行了优化。传统的Mosaic方法会选取4张图片进行增强,而YOLOv7则会根据函数的随机生成值与超参数值进行比较,当随机值过小时会关闭Mosaic数据增强功能,当随机值适中时会抽取4张图片进行增强,而随机值过大时则会选取9张图片进行增强,从而更加灵活地增加了数据的多样性。

    transl

    主干网络Backbone由CBS模块、ELAN模块和MPC-B模块组成。其中CBS模块包含了卷积(Conv)、批正则化层(BN)和SiLU激活函数这三部分。MPC-B模块由1个池化层和3个CBS组成,作用是下采样,同时通过卷积和池化层的结合可以获取局部小区域所有值的信息,避免了池化层只获取最大值的弊端。ELAN模块由多个CBS组成,是一个高效聚合的网络结构,删除了1×1的卷积,提高了GPU计算效率,大幅降低了访问内存的消耗,并采用了梯度分割的思想,在卷积网络的输出和输入层直接添加了较短的连接,使得梯度流在不同的网络结构中传播,解决了输入以及梯度信息的过度膨胀,同时能控制最短和最长的梯度路径,使得网络能提取更多的特征,使训练更加高效和精确。

    transl

    Head层主要由SPPCSPC模块、ELAN-H模块、MPC-N模块、UPSample模块和RepConv模块组成。SPPCSPC是一种空间金字塔池化改进模块

    14,内部由多个CBS模块和池化层组成,通过最大池化来得到不同的感受野,在使得算法能适应不同分辨率的图片的同时,能防止图像在剪裁和放缩过程中出发生失真,还能避免卷积对图像的特征重复提取,降低计算量,加速预选框的生成。ELAN-H模块与ELAN模块在功能和结构上高度类似,区别于ELAN模块在第二条分支将3个输出进行相加,ELAN-H则将5个CBS的结果取和。MPC-N模块则是在MPC-B模块的基础上增加了与前向输出层的链接。UPSample模块的作用是上采样,采用最近邻插值的方法15能减少网络的计算量。RepConv模块是一个结构重参数化模块,能将训练中结构的改变转变为推理过程时参数的变化,将结构的等价替换转变为参数的等价替换,从而达到提高性能、节省空间的目的。
    transl

    最后的预测端包括了损失函数计算以及边界框预测。总体损失函数由定位损失、目标置信度损失和分类损失3部分组成,其中目标置信度和分类损失采用了BCEWithLogitsLoss算法,坐标损失采用CIoU算法。

    transl

    3 改进的YOLOv7

    3.1 卷积注意力机制(CBAM)

    除了网络结构的深度、宽度以及网络的基数这3个重要因素外,注意力机制也能提高卷积网络的性能

    16。注意力机制的添加能帮助卷积神经网络更重视目标重要的特征以及忽略不必要的特征。卷积注意力机制(CBAM)结构如图2所示。
    transl

    fig

    图2  卷积注意力结构图

    Fig.2  Convolutional attention structure diagram

    icon Download:  Full-size image | High-res image | Low-res image

    卷积运算基于通道和空间两种信息来综合提取信息特征。卷积注意力机制(CBAM)从这两个方面入手,融合了通道注意模块(CAM)和空间注意模块(SAM)来提高卷积神经网络的学习能力。

    transl

    通道注意力Mc来关注特征的通道信息,从而确定图像中由主要特征的目标及通道。通道注意力Mc的计算如公式(1)所示:

    transl

    Mc(F) =σ(MLP(AvgPool(F)) +MLP(MaxPool(F)))=σW1W0Favgc+W1W0Fmaxc (1)

    式中:σ为sigmoid函数,W0∈RC/r×C,W1∈RC×C/r,当σW0前时为ReLU激活函数。空间注意模块(SAM)也使用了平均池化(AP)和最大池化(MP)的方法,采用了特征空间的关系来产生空间注意力Ms从而确定空间内包含主要特征信息的位置。Ms的计算如公式(2)所示。式中σ为sigmoid函数,f 7×7是大小为7的卷积核。

    transl

    Ms(F)=σf7×7AvgPool(F) ;MaxPool(F)=σf7×7Favgs;Fmaxs  . (2)

    3.2 网络改进ConvNeXt

    近几年来,Transformer

    17网络以其模态融合能力和全局特性被大量研究和应用,但是因其计算效率低下,局部信息获取的能力较弱且顶层梯度会被归一化部分阻断等问题,使Transformer的应用不如卷积神经网络广泛。ConvNeXt在ResNet50卷积网络的基础上引入了Transformer的优点,在保留卷积网络结构简洁的同时提高了性能18。ResNet50网络使用的卷积核尺寸为3,而ConvNeXt借鉴了Transformer将卷积核尺寸上调为7,同时将ResNet50中常用的ReLU激活函数替换为Transformer网络中常用的GeLU激活函数,并从Transformer网络中获得启发,减少了激活函数和正则化函数的使用,从而减少了计算量。本文通过自身数据的特点对ConvNeXt进行改进,将正则化函数中的层正则化(Layer Normalization)替换成批正则化(Batch Normalization)。进一步提高了模型的鲁棒性。改进后的ConvNeXt的结构如图3所示。
    transl

    fig

    图3  ConvNeXt改进结构图

    Fig.3  Improved ConvNeXt structure diagram

    icon Download:  Full-size image | High-res image | Low-res image

    3.3 空间金字塔池化改进

    空间金字塔池化的功能主要是使图像可以以任意大小和像素宽高比输入,其输入端可以接纳任意大小的图片

    19。本文对原有的SPPCSPC结构进行改进,将原有的3个并行的池化层添加上串行结构,在不改变原有结构感受野的情况下,提升检测速度同时能帮助网络收敛和抑制过拟合。改进前后的结构如图4所示。具体实现过程为:
    transl

    fig

    图4  空间金字塔池化结构改进图

    Fig.4  Diagram of improved space pyramid pool structure

    icon Download:  Full-size image | High-res image | Low-res image

    (1)对Backbone主干网络中ELAN-H模块的特征输出进行CBS卷积操作,即分别经过卷积操作、批正则化和SiLU激活函数处理。

    transl

    (2)对第一步中进行过一次CBS卷积操作的特征再进行两次CBS卷积操作,并在每个卷积操作后进行一次最大池化处理,随后将3次最大池化后的特征进行串并行连接,并进行特征层融合。

    transl

    (3)将第二步中的结果经过两次CBS卷积处理后与第一步中的结果融合,再最后进行一次CBS处理,即可得到最终输出特征层。

    transl

    4 实验与结果分析

    4.1 实验环境

    本文的算法在Pycharm集成软件中实现,采用的编程语言为Python3.9,使用Pytorch 1.12.1作为深度学习框架,并使用了CUDA11.3硬件加速工具。实验平台使用了NVIDIA RTX3080 GPU,Intel(R)Core(TM)i7-12700KF @ 3.60 GHz处理器,操作系统为Win10,设备内存为32.0 GB。

    transl

    4.2 数据集的准备

    由于目前网络上公开的口罩佩戴情况数据集较少,而且很少有不正确佩戴口罩的数据集,因此本文通过在互联网查找和组织同学拍摄共计9 000余张图片,采用LabelImg软件自行标注制作了口罩佩戴数据集。数据集包括了各种不同的场景,其中有不佩戴口罩、正确佩戴口罩和错误佩戴口罩3种情况,包含了正脸、左侧脸、右侧脸3种角度及不同的背景、光线和遮挡等情形,如图5所示。

    transl

    fig

    图5  数据集图片示例

    Fig.5  Example of dataset images

    icon Download:  Full-size image | High-res image | Low-res image

    数据分类包括没有佩戴口罩、正确佩戴口罩和不正确佩戴口罩3种,并将训练集、测试集以及验证集按照8∶1∶1的比例进行分割,训练批次为16,学习率0.005,模型迭代150次。

    transl

    表1展示了数据集中各类情况的数量。

    transl

    表1  数据集中的目标分类及数量
    Tab.1  Classification and number of targets in the data set
    Defect typeTraining setValidation setTest setTotal
    No-mask 3 112 778 778 3 890
    Wearing correctly 2 352 588 588 2 940
    Wearing incorrectly 1 920 480 480 2 400
    icon Download:  CSV icon Download:  Table Images

    4. 3 模型评估指标

    本文采用精度(P)、召回率(R)、均值平均精度(mAP)作为评价指标检验模型的效果。精度和召回率的表达式为:

    transl

    P=MTPMTP+MFP×100% (3)
    R=MTPMTP+MFN×100% . (4)

    以本文检测中没有佩戴口罩类别No-mask为例,TP为训练完成的模型将没有佩戴口罩的图片目标检测为No-mask类别的数量,FP为模型将正确佩戴口罩以及错误佩戴口罩的图片目标检测为No-mask类别的数量,FN为模型将没有佩戴口罩的图片目标检测为正确佩戴口罩(Wearing correctly)和不正确佩戴口罩(Wearing incorrectly)类别的数量。精度(P)描述了模型对该类别分类的精确情况,召回率(R)描述了模型对该分类的漏检情况,平均精度(AP)是P-R曲线与横纵坐标正半轴所围成的面积,从精度(P)和召回率(R)两个方面评估模型在该类别上的检测效果。均值平均精度(mAP)是模型中所有分类的平均精度(AP)的均值,能有效评估该模型对所有分类的检测情况。平均精度(AP)和均值平均精度(mAP)的计算公式如式(5)式(6)所示:

    transl

    AP==01P(R)dR (5)
    mAP=i=1mAPim . (6)

    4.4 实验设计

    为了验证改进后的算法对口罩佩戴检测的效果,本文采用了两组对照实验,第一组将改进后的算法模型与和原始的YOLOv7算法以及不同改进部分的算法模型进行对照,第二组将改进后的算法与Faster-RCNN算法进行比较。

    transl

    4.4.1 损失函数收敛对比

    改进前后的YOLOv7 在训练过程中验证集的损失函数变化如图6所示,图中曲线A为原始YOLOv7损失函数,曲线B为改进后的损失函数。损失函数曲线在初始阶段下降较快且波动很大。随着训练轮数的增加,在训练50个Epoch之后,波动起伏开始变小,损失函数逐渐降低,曲线趋于平稳。在训练约100个Epoch时,损失函数逐渐稳定,模型逐渐收敛。由图6可见改进后的算法损失函数更低且收敛更快。

    transl

    fig

    图6  损失函数对比

    Fig.6  Example of dataset images

    icon Download:  Full-size image | High-res image | Low-res image

    4.4.2 改进方法对模型性能的影响

    本文通过对不同改进方法的检测指标进行对照实验,分析不同改进部分对网络性能提升情况,表2为不同改进方法对模型性能的改进结果。由表2中数据对比可见,YOLOv7-A在Head层引入卷积注意力(CABM)使得原始模型的精度提升3.2%,mAP值提升0.7%。YOLOv7-B在YOLOv7-A的基础上在Backbone层中引入了改进的ConNeXt网络结构,使得原始模型的精度提升2.7%,mAP值提升1.7%。YOLOv7-C在YOLOv7-B的基础上在Head层中对SPPCSPC进行优化,使得原始模型的损失函数显著下降,精度提升2.2%,mAP值提升3.6%。

    transl

    表2  不同改进方法的性能指标
    Tab.2  Performance index of different improvement methods
    ModelCBAMConvNeXtSPPCSPCPPrecision/%mAP/%
    YOLOv7 90.2 90.2
    YOLOv7-A + 93.4 90.9
    YOLOv7-B + + 92.9 91.9
    YOLOv7-C + + + 92.4 93.8
    icon Download:  CSV icon Download:  Table Images

    4.4.3 改进前后与主流检测模型的性能对比

    模型训练完成后,采用多次检测抽样的统计方法,将验证集中的数据进行测试,并与改进前的YOLOv7以及Fast-RCNN进行对比,验证集中包含了单人、多人及侧面等不同情况,部分对比结果如图7所示。由图7(a)、图7(b)和图7(c)对比可以看出,从侧面角度检测时,改进后的算法置信度比Fast-RCNN和原始YOLOv7算法均有提升;由图7(d)、图7(e)和图7(f)对比可以看出,目标错误佩戴口罩时,改进后的算法置信度比Fast-RCNN和原始YOLOv7算法均有提升;由正面和侧面对比可以得出,侧面的识别置信度要低于正面的识别置信度;由图7(g)、图7(h)和图7(i)对比可以看出,在3种类别中,改进后的算法的置信度比其他两种算法高,同时图7(g)中Fast-RCNN算法发生错检情况且3种类别的置信度均较低,图7(h)中改进前的算法将错误佩戴口罩的情况误检为正确佩戴口罩,而图7(f)中改进后算法则进行了正确的分类。从3种算法的检测情况对比可以得出,改进后的YOLOv7算法检测结果最好,尤其在侧面和多人的检测情况下,效果提升更多。

    transl

    fig

    图7  Fast-RCNN、YOLOv7与改进YOLOv7的检测结果对比。

    Fig.7  Comparison of Fast-RCNN, YOLOv7 and improved YOLOv7 detection results.

    icon Download:  Full-size image | High-res image | Low-res image

    将本文算法与其他的检测算法的检测指标进行对比,结果如表3所示。改进后的YOLOv7的mAP值比其他算法有所提升,比Fast-RCNN高21.4%,比YOLOv7_A、YOLOv7_B以及原始YOLOv7分别高1.9%、2.9%、3.6%。相较于原始YOLOv7,各个类别的检测精度均有提升,没佩戴口罩类别的AP值提升6.8%,正确佩戴口罩类别的AP值提升2.1%,不正确佩戴口罩类别的AP值提升1.7%。通过数据对比可以得出结论,改进后的YOLOv7的检测指标要优于其他算法。

    transl

    表3  不同检测算法的性能指标对比
    Tab.3  Comparison of performance indicators of different detection algorithms
    MethodNo-mask/%

    Wearing

    correctly/%

    Wearing incorrectly/%

    mAP/

    %

    Faster-Rcnn 74.1 70.9 72.2 72.4
    YOLOv7 87.4 94.1 89.2 90.2
    YOLOv7-A 92.1 95.7 84.8 90.9
    YOLOv7-B 94.1 95.6 88.6 91.9
    YOLOv7-C 94.2 96.2 90.9 93.8
    icon Download:  CSV icon Download:  Table Images

    5 结论

    针对目前部分居民口罩佩戴不正确等问题,本文提出了一种改进YOLOv7的口罩佩戴检测算法。通过自行拍摄和网上搜集,丰富了口罩佩戴错误类别以及侧面遮挡等情况的数据集。通过在Head层引入卷积注意力机制,加强了网络结构在空间和通道上对有效特征的重视,提高了网络对口罩佩戴目标的学习能力。在Backbone层引入ConvNeXt网络结构,提高了网络结构的性能和鲁棒性。对Head层SPPCSPC模块进行优化,有效减少了损失函数,将平均精度从90.2%提高到93.8%。同时各个类别的检测精度均有提升,没佩戴口罩、正确佩戴口罩、不正确佩戴口罩类别的精度提升分别提升6.8%、2.1%、1.7%;并且减少了漏检和错检的情况,提高了系统的鲁棒性。

    transl

    参考文献

    1

    马丝妮包刚升.“平衡抗疫”:前奥密克戎时期的新冠疫情防控研究[J].学术月刊2022544):78-99. [Baidu Scholar] 

    MA S NBAO G S. “Balanced anti-epidemic”: a study on the prevention and control of the COVID-19 epidemic in the pre-omicron period [J]. Academic Monthly2022544): 78-99. (in Chinese) [Baidu Scholar] 

    2

    曹素珍温东森陈星.新冠肺炎疫情期间我国居民佩戴口罩防护行为研究[J].环境科学研究2020337):1649-1658. [Baidu Scholar] 

    CAO S ZWEN D SCHEN Xet al. Protective behavior of Chinese population wearing masks during the COVID-19 epidemic [J]. Research of Environmental Sciences2020337): 1649-1658. (in Chinese) [Baidu Scholar] 

    3

    SITU G H. Deep holography [J]. Light: Advanced Manufacturing202232): 278-300. doi: 10.37188/lam.2022.013 [Baidu Scholar] 

    4

    REN S QHE K MGIRSHICK Ret al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence2017396): 1137-1149. doi: 10.1109/tpami.2016.2577031 [Baidu Scholar] 

    5

    REDMON JFARHADI A. YOLO9000: better, faster, stronger [C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. HonoluluIEEE20176517-6525. doi: 10.1109/cvpr.2017.690 [Baidu Scholar] 

    6

    曾广华杨桂忠郭寿南.口罩实时检测系统的设计与应用[J].电视技术2022469):65-67. [Baidu Scholar] 

    ZENG G HYANG G ZGUO S Net al. Design and application of real-time mask detection system [J]. Video Engineering2022469): 65-67. (in Chinese) [Baidu Scholar] 

    7

    朱杰王建立王斌.基于YOLOv4-tiny改进的轻量级口罩检测算法[J].液晶与显示20213611):1525-1534. doi: 10.37188/CJLCD.2021-0059 [Baidu Scholar] 

    ZHU JWANG J LWANG B. Lightweight mask detection algorithm based on improved YOLOv4-tiny [J]. Chinese Journal of Liquid Crystals and Displays20213611): 1525-1534. (in Chinese). doi: 10.37188/CJLCD.2021-0059 [Baidu Scholar] 

    8

    郑欣田博李晶晶.基于YOLO模型的宫颈细胞簇团智能识别方法[J].液晶与显示20183311):965-971. doi: 10.3788/yjyxs20183311.0965 [Baidu Scholar] 

    ZHENG XTIAN BLI J J. Intelligent recognition method of cervical cell cluster based on YOLO model [J]. Chinese Journal of Liquid Crystals and Displays20183311): 965-971. (in Chinese). doi: 10.3788/yjyxs20183311.0965 [Baidu Scholar] 

    9

    李国友李晨光王维江.基于单样本学习的多特征人体姿态模型识别研究[J].光电工程2021482):200099. doi: 10.12086/oee.2021.200099 [Baidu Scholar] 

    LI G YLI C GWANG W Jet al. Research on multi-feature human pose model recognition based on one-shot learning [J]. Opto-electronic Engineering2021482): 200099. (in Chinese). doi: 10.12086/oee.2021.200099 [Baidu Scholar] 

    10

    马双双王佳曹少中.基于深度学习的二维人体姿态估计算法综述[J].计算机系统应用20223110):36-43. [Baidu Scholar] 

    MA S SWANG JCAO S Zet al. Overview on two-dimensional human pose estimation methods based on deep learning [J]. Computer Systems & Applications20223110): 36-43. (in Chinese) [Baidu Scholar] 

    11

    LUO YZHAO Y FLI J Xet al. Computational imaging without a computer: seeing through random diffusers at the speed of light [J]. eLight202224. doi: 10.1186/s43593-022-00012-4 [Baidu Scholar] 

    12

    张润梅毕利君汪方斌.多尺度特征融合与锚框自适应的目标检测算法[J].激光与光电子学进展20225912):1215019. doi: 10.3788/LOP202259.1215019 [Baidu Scholar] 

    ZHANG R MBI L JWANG F Bet al. Multiscale feature fusion and anchor adaptive object detection algorithm [J]. Laser & Optoelectronics Progress20225912): 1215019. (in Chinese). doi: 10.3788/LOP202259.1215019 [Baidu Scholar] 

    13

    丁勇王翔严晓浪.边缘自适应的四点分段抛物线图像缩放[J].浙江大学学报(工学版)2010449):1637-1642. [Baidu Scholar] 

    DING YWANG XYAN X L. Edge adaptive four-point piecewise parabolic scaler implementation [J]. Journal of Zhejiang University (Engineering Science)2010449): 1637-1642. (in Chinese) [Baidu Scholar] 

    14

    HU C PBAI XQI Let al. Vehicle color recognition with spatial pyramid deep learning [J]. IEEE Transactions on Intelligent Transportation Systems2015165): 2925-2934. doi: 10.1109/tits.2015.2430892 [Baidu Scholar] 

    15

    ZUO CQIAN J MFENG S Jet al. Deep learning in optical metrology: a review [J]. Light: Science & Applications2022111): 39. doi: 10.1038/s41377-022-00714-x [Baidu Scholar] 

    16

    FENG Y BYANG XQIU D Wet al. PCXRNet: pneumonia diagnosis from chest X-ray images using condense attention block and multiconvolution attention block [J]. IEEE Journal of Biomedical and Health Informatics2022264): 1484-1495. doi: 10.1109/jbhi.2022.3148317 [Baidu Scholar] 

    17

    DOSOVITSKIY ABEYER LKOLESNIKOV Aet al. An image is worth 16×16 words: transformers for image recognition at scale [C]. 9th International Conference on Learning Representations. SeattleOpenReview.net20211909-1931. [Baidu Scholar] 

    18

    YANG X KZHAO J YZHANG H Yet al. Remote sensing image detection based on YOLOv4 improvements [J]. IEEE Access20221095527-95538. doi: 10.1109/access.2022.3204053 [Baidu Scholar] 

    19

    TANG Y LGONG W GCHEN Xet al. Deep inception-residual Laplacian pyramid networks for accurate single-image super-resolution [J]. IEEE Transactions on Neural Networks and Learning Systems2020315):1514-1528. doi: 10.1109/tnnls.2019.2920852 [Baidu Scholar] 

    506

    Views

    239

    Downloads

    2

    CSCD

    Alert me when the article has been cited
    Submit
    Tools
    Download
    Export Citation
    Share
    Add to favorites
    Add to my album

    Related Articles

    Mura defect detection of LCD screen based on improved YOLOv8n
    Development of AOI inspection of Mura defects on TFT-LCD surface
    Application of dual-wavelength fiber guided light based on OpenCV in high-precision assembly and alignment
    Design and implementation of piecewise approximation bilateral filtering algorithm based on FPGA

    Related Author

    Che Lu-yang
    CHEN Shunlong
    LIAO Yinghua
    LIN Feng
    SHU Chengye
    CHEN Zekang
    SHEN Yi
    ZHAI Chenyang

    Related Institution

    School of Mechanical Engineering, Sichuan University of Science & Engineering, Yinbin
    Sichuan Jinglong Optoelectronic Technology Co. Ltd., Yinbin
    College of Engineering, Shantou University
    Guangdong Provincial Key Laboratory of Automotive Display and Touch Technologies
    College of Mechanical and Electrical Engineering, Hainan University
    0