Your Location:
Home >
Browse articles >
Reservoir computing based network for few-shot image classification
Image Processing | Updated:2023-10-10
    • Reservoir computing based network for few-shot image classification

    • WANG Bin

      1 ,  

      LAN Hai

      2 ,  

      YU Hui

      23 ,  

      GUO Jie-long

      23 ,  

      WEI Xian

      23 ,  
    • Chinese Journal of Liquid Crystals and Displays   Vol. 38, Issue 10, Pages: 1399-1408(2023)
    • DOI:10.37188/CJLCD.2022-0407    

      CLC: TP391.4
    • Received:06 December 2022

      Revised:11 January 2023

      Published:05 October 2023

    Scan QR Code

  • Cite this article

    PDF

  • WANG Bin, LAN Hai, YU Hui, et al. Reservoir computing based network for few-shot image classification[J]. Chinese journal of liquid crystals and displays, 2023, 38(10): 1399-1408. DOI: 10.37188/CJLCD.2022-0407.

  •  
  •  
    Sections

    Abstract

    Aiming at the problems that current few-shot learning algorithms are prone to overfitting and insufficient generalization ability for cross-domain cases, and inspired by the property that reservoir computing (RC) does not depend on training to alleviate overfitting, a few-shot image classification method based on reservoir computing (RCFIC) is proposed. The whole method consists of a feature extraction module, a feature enhancement module and a classifier module. The feature enhancement module consists of a RC module and an attention mechanism based on the RC, which performs channel-level enhancement and pixel-level enhancement of the features of the feature extraction module, respectively. Meanwhile, the joint cosine classifier drives the network to learn feature distributions with high inter-class variance and low intra-class variance properties. Experimental results indicate that the algorithm achieves at least 1.07% higher classification accuracy than the existing methods in Cifar-FS, FC100 and Mini-ImageNet datasets, and outperforms the second-best method in cross-domain scenes from Mini-ImageNet to CUB-200 by at least 1.77%. Meanwhile, the ablation experiments verify the effectiveness of RCFIC. The proposed method has great generalization ability and can effectively alleviate the overfitting problem in few-shot image classification and solve the cross-domain problem to a certain extent.

    transl

    Keywords

    few-shot learning; reservoir computing; attention mechanism; feature enhancement; image classification

    transl

    1 引言

    近年来,深度学习已经广泛应用于各行各业

    1-3,其凭借大规模数据大幅度提高了图像分类4、语义分割5、目标检测6等任务的精度,在计算机视觉领域取得了巨大的成功。然而,现实场景并不具备获得大规模可训练数据的条件,使深度学习方法容易产生过拟合、低泛化性等问题。为了能够在数据稀缺的场景下进行学习,小样本学习7-9成为深度学习的一个重要研究方向。
    transl

    小样本学习方法通常可以分为两类:基于数据增强的方法

    10和基于学习策略的方法。第一类方法旨在生成新的样本来扩充原始样本空间或对特征空间进行增强;第二类方法可以细分为基于模型微调11的方法、基于元学习12的方法等。目前小样本学习的主要问题可以总结为特征提取网络提取的特征判别性不够充分、网络容易过拟合,模型泛化能力不足等。一些基于注意力机制的方法13-15被提出来整合特征信息以优化上述问题,但此类方法在领域迁移16等问题上仍有优化空间。
    transl

    在解决小样本问题时需要关注两方面的问题:(1)更好地提取特征来指导分类;(2)缓解过拟合,提高模型泛化能力,如进行数据增强等操作。考虑到人脑是一种天然的小样本学习范式,引入类脑知识或许有助于走出小样本学习的困境,再结合过拟合问题,促使本文应用一种类脑模型——储备池计算(Reservoir Computing, RC)

    17-18来完成小样本学习任务。因为RC依靠内部复杂动力学特性而天然具有一定抗过拟合能力,能够有效表达复杂的输入信息,但在计算机视觉任务上几乎没有应用。
    transl

    针对上述问题,本文提出一种基于储备池计算的小样本图像分类方法(Reservoir Computing Based Network for Few-shot Image Classification,RCFIC),将特征提取网络提取的特征输入特征增强模块(由储备池模块和基于储备池的注意力机制构成)分别进行通道级和像素级增强,然后进行特征融合得到增强特征。同时,在元学习阶段使用余弦相似度分类器,联合特征增强模块促使网络提取的特征分布具有高类间方差、低类内方差的特征,从而更好地指导分类。本文方法在公开常用的小样本图像分类数据集上的实验均达到了具有竞争力的分类精度,表明所提模型和方法具有较强的泛化能力,能够使网络学习更具判别性的特征,缓解过拟合问题,增强模型的性能。

    transl

    2 基于储备池计算的小样本图像分类方法

    2.1 问题定义

    由于小样本学习的任务都基于少量有标签数据(称为新类或目标数据域),而少量数据难以学习到真实的数据模式,容易遇到过拟合问题。因此,一般会引入一个含有丰富标注样本(类别与新类互斥)的辅助数据集(称为基类)以帮助模型学习先验知识,然后再利用这些先验知识以在目标数据域上获得更好的任务表现。

    transl

    小样本学习通常以元任务的方式进行训练和评估,每个元任务都以N-way K-shot方法获得,即每个元任务都包括N种类别的数据,每类数据只包含K个有标签的样本,同时从每类数据中抽取q个样本作为预测样本。有标签样本构成的数据集称为支持集DS,预测样本构成的数据集称为查询集DQ。即:

    transl

    DS=xiS,yiSi=1N×K (1)
    DQ=xiQ,yiQi=1N×q (2)

    其中:xiyi分别表示样本及其对应的标签类别,N表示类别数量,K为支持集中每类样本的数量,q表示查询集中每类预测样本的数量。

    transl

    模型在支持集上学习后在测试集新类中采样大量的元任务来获得这些任务的平均准确率,从而评估模型在小样本学习任务上的分类性能和泛化能力。

    transl

    2.2 算法框架

    基于储备池计算的小样本学习模型框架如图1所示。该模型主要由3个模块组成:特征提取模块、基于储备池的特征增强模块和分类器模块。首先,通过特征提取模块f(·|θ)(卷积网络,如ResNet12和ResNet18等;θ表示该模块的可学习参数)对输入图像进行特征提取。然后,将提取的特征输入到特征增强模块。特征增强模块由储备池通道级特征增强模块和基于储备池的注意力像素级特征增强模块组成,前者对输入特征进行高维表示以提取重要的通道信息,后者对输入特征的重要像素信息进行提取。最后,将两部分特征进行融合后输出到分类器模块C(·|Wcls)Wcls表示分类权重矩阵)得到最终的分类结果。

    transl

    fig

    图1  基于储备池计算的小样本图像分类模型框架

    Fig.1  Framework of few-shot image classification model based on reservoir computing

    icon Download:  Full-size image | High-res image | Low-res image

    2.3 训练方法

    本文使用两阶段训练策略,如图2所示。

    transl

    fig

    图2  基于储备池计算的训练方法流程图

    Fig.2  Flowchart of the training method based on RC

    icon Download:  Full-size image | High-res image | Low-res image

    第一阶段为模型预训练。将小样本数据集的训练集按照合适的比例划分为新的训练集和验证集,模型在新划分的数据集上以传统图像分类的方式进行训练,分类器使用线性分类器,最后得到预训练模型Modelpre。该阶段使模型能够充分学习基类的特征,为接下来将学习到的知识迁移到小样本学习任务上做准备,能够有效缓解过拟合问题。

    transl

    第二阶段为基于模型微调的小样本图像分类阶段。将Modelpre的分类器替换为余弦分类器,微调学习率等参数,再在原始的小样本数据集上以N-way K-shot的元学习方式进行模型训练和评估。

    transl

    2.4 特征提取模块

    随着卷积网络宽度和深度的增加,网络对图像信息的提取更加充分。但由于数据样本较少带来的过拟合问题,使得在小样本学习任务中网络不能随意加深加宽,因此小样本学习领域常使用ResNet-12和ResNet-18作为特征提取网络。本文也使用这两个小样本学习任务中常用的主干网络作为特征提取模块。

    transl

    通过特征提取模块f(·|θ)提取输入图像x的特征向量z1,如式(3)所示:

    transl

    z1=fx|θz1(C,H,W) (3)

    其中:C为特征图的通道数,HW分别为特征图的高和宽。

    transl

    2.5 特征增强模块

    2.5.1 半全连接的储备池内部拓扑结构

    储备池的强大性能源于其内部复杂的动力学特性,表现为储备池内部神经元之间的连接方式(连接矩阵WresM,MM为神经元个数),即储备池内部拓扑结构。用储备池来处理复杂的视觉信息时,需要设计一个相匹配的拓扑结构来提升储备池的性能。

    transl

    本文的Wres不使用传统的随机方法生成,也不同于经典的延迟线结构、循环结构以及对称结构

    19等拓扑结构。本文提出了一种半全连接的拓扑结构,生成方式如下:
    transl

    首先生成一个M·M的矩阵Wres,使其元素全为r10,1。然后,将第一行最后一个元素和从第二行第一个元素开始的对角线元素设为r20,1,即:

    transl

    W1,M=Wk+1,k, k=1,2,,M-1 (4)

    式中的下标代表元素在Wres中的位置。随后从矩阵第一个元素开始,按从左到右从上往下的顺序,每隔p个元素将其值设为r30,1,当要设置的元素超出矩阵范围时停止。对于网络的随机性,本文随机选择1/4的元素及其对称位置的元素设置为0。整个连接矩阵中1/2的元素为0,其余元素为r1r2r3

    transl

    为了储备池能够稳定运行,Wres的谱半径ρ(Wres)应该被约束到1,即对Wres进行如式(5)所示的变换:

    transl

    WresαWres/|λ|max (5)

    其中:α(0,1)为缩放尺度因子,|λ|max为变换前的Wres的特征值绝对值中的最大值(谱半径)。相较于其他几种经典拓扑结构,所提拓扑结构具有较好的信息流动能力和更丰富的动力学特征,更适合处理复杂的视觉数据。

    transl

    2.5.2 储备池模块

    储备池模块主要由半全连接拓扑结构的储备池和残差模块组成,用来提取输入特征的重要通道信息,进行通道级特征增强。在特征输入储备池之前,需要用一个线性层l1(·)对特征z1进行维度变换,使其变为适应储备池输入的维度,即z2=l1(z1)(C,D),其中D=H·W,代表线性层的输出维度,也是储备池输入的维度。由于储备池计算的传统优势在于处理时序数据,而小样本图像数据不具有此种关系,因此,本文将z2按照通道维度进行划分得到了C1·D维的数据zt(1,D),将其视为C个时刻的输入。那么储备池内部神经元状态更新方程如式(6)所示:

    transl

    st+1=Fzt+1Win+stWres (6)

    其中:t=0,1,,C-1Win是输入特征到储备池的连接矩阵,其连接权重按照高斯分布生成。Wres按照本文所提的半全连接拓扑结构的方法生成。这两个矩阵按照各自的规律生成后固定不变,不需要学习。zt+1表示第t+1个输入。st+1表示第t+1个输入时储备池内部神经元的状态。F(·)表示激活函数。

    transl

    储备池每个时刻的输出yt+1和整个储备池的输出yr根据式(7)式(8)计算:

    transl

    yt+1=[zt+1;st+1;zt+12;st+12]Wout (7)
    yr=y0;y1;;yt+1 (8)

    其中,”;”代表矩阵拼接操作;Wout代表储备池输出连接矩阵,本文使用一个可学习的线性层来逼近该矩阵。

    transl

    储备池后接一个残差模块,残差模块内含一个批归一化层(Batch Normalization, BN)和前馈层(Feed-Forward, FF)以增加网络信息流通能力,防止网络退化。储备池通道级特征增强模块的输出yRC式(9)所示:

    transl

    yRC=FFBNyr+yr . (9)

    2.5.3 基于储备池的注意力机制模块

    在小样本学习领域,注意力机制常被用来整合特征信息。本文提出了一种新颖的基于储备池网络的注意力机制生成方式。该模块通过储备池生成新的特征图QKV,然后根据式(10)计算输出像素级增强后的特征yAttn

    transl

    yAttn=SoftmaxRC1z2RC2z2Tβ1·   RC3z2+z2 . (10)

    yRC融合后得到最终的增强特征z3

    transl

    z3=β2yRC+β3yAttn (11)

    其中,β1β2β3均为可学习的标量参数。

    transl

    2.6 分类器模块

    增强特征z3被送入分类器计算输出最后的分类结果y

    transl

    y=classifierz3=C(|Wcls) . (12)

    第一阶段使用线性分类器:

    transl

    yl=softmax(WclsTz3+b) (13)

    其中:WclsT为分类权重矩阵的转置,b是偏置项。

    transl

    第二阶段使用余弦分类器:

    transl

    ycos=τcos z3T,Wcls=τz3Tz3TWclsWcls (14)

    其中,τ是一个可学习的标量参数。

    transl

    余弦分类器中的l2归一化操作促使网络提取输入图像最具代表性的特征。同时,余弦分类器结合特征增强模块使得分类前的特征分布呈现低类内方差、高类间方差的特点。储备池与余弦分类器相结合,能够更好地指导分类,提高小样本任务分类精度和模型的泛化能力。

    transl

    3 实验结果及分析

    3.1 数据集和实验环境

    本文对所提方法和模型在Cifar-FS

    20、FC10021和Mini-ImageNet22数据集上进行了常规小样本图像分类实验。为了验证模型的泛化性能,设置了跨域场景,在Mini-ImageNet上训练模型后,在CUB-20023数据集上测试模型性能。
    transl

    Cifar-FS和FC100均源自Cifar 100数据集。前者共包含100个类,每类有600张32×32的图像,被划分为训练集(64类)、验证集(16类)和测试集(20类);后者共包含100个类,每类有600张32×32图像。但FC100是按照超类进行划分的。FC100共20个超类,其中训练集12个超类(60类),验证集4个超类(20类),测试集4个超类(20类)。

    transl

    Mini-ImageNet由ImageNet

    24数据集中选取的100个类构成,每个类别包含600张84×84的图像,被划分为训练集(64类)、验证集(16类)和测试集(20类)。
    transl

    CUB-200是细粒度图像数据集,共包含200种鸟类的11 788张84×84图像,被划分为训练集(100类)、验证集(50类)和测试集(50类)。

    transl

    实验配置为GTX2080Ti显卡、Linux操作系统、PyTorch深度学习框架。实验在小样本任务阶段通过5-way 1-shot和5-way 5-shot方式采样任务,最终准确率是1 500个元任务的平均分类精度。

    transl

    3.2 实验结果

    3.2.1 小样本图像分类

    首先在公开常用的小样本数据集上进行了图像分类实验,所提方法和目前先进的小样本学习方法的实验结果对比如表1表2所示(加粗数字表示最优结果)。从表1表2中可以看出,与主流方法相比,以ResNet-12和ResNet-18为主干网络的所提方法均取得了最好的分类结果。

    transl

    表1  Cifar-FS数据集和FC100数据集上的分类精度
    Tab.1  Classification accuracy on Cifar-FS dataset and FC100 dataset ( % )
    方法骨干网络/AttnCifar-FSFC100
    5-way 1-shot5-way 5-shot5-way 1-shot5-way 5-shot
    Cp.Nets25 ResNet-12/No 75.40±0.20 86.80±0.20 43.80±0.20 59.70±0.20
    TPMN26 ResNet-12/No 75.50±0.90 87.20±0.60 46.93±0.71 63.26±0.74
    RFS-distill27 ResNet-12/No 73.90±0.80 86.90±0.50 44.60±0.70 60.90±0.60
    MetaOptNet28 ResNet-12/No 72.60±0.70 84.30±0.50 41.10±0.60 55.50±0.60
    MetaQAD29 WRN-28-10/No 75.83±0.88 88.79±0.75 - -
    Centroid30 ResNet-18/No - - 45.83±0.48 59.74±0.56
    STANet13 ResNet-12/Yes 74.89±0.18* 88.23±0.11* 46.27±0.22* 62.89±0.15*
    Main14 ResNet-12/Yes 74.36±0.45* 84.13±0.78* 44.54±0.33 58.09±0.32
    Cro-Attention15 ResNet-12/Yes 75.33±0.14* 87.94±0.61* 45.78±0.61* 62.78±0.66*
    RCFIC ResNet-12 77.23±0.32 88.91±0.19 48.14±0.41 64.27±0.83
    RCFIC ResNet-18 79.44±0.41 89.86±0.68 50.49±0.37 66.52±0.09

    注:  Attn表示是否使用了注意力机制;*表示复现结果

    icon Download:  CSV icon Download:  Table Images
    表2  在Mini-ImageNet数据集上的分类精度
    Tab.2  Classification accuracy on Mini-ImageNet dataset %
    方法骨干网络/Attn5-way 1-shot5-way 5-shot
    DMF31 ResNet-12/No 67.76±0.46 82.71±0.31
    IEPT32 ResNet-12/No 67.05±0.44 82.90±0.30
    CTM33 ResNet-18/No 64.12±0.82 80.51±0.13
    S2M234 ResNet-18/No 64.06±0.18 80.58±0.12
    STANet13 ResNet-12/Yes 58.35±0.57 71.07±0.39
    Main14 ResNet-12/Yes 64.27±0.35 81.24±0.26
    Cro-Attention15 ResNet-12/Yes 67.19±0.55 80.64±0.35
    RCFIC ResNet-12 67.95±0.57 83.15±0.33
    RCFIC ResNet-18 69.87±0.32 84.45±0.61

    注:  Attn表示是否使用了注意力机制

    icon Download:  CSV icon Download:  Table Images

    在Cifar-FS数据集上,5-way 1-shot和5-way 5-shot设置下的最优精度均是在以ResNet-18为特征提取网络时取得,分别为79.44%和89.86%,分别比次优网络MetaQAD高3.61%和1.07%。

    transl

    在FC100数据集上,5-way 1-shot和5-way 5-shot设置下的最优精度均是在以ResNet-18为特征提取网路时取得,分别为50.49%和66.52%,分别比次优网络TPMN高3.56%和3.26%。

    transl

    在Mini-ImageNet数据集上,在5-way 1-shot设置下,所提方法在ResNet-18特征提取网络下的分类准确率达到了69.87%,比次优方法DMF提高了2.11%;5-way 5-shot设置下的最高精度为84.45%,比次优方法IEPT提高了1.55%。

    transl

    同时,所提方法在3个数据集上的分类精度比其他基于注意力机制的小样本图像分类方法高约2%。

    transl

    实验结果说明所提方法能够有效对特征进行增强以提高分类准确率,能够有效处理小样本图像分类任务。

    transl

    3.2.2 领域迁移

    现实世界中基类和新类的数据模式差距一般都比较大,使得更加符合真实场景的领域迁移场景成为小样本学习领域的研究重点之一。领域迁移问题要求模型具有良好的泛化能力。为了验证所提方法的泛化性,本文设置了此类领域转移的场景:实验使用ResNet-12和ResNet-18作为特征提取的骨干网络,先在粗粒度数据集Mini-ImageNet上训练模型,然后再在细粒度数据集CUB-200上测试模型。

    transl

    实验结果如表3所示(加粗数字表示最优结果)。在5-way 1-shot和5-way 5-shot两种设置下,所提方法在使用ResNet-18作为特征提取网络时均达到最优,分别为49.24%和69.07%,分别超过次优方法LFWT 1.77%和2.09%。

    transl

    表3  领域迁移实验
    Tab.3  Cross-domain ( % )
    方法骨干网络5-way 1-shot5-way 5-shot
    LFWT35 ResNet-10 47.47±0.75 66.98±0.68
    LRP36 ResNet-12 46.23±0.42 66.58±0.39
    S-Shot37 ResNet-18 46.68±0.49 65.56±0.70
    RCFIC ResNet-12 48.15±0.35 67.66±0.57
    RCFIC ResNet-18 49.24±0.19 69.07±0.26

    注:  Mini-ImageNet迁移到CUB-200

    icon Download:  CSV icon Download:  Table Images

    实验说明所提方法针对领域迁移问题有良好的表现,模型的泛化能力强。

    transl

    3.3 消融实验

    3.3.1 特征增强模块的影响

    所提方法的特征增强模块由储存池模块和基于储存池的注意力机制模块组成。为了探究所提模块的必要性以及对结果产生的影响,以ResNet-18为特征提取网络在Cifar-FS数据集上进行了不使用特征增强模块(No Enhancement,NE)、只使用储备池模块(Only Reservoir,OR)和只使用基于储备池的注意力机制模块(Only Attention,OA)的消融实验。

    transl

    实验结果如表4所示(加粗数字表示最优结果)。可以看到使用了特征增强模块的分类精度在两种设置下都高于不使用特征增强模块的网络至少3%。同时,当储备池模块和基于储备池的注意力模块联合使用时,分类精度比其单独使用至少高约0.78%。该消融实验说明了所提特征增强模块的有效性和两个模块联合使用的必要性。

    transl

    表4  特征增强模块的影响(以对Cifar-FS数据集的分类精度为例)
    Tab.4  Effect of feature enhancement module (taking classification accuracies on Cifar-FS for example) %
    NAOROA5-way 1-shot5-way 5-shot
    - - - 73.43±0.12 84.34±0.36
    - - 76.61±0.57 87.33±0.72
    - - 78.66±0.38 87.62±0.29
    - 79.44±0.41 89.86±0.68
    icon Download:  CSV icon Download:  Table Images

    3.3.2 不同注意力机制生成方式的影响

    为了说明所提方法相比于传统的线性变换或卷积操生成注意力机制的优势,在Mini-ImageNet数据集上以ResNet-18为特征提取网络进行了小样本图像分类实验。实验结果如表5所示(加粗数字表示最优结果)。可以看出使用了注意力机制比没有使用时分类效果好,因为注意力机制整合突出了重要特征信息。所提生成注意力机制方法的精度在5-way 1-shot和5-way 5-shot设置下分别达到69.87%和84.45%,优于另外两种方法至少2.12%,说明了储备池生成方法的有效性。

    transl

    表5  不同注意力生成方式在Mini-ImageNet上的精度
    Tab.5  Classification accuracy of attention mechanisms generated by different methods on Mini-ImageNet dataset ( % )
    线性变换卷积储备池5-way 1-shot5-way 5-shot
    - - - 60.97±0.22 79.23±0.07
    - - 65.27±0.36 82.33±0.72
    - - 63.75±0.17 81.62±0.29
    - - 69.87±0.32 84.45±0.61
    icon Download:  CSV icon Download:  Table Images

    3.3.3 特征分布可视化

    在Cifar-FS数据集上,以ResNet-18为特征提取网络对查询集的特征进行提取(q=30,共5×30张查询图像)。以不同的注意力机制进行增强后,采用t-Distributed Stochastic Neighbor Embedding(t-SNE)

    38对特征分布做可视化。
    transl

    图3所示,所提方法对特征进行增强后,特征分布相较于传统的线性变换和卷积操作生成方式而言,具有更大的类间方差和更小的类内方差,使得分类器能够更好地分类,提升小样本任务的分类精度。

    transl

    fig

    图3  不同方式生成注意力机制对特征进行增强后的特征分布

    Fig.3  Feature distributions after the enhancement by attention mechanisms generated in different ways

    icon Download:  Full-size image | High-res image | Low-res image

    3.3.4 可学习标量参数的影响

    可学习标量参数主要用来进行缩放,主要体现在公式(11)的中的β2β3公式(14)中的τβ2β3主要用于权衡通道级增强模块的输出和像素级增强模块的输出对最终输出的贡献程度。因为余弦相似度的范围被固定为[-1, 1],所以用τ来控制分类器中softmax算子产生的概率分布的峰值。在Cifar-FS、Mini-ImageNet数据集上以ResNet-18为特征提取网络进行了小样本图像分类实验,讨论了是否使用β2β3以及对τ进行不同初始化选择的影响。

    transl

    表6所示(加粗数字表示最优结果),使用β2β3的效果优于未使用时,因为这两个参数学习如何衡量通道级增强模块和像素级增强模块的重要性比例,相较于未使用的情况更合理。同时,这两个参数都被初始化为0~1之间的数值。参数τ用来控制softmax算子的峰值,其不同初始化值对实验结果的影响如图4所示。可以发现其初始值为4时,在Cifar-FS和Mini-ImageNet数据集上的最终分类结果都比其他初始化值好,因此所做其他实验中该参数的初始值设置为4。

    transl

    表6  是否使用β1β2的影响
    Tab.6  Effect of whether using β1 and β2 ( % )
    β2β35-way 1-shot5-way 5-shot
    - - 77.12±0.41 87.37±0.29
    79.44±0.41 89.86±0.68
    icon Download:  CSV icon Download:  Table Images
    fig

    图4  不同的τ初始值对分类准确度的影响

    Fig.4  Effect of different initial values of τ on classification accuracy

    icon Download:  Full-size image | High-res image | Low-res image

    3.3.5 不同储备池内部拓扑结构的影响

    储备池内部拓扑结构使其具有丰富的动力学特性来处理复杂的数据。为了直观说明所提拓扑结构的优势,在Mini-ImageNet数据集上以ResNet-18为特征提取网络进行了小样本图像分类实验。

    transl

    实验结果如表7所示(加粗数字表示最优结果),所提拓扑结构在5-way 1-shot和5-way 5-shot两种设置下的分类精度均优于其他拓扑结构1%~3%,说明所提拓扑结构具有更丰富动力学特性来处理复杂信息和缓解过拟合,能够增强模型的泛化能力。

    transl

    表7  不同储备池内部拓扑结构的影响
    Tab.7  Effect of different internal topologies of RC ( % )
    拓扑结构骨干网络5-way 1-shot5-way 5-shot
    Random ResNet-18 67.16±0.44 80.57±0.18
    Delay line ResNet-18 65.33±0.38 78.95±0.39
    Cyclic ResNet-18 66.97±0.29 78.52±0.67
    Wigner ResNet-18 68.44±0.51 81.38±0.13
    RCFIC ResNet-18 69.87±0.32 84.45±0.61
    icon Download:  CSV icon Download:  Table Images

    4 结论

    本文提出了一种基于储备池计算的小样本图像分类方法,通过储备池模块和基于储备池模块的注意力机制对特征进行通道级和像素级增强,联合余弦分类器使得网络提取的特征分布具有高类间方差、低类内方差的特性。相较于目前流行的小样本图像分类方法,所提方法在标准的小样本图像分类任务和跨域转移场景下的分类精度至少分别高1.07%和1.77%,具有较强的泛化性。本文方法依赖于储备池内部动力学特性来缓解过拟合、增强模型泛化性能,然而其内在机制缺乏可解释性,这也将是下一步的研究重点。

    transl

    参考文献

    1

    LUO YZHAO Y FLI J Xet al. Computational imaging without a computer: seeing through random diffusers at the speed of light [J]. eLight202221): 4. doi: 10.1186/s43593-022-00012-4 [Baidu Scholar] 

    2

    ZUO CQIAN J MFENG S Jet al. Deep learning in optical metrology: a review [J]. Light: Science & Applications2022111): 39. doi: 10.1038/s41377-022-00714-x [Baidu Scholar] 

    3

    SITU G. Deep holography [J]. Light: Advanced Manufacturing202232): 8. doi: 10.37188/lam.2022.013 [Baidu Scholar] 

    4

    CHEN C F RFAN Q FPANDA R. CrossViT: Cross-attention multi-scale vision transformer for image classification [C]//Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. MontrealIEEE2021347-356. doi: 10.1109/iccv48922.2021.00041 [Baidu Scholar] 

    5

    杜敏敏司马海峰. A-LinkNet:注意力与空间信息融合的语义分割网络[J]. 液晶与显示2022379):1199-1208 doi: 10.37188/CJLCD.2022-0046 [Baidu Scholar] 

    DU M MSIMA H F. A-LinkNet: semantic segmentation network based on attention and spatial information fusion [J]. Chinese Journal of Liquid Crystals and Displays2022379): 1199-1208. (in Chinese). doi: 10.37188/CJLCD.2022-0046 [Baidu Scholar] 

    6

    WU X WSAHOO DHOI S C H. Recent advances in deep learning for object detection [J]. Neurocomputing202039639-64. doi: 10.1016/j.neucom.2020.01.085 [Baidu Scholar] 

    7

    ZHONG XGU CYE Met al. Graph complemented latent representation for few-shot image classification [J]. IEEE Transactions on Multimedia2022251979-1990. doi: 10.1109/tmm.2022.3141886 [Baidu Scholar] 

    8

    FINN CABBEEL PLEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks [C]//Proceedings of the 34th International Conference on Machine Learning. SydneyJMLR.org20171126-1135. doi: 10.1109/icra.2016.7487173 [Baidu Scholar] 

    9

    LI F FFERGUS RPERONA P. One-shot learning of object categories [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence2006284): 594-611. doi: 10.1109/tpami.2006.79 [Baidu Scholar] 

    10

    ROYLE J ADORAZIO R MLINK W A. Analysis of multinomial models with unknown index using data augmentation [J]. Journal of Computational and Graphical Statistics2007161): 67-85. doi: 10.1198/106186007x181425 [Baidu Scholar] 

    11

    CHEN W YLIU Y CKIRA Zet al. A closer look at few-shot classification [C]. 7th International Conference on Learning Representations. New OrleansOpenReview.net2019. [Baidu Scholar] 

    12

    LI X XSUN ZXUE J Het al. A concise review of recent few-shot meta-learning methods [J]. Neurocomputing2021456463-468. doi: 10.1016/j.neucom.2020.05.114 [Baidu Scholar] 

    13

    YAN S PZHANG S YHE X M. A dual attention network with semantic embedding for few-shot learning [C]. Thirty-Seventh AAAI Conference on Artificial Intelligence. WashingtonAAAI Press20199079-9086. doi: 10.1609/aaai.v33i01.33019079 [Baidu Scholar] 

    14

    QIN Z LWANG HMAWULI C Bet al. Multi-instance attention network for few-shot learning [J]. Information Sciences2022611464-475. doi: 10.1016/j.ins.2022.07.013 [Baidu Scholar] 

    15

    HOU R BCHANG HMA B Pet al. Cross attention network for few-shot classification [C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. VancouverCurran Associates Inc.2019. [Baidu Scholar] 

    16

    GUO Y HCODELLA N CKARLINSKY Let al. A broader study of cross-domain few-shot learning [C].16th European Conference on Computer Vision. GlasgowSpringer2020124-141. doi: 10.1007/978-3-030-58583-9_8 [Baidu Scholar] 

    17

    JAEGER H. Short term memory in echo state networks [R]. Forschungszentrum Informationstechnik GmbH2002. [Baidu Scholar] 

    18

    MAASS WNATSCHLÄGER TMARKRAM H. Real-time computing without stable states: A new framework for neural computation based on perturbations [J]. Neural Computation20021411): 2531-2560. doi: 10.1162/089976602760407955 [Baidu Scholar] 

    19

    VERZELLI PALIPPI CLIVI Let al. Input-to-state representation in linear reservoirs dynamics [J]. IEEE Transactions on Neural Networks and Learning Systems2022339): 4598-4609. doi: 10.1109/tnnls.2021.3059389 [Baidu Scholar] 

    20

    BERTINETTO LHENRIQUES J FTORR Pet al. Meta-learning with differentiable closed-form solvers [C]. International Conference on Learning Representations. New OrleansICLR2019. [Baidu Scholar] 

    21

    ORESHKIN B NRODRÍGUEZ PLACOSTE A. TADAM: Task dependent adaptive metric for improved few-shot learning [C]//Proceedings of the 32nd International Conference on Advances in Neural Information Processing Systems. MontréalCurran Associates Inc.2018. [Baidu Scholar] 

    22

    VINYALS OBLUNDELL CLILLICRAP Tet al. Matching networks for one shot learning [C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. BarcelonaCurran Associates Inc.2016. [Baidu Scholar] 

    23

    CUI YZHOU FLIN Y Qet al. Fine-grained categorization and dataset bootstrapping using deep metric learning with humans in the loop [C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las VegasIEEE20161153-1162. doi: 10.1109/cvpr.2016.130 [Baidu Scholar] 

    24

    DENG JDONG WSOCHER Ret al. ImageNet: a large-scale hierarchical image database [C]. 2009 IEEE Conference on Computer Vision and Pattern Recognition. MiamiIEEE2009. doi: 10.1109/cvpr.2009.5206848 [Baidu Scholar] 

    25

    XU W JXU Y FWANG H Jet al. Attentional constellation nets for few-shot learning [C]. 9th International Conference on Learning Representations. Virtual, OnlineOpenReview.net2021. [Baidu Scholar] 

    26

    WU J MZHANG T ZZHANG Y Det al. Task-aware part mining network for few-shot learning [C]//Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. MontrealIEEE20218413-8422. doi: 10.1109/iccv48922.2021.00832 [Baidu Scholar] 

    27

    TIAN Y LWANG YKRISHNAN Det al. Rethinking few-shot image classification: a good embedding is all you need? [C]//16th European Conference on Computer Vision. GlasgowSpringer2020266-282. doi: 10.1007/978-3-030-58568-6_16 [Baidu Scholar] 

    28

    LIU Y BLEE JPARK Met al. Transductive propagation network for few-shot learning [J/OL]. arXiv20181805.10002v1. doi: 10.24963/ijcai.2020/112 [Baidu Scholar] 

    29

    ZHANG X TMENG D BGOUK Het al. Shallow Bayesian meta learning for real-world few-shot recognition [C]//Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. MontrealIEEE2021631-640. doi: 10.1109/iccv48922.2021.00069 [Baidu Scholar] 

    30

    AFRASIYABI ALALONDE J FGAGNÉ C. Associative alignment for few-shot image classification [C]. 16th European Conference on Computer Vision. GlasgowSpringer202018-35. doi: 10.1007/978-3-030-58558-7_2 [Baidu Scholar] 

    31

    XU C MFU Y WLIU Cet al. Learning dynamic alignment via meta-filter for few-shot learning [C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. NashvilleIEEE20215178-5187. doi: 10.1109/cvpr46437.2021.00514 [Baidu Scholar] 

    32

    ZHANG M LZHANG J HLU Z Wet al. IEPT: Instance-level and episode-level pretext tasks for few-shot learning [C]. 9th International Conference on Learning Representations. ViennaOpenReview.net2021. [Baidu Scholar] 

    33

    LI H YEIGEN DDODGE Set al. Finding task-relevant features for few-shot learning by category traversal [C]//Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long BeachIEEE20191-10. doi: 10.1109/cvpr.2019.00009 [Baidu Scholar] 

    34

    MANGLA PSINGH MSINHA Aet al. Charting the right manifold: Manifold Mixup for few-shot learning [C]//Proceedings of the 2020 IEEE Winter Conference on Applications of Computer Vision. SnowmassIEEE20202207-2216. doi: 10.1109/wacv45572.2020.9093338 [Baidu Scholar] 

    35

    TSENG H YLEE H YHUANG J Bet al. Cross-domain few-shot classification via learned feature-wise transformation [C]. 8th International Conference on Learning Representations. Addis AbabaOpenReview.net2020. [Baidu Scholar] 

    36

    SUN J MLAPUSCHKIN SSAMEK Wet al. Explanation-guided training for cross-domain few-shot classification [C]. 2020 25th International Conference on Pattern Recognition (ICPR). MilanIEEE20217609-7616. doi: 10.1109/icpr48806.2021.9412941 [Baidu Scholar] 

    37

    WANG YCHAO W LWEINBERGER K Qet al. Revisiting nearest-neighbor classification for few-shot learning [J/OL]. arXiv20191911.04623v1. [Baidu Scholar] 

    38

    VAN DER MAATEN LHINTON G. Visualizing data using t-SNE [J]. Journal of Machine Learning Research2008986): 2579-2605. [Baidu Scholar] 

    530

    Views

    287

    Downloads

    4

    CSCD

    Alert me when the article has been cited
    Submit
    Tools
    Download
    Export Citation
    Share
    Add to favorites
    Add to my album

    Related Articles

    Remote sensing scene classification model based on improved ShuffleNetV2 network
    Prototype distribution correction for few-shot point cloud classification
    Hyperspectral image classification based on multi-branch spatial-spectral feature enhancement
    Hyperspectral image classification based on spatial pyramid attention mechanism combined with ResNet

    Related Author

    LAN Hai
    YU Hui
    GUO Jie-long
    WEI Xian
    XU Huiwen
    ZHAO Weichao
    LI Ze
    FENG Yuanzhi

    Related Institution

    Fujian Science & Technology Innovation Laboratory for Optoelectronic Information of China
    Digital Center, Changchun Institute of Optics, Fine Mechanics and Physics, Chinese Academy of Sciences
    University of Chinese Academy of Sciences
    Shanghai Institute of Aerospace System Engineer
    Fujian Science & Technology Innovation Laboratory for Optoelectronic Information of China
    0