您好,欢迎来到客趣旅游网。
搜索
您的当前位置:首页【论文阅读】High-Order Structure Based Middle-Feature Learning forVisible-Infrared Person Re-Identificati

【论文阅读】High-Order Structure Based Middle-Feature Learning forVisible-Infrared Person Re-Identificati

来源:客趣旅游网

代码链接:

1.摘要

可见光与红外人体再识别(VI-ReID)旨在跨模态检索由可见光(VIS)和红外(IR)摄像机捕获的同一人的图像。当前VI-ReID方法往往忽视了特征的高阶结构信息,且由于VIS与IR图像间的巨大模态差异,难以学习到一个合理的公共特征空间。为应对这些挑战,我们提出了一种新颖的方法——基于高阶结构的中特征学习网络(HOS-Net),以实现高效的VI-ReID。

具体而言,我们的方法首先采用了一个短距离与远程特征提取(SLE)模型,该模型能够有效地结合近距离和远程特征,以增强特征的表达能力。接着,我们创新性地引入了一个高阶结构学习(HSL)模块,该模块利用白化超图网络,成功构建了每个人不同局部特征之间的高阶关系,显著减轻了模型过拟合的风险并增强了特征的鲁棒性。

此外,我们还设计了一个通用的特征空间学习(CFL)模块,该模块能够基于中间特征生成,从不同模态和范围调整特征,以学习一个判别性强且合理的公共特征空间。特别地,我们提出了模态范围身份中心对比(MRIC)策略,有效缩小了可见光、红外及中间特征之间的距离,进一步平滑了训练过程。

在SYSU-MM01、RegDB及LLCM等基准数据集上进行的广泛实验结果表明,我们的HOS-Net方法取得了显著的性能提升,达到了当前最先进的水准。这些成果不仅验证了所提方法的有效性,也为VI-ReID领域的研究提供了新的思路和方向。

2.贡献

• 首先,我们引入了一个HSL模块来学习短距离和长距离特征的高阶结构信息。这种创新方式有效地建模了人物图像中不同局部特征之间的高阶关系,同时避免了模型崩溃的问题,极大地增强了特征的表示能力。
• 其次,我们设计了一个CFL模块,利用中间特征来学习一个具有判别性和合理性的公共特征空间。特别是,我们开发了一种新的MRIC损失函数,用于最小化可见光(VIS)、红外(IR)和中间特征之间的距离。这有助于提取具有判别性的、与模态无关的再识别(ReID)特征。

3.实验结果

3.1实验设置

在训练阶段,所有图像被调整到256×128的尺寸,并采用水平翻转、随机擦除和通道增强等方式进行数据增强(Ye等人,2021a)。对于每个小批量,随机选择8个身份,每个身份选择4张可见光(VIS)图像和4张红外(IR)图像。采用AGW(Ye等人,2021b)作为骨干网络。使用热身策略在前10个周期将学习率从0.01逐渐提升至0.1。在第20和50个周期时,学习率分别调整为0.01和0.001。采用SGD作为优化器,动量参数设置为0.9。训练周期总数为120。提出的HOS-Net使用PyTorch在NVIDIA RTX3090 GPU上实现。超边数M被设置为256,公式(6)中的λ设置为1.3。采用累积匹配特性(CMC)和平均平均精度(mAP)作为评价指标,其中CMC衡量了真实人物出现在前k个检索结果中的匹配概率(Rank-k准确率)。此外,随机划分RegDB数据集进行训练和测试,该过程重复十次以报告平均性能。同样,也随机划分SYSU-MM01和LLCM数据集的候选集十次来报告平均性能。

3.2 消融实验

SLE(自监督学习嵌入):通过在方法2中引入SLE,与方法1相比,在SYSU-MM01和RegDB数据集上分别实现了约2.5%和5.7%的mAP提升。这表明我们提出的SLE是有效的,它结合了CNN和Transformer的优势,探索了不同范围的人物特征。

HSL(高阶结构学习模块):在方法2的基础上加入HSL后,方法3在两个数据集上的Rank-1/mAP分别提升了1.6%/3.0%和2.4%/2.3%。这验证了HSL的重要性,它采用白化超图网络来建模每个人物图像中不同局部特征之间的高阶关系,并避免了模型崩溃。

CFL(中特征学习模块):方法5在方法3的基础上引入了CFL,并在RegDB数据集上的Rank-1/mAP上比方法3高出0.7%/0.7%。这表明学习可靠的中特征可以有效地减少模态差异。

MRIC损失:与方法5相比,方法7在两个数据集上的Rank-1/mAP上分别提升了1.6%/1.3%和2.0%/2.6%。MRIC损失能够改善特征表示,并减少可见光和红外模态之间的差异,从而实现一个合理的公共特征空间。

(a-c) 展示了在SYSU-MM01数据集上,可见光(VIS)和红外(IR)模态特征的类内相似度和类间相似度的分布情况。

(d-f) 在二维特征空间上,对SYSU-MM01数据集上来自可见光和红外模态的人物特征分布进行了可视化。圆圈和叉号分别代表来自可见光和红外模态的特征。

4.分析

4.1 短程与长程特征提取(SLE)模块

传统的跨模态行人重识别(VI-ReID)方法(如Ye等人,2021b;Yang, Chen, 和 Ye,2023)经常利用卷积神经网络(CNN)或视觉Transformer(ViT)进行特征提取。CNN擅长捕捉短程特征,而ViT则擅长获取长程特征(Zhang, Hu, 和 Wang,2022;Chen等人,2022b)。在本文中,我们采用了一个SLE模块,通过结合CNN和ViT的优势来利用短程和长程特征。SLE模块包含一个卷积分支(CB)和一个Transformer分支(TB)。CB包含3个卷积块,而TB包含2个具有4个头的Transformer块。

4.2高阶结构学习(HSL)模块

从SLE模块中提取的特征仅编码了人物图像中的像素级和区域级依赖性。然而,高阶结构信息(表示特征中不同层级的关系,例如,头部、躯干、上臂和下臂属于身体的上半部分,而头部、躯干、手臂和腿则属于整个身体)并未得到充分利用。因此,受高阶图神经网络(HGNN,Feng等人,2019)的启发,我们引入了HSL模块来捕捉不同局部特征之间的高阶相关性,从而增强特征表示。值得注意的是,传统的HGNN倾向于出现模型坍塌的问题。为了缓解这一问题,我们利用了白化操作,并将其应用于超图网络中,如图所示。

4.3公共特征空间学习(CFL)模块

传统的特征级跨模态行人重识别(VI-ReID)方法通常基于对比损失来学习一个公共特征空间,该空间直接最小化可见光(VIS)和红外(IR)特征之间的距离。然而,由于模态间存在较大的差异,这种方式无法获得合理的公共特征空间。为了解决上述问题,我们期望从VIS和IR特征中学习中间特征,从而能够获得一个合理的公共特征空间。

一个获得中间特征的直接方法是将来自不同范围的VIS或IR特征相加或拼接。然而,由于特征不对齐和语义信息的丢失,上述方法无法生成可靠的中间特征。因此,我们提出了一个CFL模块,该模块通过图注意力(GAT,Guo等人,2021)对齐来自不同模态和范围的特征,并生成可靠的中间特征,如图1所示。

参考文献

Qiu, Liuxiang, et al. "High-Order Structure Based Middle-Feature Learning for Visible-Infrared Person Re-identification." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 5. 2024.

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- kqyc.cn 版权所有 赣ICP备2024042808号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务