Multi-spectral fusion power equipment fault recognition based on prompt learning

Yiyang YAO; Zexing DU; Guoqing ZHOU; Qing WANG

doi:10.1051/jnwpu/20254320410

Open Access

Issue		JNWPU Volume 43, Number 2, April 2025


Page(s)		410 - 417
DOI		https://doi.org/10.1051/jnwpu/20254320410
Published online		04 June 2025

JNWPU 2025, 43(2): 410–417

Multi-spectral fusion power equipment fault recognition based on prompt learning

基于提示学习的电力设备故障多谱段融合识别方法

Yiyang YAO (姚一杨), Zexing DU (杜泽星), Guoqing ZHOU (周>果清) and Qing WANG (王庆)

School of Computer Science, Northwestern Polytechnical University, Xi'an 710072, China

Received: 5 March 2024

Abstract

To address the issue of weak fault recognition ability of power equipment in single-spectrum images, a multi-spectral fusion recognition method based on prompt learning is proposed. A multi-spectral imaging system is used to capture images of normal and faulty power equipment, collecting multi-spectral data including visible light, infrared, and ultraviolet. The collected dataset is annotated with text labels for training the large model. The generalization ability of the large model in power equipment fault recognition is verified, and the original large model is tested on the collected dataset for device type and fault recognition. Trainable prompts based on infrared and ultraviolet images are designed for parameter updates. Throughout the training process, the parameters of the pre-trained large model remain fixed, and only the designed lightweight prompts are updated, significantly reducing the number of training parameters and alleviating the model's dependence on large-scale datasets. The proposed method is compared with several existing methods, and the results demonstrate that this approach can greatly improve the accuracy of power equipment fault recognition, achieving an accuracy of 90.14%. Ablation experiments and visual results further validate the effectiveness of the method. Additionally, the proposed method optimizes only a small number of trainable parameters, ensuring its efficiency.

摘要

针对单谱段图像在电力设备故障识别中的局限性, 提出了一种基于提示学习(prompt learning)的多谱段融合识别方法。为提升大模型对电力设备故障的识别精度, 设计了基于红外图像和紫外图像的可训练提示(prompts), 这些提示作为可训练部分用于模型的参数更新。这种策略很大程度地减少了训练所需的参数量, 且降低了大模型对下游数据量的依赖。利用集成可见光、红外和紫外等谱段的混合成像系统, 对正常和故障电力设备进行了拍摄, 并构建了相应的多谱段数据集, 该数据集经过文本标注后, 可用于大模型的训练。实验结果表明, 所提出的方法可显著提升电力设备故障识别的精度, 平均识别精度达到90.14%。消融实验和可视化结果进一步验证了所提出方法的有效性。此外, 由于所设计的方法只优化了极少数可训练参数, 确保了方法的高效性。

Key words: prompt learning / multi-modal fusion / power equipment / fault recognition

关键字 : 提示学习 / 多模态融合 / 电力设备 / 故障识别

This is an Open Access article distributed under the terms of the Creative Commons Attribution License (https://creativecommons.org/licenses/by/4.0), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

电力系统的安全稳定运行在经济社会发展和居民生活的稳定中扮演着至关重要的角色。随着国家电力需求不断增长, 电网建设规模不断扩大, 电力负荷也相应增加。由于电气设备长时间处于户外高压、高温、高负载的工作环境中, 一旦发生损坏或故障, 可能带来巨大的经济损失。近年来, 得益于各类传感器技术的成熟, 电力设备的状态监控技术得到了逐步发展。特别地, 在多谱段成像检测技术中因其每个谱段都具有独特的特点和检测优势, 已成为研究热点。与单一谱段检测相比, 多谱段融合能够最大程度地利用信息, 提高目标感知的完整性和确定性, 进而减少检测误差。因此, 本文旨在综合不同谱段数据的优势, 研究一种多谱段特征融合的电力设备缺陷识别技术, 这对于确保电网设备的安全可靠运行具有十分重要的意义。

在计算机视觉领域, 电力设备缺陷识别技术近年来得到了广泛研究。文献[1]研究了电力设备杆塔、导线、地线、绝缘子和金具五大种类典型缺陷识别, 深入分析了颜色、纹理、平滑一致性、尺寸、形状几何关系等要素对识别精度的影响。文献[2]通过引入分支的坐标注意力模块, 特征融合模块以及空间金字塔，对YOLOv5网络进行优化, 从而提升了电力设备缺陷检测精度。文献[3]提出了基于注意力机制的自适应感受野模块, 实现了对电力设备的覆冰、锈蚀、污秽等多尺度缺陷检测。然而, 这些方法都依赖于大规模的标注数据集对网络进行重新训练, 这不仅加重了数据和计算依赖, 而且对整个网络进行微调也破坏了原有模型的特征提取能力, 限制了网络的灵活性和快速适应能力。

随着大规模视觉-语言预训练模型的发展, 越来越多的研究将其应用到开放域或未知类别的识别任务中。这些模型的核心思想是使用图像和文本编码器, 在特征空间对齐图像和原始文本。例如, CLIP[4]和ALIGN[5]都使用对比损失[6]将匹配的图像文本对聚集, 将不匹配的图像文本对远离。通过大规模数据集训练, 模型可以学习到不同图像的语义表达, 并且通过提示学习的方法迁移到新的下游任务中[6–11]。与传统的神经网络微调方法相比, 提示学习具有灵活性、可迁移性、高效性等优势。因此, 本文旨在探讨如何在视觉-语言预训练大模型的基础上, 利用提示学习大模型提升多谱段电力设备故障识别的性能。

1 相关工作

1.1 预训练大模型

近年来，基于视觉和语言的预训练大模型已成为国内外研究的热点。这类模型以多模态数据(如图像与文本)为输入，通过联合建模视觉特征与语言语义的关联性，旨在突破单一模态的局限性，从而实现跨模态的深层语义对齐与动态交互。根据文献[4, 12–14]所述，这些模型在大规模的图像和文本数据上进行预训练，将图像和文本映射到一个共享的语义空间中进行表示，进而实现语义匹配、推理和生成。

为深入研究这些预训练大模型在电力设备故障识别领域的性能表现, 本文选取了CLIP[4]模型作为研究对象。CLIP的训练过程使用了大规模的文本和图像数据对。在训练过程中, CLIP学会了如何将文本描述与图像内容相对应, 使得它可以在没有具体监督的情况下, 理解文本描述所指的图像, 将图像和文本映射到同一特征空间后, 使用对比学习优化网络参数, 使得同一对的图像和文本特征距离拉近, 不同对的特征远离。由于预训练过程中采用了大规模且高质量的数据集, CLIP展现出卓越的泛化能力, 能够在零样本条件下在各种下游任务中取得出色的性能。因此, 本文基于CLIP模型, 对其在电力设备故障识别领域的性能进行了深入研究。

1.2 提示学习

提示学习源于在自然语言处理领域的研究突破。在获得预训练语言大模型的基础上, 提示学习将下游任务重新定义为带掩码的文本建模。下游任务根据上下文信息对掩码位置进行预测。例如, 在识别任务中, 样本可能会标记为“I felt so [MASK]”, MASK用来代表类别, 例如“bad/happy”。为了应对在优化过程中网络参数量巨大的挑战, 研究人员提出了delta-tuning等方法[15]来缓解这一问题, 其中代表性的方法有: 增量式、指定式和重参数化的方法。

受提示学习在自然语言处理方面的成功启发, 越来越多的研究将其应用到图像文本多模态领域。文献[7]使用可学习向量代替CLIP模型中的文本, 并且保持预训练的大模型参数不变, 从而将模型泛化到不同的下游任务中。文献[8]则专注于在CLIP模型的图像输入端学习一个扰动, 学习后的扰动与冻结的CLIP模型可用于新的下游任务。文献[16]提出一个多模态融合模块, 在优化过程中, 仅对该模块进行参数更新, 保持原始视觉和文本基础网络参数不变。从这些方法可以看出, 它们都是通过训练一个额外的、轻量化的模块将预训练模型应用到下游任务中, 并且在这个过程中保持预训练参数不变, 在保证性能的同时又提升了方法的高效性。

2 多模态电力设备数据集构建

2.1 数据采集

为了实现对电力设备的故障识别, 本文首先构建了一个包含可见光、红外和紫外的多谱段数据集。通过使用自研的多谱段成像系统, 成功地对正常和故障的电力设备进行拍摄, 从而获取了包含这3种谱段数据的训练样本。该成像系统将可见光、红外和紫外3个检测相机集成到1个平台上, 并且将采集到的多模态图像进行空间关系配准。所有谱段的图像分辨率都是1 920×1 080, 且采集过程保持时间同步, 确保了数据时域配准。部分采集到的数据集如图 1所示。

数据集涵盖了6类电力设备的3个谱段图像, 包含了隔离开关、电流表和导线、油浸式变压器、干式变压器、冲击器和开关柜。通过观察这些图像, 可以清晰地发现, 当电力设备出现故障时, 往往会伴随明显的红外发热或紫外放电现象。这些现象为本文研究提供了宝贵的故障识别线索, 进一步证实了多谱段数据在电力设备故障识别中的重要作用。

图1

部分数据集样例

2.2 数据标注

在现有故障识别任务中, 许多方法通常使用one-hot编码方式对样本进行标注, 使其可以快速地用于网络训练。然而, 这种简单的编码方式难以进一步挖掘图像中的深层语义信息。受CLIP模型启发, 提出一种针对电力设备故障识别的文本标准方法。如图 1所示, 采用“状态”+“类型”的标注方式，其中, “状态”代表该设备是否处于正常运行状态, “类型”代表图像所属的设备类别。这种文本标注方法可以帮助模型学习图像和文本之间的语义关系, 使其能够在图像和文本之间进行有效的匹配和理解。这种跨模态能力使得模型能够更好地将图像与相应的文本描述关联起来。

3 基于零样本的CLIP模型验证

CLIP模型, 作为一个功能强大的多模态大模型, 其核心结构由视觉编码器和文本编码器构成。这2个编码器分别负责将图像和文本描述映射到一个共享的嵌入空间中, 从而实现了图像与文本之间的语义对齐。在训练过程中, CLIP模型依赖于海量的图像-文本配对数据, 这些数据涵盖了图像与文本描述之间的精确对应关系。CLIP模型的原理图如图 2所示。主要包括2个核心部分：文本编码器和图像编码器。文本编码器负责将输入的文本转换为低维的向量表示，图像编码器负责将输入的图像转换为与文本嵌入空间相同的低维向量表示。在训练过程中，模型试图最大化正样本的相似度，同时最小化负样本的相似度。这种学习方式使得模型能够学习到跨模态的通用特征表示，从而实现对文本和图像的联合理解。

为了评估CLIP模型在电力设备缺陷识别这一特定领域的泛化能力, 本文将预训练好的CLIP模型直接用于缺陷识别。在这一过程中, 并未对网络进行微调, 并且只使用可见光图像作为模型的输入。图 3展示了在零样本情况下, CLIP模型对电力设备类型的识别效果。从图 3中可以看出, 预训练大模型可以较好地识别出部分电力设备, 如油浸式变压器、干式变压器、冲击器和开关柜。但是在隔离开关、电流表和导线数据上, 模型的表现并不理想。其原因可能是: ①原始CLIP的训练数据集中开关柜和隔离开关的图像数量可能存在显著差异, 导致模型在训练时对开关柜数据学习得更为充分, 而对隔离开关数据学习不足; ②不同电力设备在形状、颜色、纹理等视觉特征上可能存在显著差异。例如, 开关柜可能具有更明确的视觉特征和更少的背景干扰, 而隔离开关由于工作环境或结构复杂性导致难以识别。③CLIP模型在训练时可能更偏向于学习一些常见或普遍的视觉特征, 而对于一些特定或较少见的设备特征可能学习不足。实验结果表明，CLIP模型通过文本与图像的语义对齐机制, 在零样本条件下能够实现电力设备的基础类别识别。然而其识别精度显著受限于领域数据的特征差异与分布偏差。

进一步地, 图 4还展示了CLIP模型在设备故障时的识别性能。如图 4a)~4b)所示, 分别测试了正常和异常状态下的开关柜, 虽然未经过微调的CLIP模型可以在一定程度上分辨出电力设备是否正常, 但是其判别精度较低(54%, 60%)。在对干式变压器的异常情况进行识别时(见图 4c)~4d)), 原始的CLIP模型未能识别出异常的器件。从图 3~4的评估结果可以看出, 预训练大模型具有比较强的零样本泛化能力。但与此同时, 其在部分设备和缺陷识别上精度较低。因此, 为了将CLIP模型应用于电力设备的缺陷识别，需要对模型进行适应性优化。

图2

CLIP原理图[4]

图3

CLIP模型的类别识别效果

图4

CLIP模型对设备异常的识别效果

4 基于提示学习的电力设备故障识别

为提升CLIP模型对电力设备故障的识别精度, 本文设计了基于红外图像和紫外图像的可训练提示, 使其作为可训练部分用于参数更新。

4.1 基本结构

本文所设计的方法如图 5所示, 与CLIP模型类似, 也使用了图像和文本2个分支来学习二者之间的深层语义关系。其中, 在图像分支上, 输入所采集的3个谱段图像, 并且使用2个可学习的提示来学习红外和紫外图像中的故障信息。在文本分支, 使用文本提示“This is a photo of [object]”来表示图像的类别。其中, object包含“状态”+“类型”, 用来表示图像的故障和类型。然后, 将这些图像和文本输入到预训练好的CLIP模型中进行特征提取。因为在整个网络结构中, 可训练部分只有红外和紫外图像指导的提示, 预训练的CLIP参数不进行参数更新, 这在很大程度上减少了网络训练参数, 并且缓解了对数据集规模的要求。

图5

基于提示学习的电力设备故障识别网络流程图

4.2 多模态提示学习

对于标记数据集D={(x₁, y₁), (x₂, y₂), …, (x_N, y_N)}, 其中N代表样本数, 本文的目标是学习到针对多模态电力设备故障识别的提示参数。在本文中分别用θ_I和θ_U来表示红外(IR)和紫外(UV)状态下的可训练提示特征图。将这些提示和采集到的图像融合, 一起输入到CLIP模型中进行训练。在训练过程中, 网络的优化目标可以表示为

Mathematical equation (1)

式中：x_R, x_I和x_U分别代表可见光、红外和紫外的输入图像；y表示图像标签。在训练过程中, 模型的优化目标设定为最大化标签y的概率分布。具体地, 将多谱段图像与提示输入到图像编码器进行特征提取后, 得到图像特征I={I₁, I₂, …, I_N}。同时在文本分支, 将标注好的文本集合输入到编码器中, 得到T={T₁, T₂, …, T_M}, 其中M代表类别数。随后, 计算图像与所有文本特征之间的余弦距离, 以衡量它们的相似性。对于第i个图像, 可以得到{I_iT₁, I_iT₂, …, I_iT_M}, 取余弦距离中的最大值对应的文本作为预测的标签。

在测试阶段, 优化后的红外和紫外提示与三谱段图像一起输入到图像编码器中。在文本分支, 采用之前所设计的文本提示“This is a photo of [object]”来表示类别。值得注意的是, 这一文本提示在训练过程中也是固定不变的, 并且本文仅使用了这一单一文本提示。与之前的工作[4]类似, 计算图像特征与所有文本特征之间的余弦距离, 并且使用softmax函数正则化后得到图像所属的类别, 具体算法伪代码如算法1所示。

算法1 多谱段融合电力设备故障识别算法

输入: 可见光x_R, 红外x_I和紫外x_U图像, 文本集合, 红外和紫外prompts, 类别真值y

输出: 训练损失1

1.将红外图像和红外prompt融合, 得到红外图像指导的prompt x_I+θ_I;

2.将紫外图像和紫外prompt融合, 得到紫外图像指导的prompt x_U+θ_U;

3.将可见光图像和2个可训练的prompts融合后输入到模型的图像分支, 提取视觉特征;

4.将包含电力设备故障和类别信息的文本集合输入到模型的文本分支, 提取文本特征集合T={T₁, T₂, …, T_M};

5.计算视觉特征与文本特征之间的余弦相似度, 使用softmax函数正则化后得到图像所属的类别y_p;

6.计算预测类别y_p与真值y之间的交叉熵损失1, 该损失用于梯度反向传播以更新prompts参数。

5 实验结果分析

5.1 数据集

实验数据集为本文采集的多谱段电力设备数据集, 其中包含了6类常见电力设备的正常和故障状态多谱段数据。有关数据集的细节请参考第2节内容。经过整理, 共收集到了1 697张多谱段图像, 其中1 352张用于训练模型, 其余用于测试模型的故障识别能力。

5.2 实验细节

本文采用CLIP预训练模型为基础, 图像模型选择为“ViT-B/32”。在数据输入网络前, 将图像大小调整为224×224, 并且确保红外和紫外提示设置为相同尺寸。训练过程中, Batch size设置为64, 采用预热方式更新学习率。初始学习率设置为40, momentum为0.9。所有实验都在pytorch深度学习框架下进行, 实验服务器采用Intel Xeon Gold 6244 CPU(3.60GHz)和单张NVIDIA GTX 2080 Ti GPU。

5.3 实验结果与分析

为了全面的评估本文算法的有效性，本文与文献[4, 9]中提到的4种方法进行了对比。这些方法包括原始CLIP模型、填充提示(padding prompt)模型、随机小块(random patch)模型、固定小块(fixed patch)模型。在实验中，设置patch大小为30×30。本文方法使用了红外和紫外图像指导的提示。实验结果如表 1所示。

首先, 从表 1的实验结果可以看出, 原始未经微调的CLIP模型在电力设备故障识别这一新任务上, 精度较差, 只取得了25.22%的准确率, 这表明将原始的CLIP应用于电力设备故障识别存在一定困难。本文认为这是由于通用预训练任务与电力设备故障识别这一特定任务之间的差异性导致。当在图像输入端增加可训练的提示时, 识别性能有了很大提升。例如, 使用随机小块时, 识别性能从25.22%提升到了47.25%, 表明使用提示的方法确实有利于提升识别精度。当使用填充提示和固定提示时, 网络的性能又得到了进一步提升, 分别取得了82.35%和78.55%的精度。当使用在本文提出的方法时, 取得了目前最优的识别性能, 将识别精度提升到了90.14%。

实验结果表明本文方法相比于其他方法更好地挖掘到了不同谱段数据之间的互补关系, 在利用可见光图像进行设备识别的同时, 还成功地利用红外图像上的发热信息以及紫外图像上的放电信息, 从而取得了优异的电力设备故障识别性能。

表1

实验结果

5.4 不同谱段对实验结果的影响

如表 2所示, 研究了不同谱段图像对实验结果的影响。在只使用可见光时, 没有使用红外和紫外提示, 因此可训练参数为0, 其结果与CLIP模型相同。从表 2中的结果可以看出, 当仅仅使用红外或者紫外谱段图像时, 网络的准确率从25.22%提升到了86.38%, 88.99%。这一结果表明, 在故障识别时, 红外和紫外谱段的图像提供了非常重要的信息。并且从可训练参数量可以看出, 这种基于提示学习的方法, 只使用了50.176×10³的可训练参数量, 这相比于数十兆参数量的基础网络而言, 仅使用了不到1%的训练参数便取得了优异的识别效果。当同时使用红外和紫外谱段图像时, 模型的识别精度达到了最优, 并且可训练参数量也翻倍(2个提示参数量的叠加)。

表2

不同谱段对实验结果的影响

5.5 可视化结果

图 6展示了部分本文方法所预测到的设备故障结果, 除了采集的可见光、红外和紫外图像外, 还展示了所对应的真实类别和预测类别。可以看出, 本文所提出的方法可以准确预测电力设备类型和缺陷。这表明本文方法可以很好地利用不同谱段图像之间的关联关系, 从而提升电力设备故障识别精度。

图6

可视化预测结果

6 结论

为解决单一谱段特征在电力设备故障识别过程中识别精度低的问题, 本文提出一种基于提示学习的多谱段电力设备故障识别方法。首先, 利用多谱段采集装置收集了一个包含可见光、红外和紫外图像的数据集; 然后设计了一系列实验验证了预训练图像文本大模型在电力设备故障识别领域的泛化能力; 最后提出了基于提示学习多谱段电力设备故障识别方法。实验结果表明, 本文所设计的方法仅需要优化少量参数便可取得优异的识别性能, 验证了方法的有效性和高效性。

References

LYU Qiang, WANG Wei, MA Guoqiang, et al. Research on intelligent image identification technology of power equipment inspection defects[J]. Journal of Anhui Normal University, 2022, 45(6): 545–552 (in Chinese) [Google Scholar]
JIN Xin, HONG Bin, YU Dongsheng, et al. Defect detection of coal mine power equipment based on improved YOLOv5s[J]. Electronic Measurement Technology, 2023, 46(19): 148–155 (in Chinese) [Google Scholar]
YU Hao, JIANG Jinxia, LAI Xiaohan, et al. Surface defect detection of power equipment using adaptive receptive field network[J]. Journal of System Simulation, 2023, 35(7): 1572–1580 (in Chinese) [Google Scholar]
RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning, 2021: 8748–8763 [Google Scholar]
JIA C, YANG Y, XIA Y, et al. Scaling up visual and vision-language representation learning with noisy text supervision[C]//International Conference on Machine Learning, 2021: 4904–4916 [Google Scholar]
CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations[C]//International Conference on Machine Learning, 2020: 1597–1607 [Google Scholar]
ZHOU K, YANG J, LOY C C, et al. Learning to prompt for vision-language models[J]. International Journal of Computer Vision, 2022, 130(9): 2337–2348. [Article] [Google Scholar]
BAHNG H, JAHANIAN A, SANKARANARAYANAN S, et al. Exploring visual prompts for adapting large-scale models[J/OL]. (2022-06-03)[2024-02-25]. [Article] [Google Scholar]
ZHANG R, FANG R, ZHANG W, et al. Tip-adapter: training-free clip-adapter for better vision-language modeling[J/OL]. (2021-11-15)[2024-02-25]. [Article] [Google Scholar]
ZHOU K, YANG J, LOY C C, et al. Conditional prompt learning for vision-language models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 16816–16825 [Google Scholar]
LI Y, QUAN R, ZHU L, et al. Efficient multimodal fusion via interactive prompting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 2604–2613 [Google Scholar]
DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C]//International Conference on Learning Representations, 2020 [Google Scholar]
TAN H, BANSAL M. LXMERT: learning cross-modality encoder representations from transformers[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, 2019: 5100–5111 [Google Scholar]
CHEN Y C, LI L, YU L, et al. Uniter: Universal image-text representation learning[C]//European Conference on Computer Vision, Cham, 2020: 104–120 [Google Scholar]
DING N, QIN Y, YANG G, et al. Parameter-efficient fine-tuning of large-scale pre-trained language models[J]. Nature Machine Intelligence, 2023, 5(3): 220–235. [Article] [CrossRef] [Google Scholar]
LI Y, QUAN R, ZHU L, et al. Efficient multimodal fusion via interactive prompting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 2604–2613 [Google Scholar]

All Tables

实验结果

不同谱段对实验结果的影响

All Figures

	图1 部分数据集样例
In the text

	图2 CLIP原理图[4]
In the text

	图3 CLIP模型的类别识别效果
In the text

	图4 CLIP模型对设备异常的识别效果
In the text

	图5 基于提示学习的电力设备故障识别网络流程图
In the text

	图6 可视化预测结果
In the text

Current usage metrics show cumulative count of Article Views (full-text article views including HTML views, PDF and ePub downloads, according to the available data) and Abstracts Views on Vision4Press platform.

Data correspond to usage on the plateform after 2015. The current usage metrics is available 48-96 hours after online publication and is updated daily on week days.

Initial download of the metrics may take a while.

[] LYU Qiang, WANG Wei, MA Guoqiang, et al. Research on intelligent image identification technology of power equipment inspection defects[J]. Journal of Anhui Normal University, 2022, 45(6): 545–552 (in Chinese) [Google Scholar]

[] JIN Xin, HONG Bin, YU Dongsheng, et al. Defect detection of coal mine power equipment based on improved YOLOv5s[J]. Electronic Measurement Technology, 2023, 46(19): 148–155 (in Chinese) [Google Scholar]

[] YU Hao, JIANG Jinxia, LAI Xiaohan, et al. Surface defect detection of power equipment using adaptive receptive field network[J]. Journal of System Simulation, 2023, 35(7): 1572–1580 (in Chinese) [Google Scholar]

[R4] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning, 2021: 8748–8763 [Google Scholar]

[R5] JIA C, YANG Y, XIA Y, et al. Scaling up visual and vision-language representation learning with noisy text supervision[C]//International Conference on Machine Learning, 2021: 4904–4916 [Google Scholar]

[R6] CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations[C]//International Conference on Machine Learning, 2020: 1597–1607 [Google Scholar]

[R7] ZHOU K, YANG J, LOY C C, et al. Learning to prompt for vision-language models[J]. International Journal of Computer Vision, 2022, 130(9): 2337–2348. [Article] [Google Scholar]

[R8] BAHNG H, JAHANIAN A, SANKARANARAYANAN S, et al. Exploring visual prompts for adapting large-scale models[J/OL]. (2022-06-03)[2024-02-25]. [Article] [Google Scholar]

[R9] ZHANG R, FANG R, ZHANG W, et al. Tip-adapter: training-free clip-adapter for better vision-language modeling[J/OL]. (2021-11-15)[2024-02-25]. [Article] [Google Scholar]

[R10] ZHOU K, YANG J, LOY C C, et al. Conditional prompt learning for vision-language models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 16816–16825 [Google Scholar]

[R11] LI Y, QUAN R, ZHU L, et al. Efficient multimodal fusion via interactive prompting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 2604–2613 [Google Scholar]

[R12] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C]//International Conference on Learning Representations, 2020 [Google Scholar]

[R13] TAN H, BANSAL M. LXMERT: learning cross-modality encoder representations from transformers[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, 2019: 5100–5111 [Google Scholar]

[R14] CHEN Y C, LI L, YU L, et al. Uniter: Universal image-text representation learning[C]//European Conference on Computer Vision, Cham, 2020: 104–120 [Google Scholar]

[R15] DING N, QIN Y, YANG G, et al. Parameter-efficient fine-tuning of large-scale pre-trained language models[J]. Nature Machine Intelligence, 2023, 5(3): 220–235. [Article] [CrossRef] [Google Scholar]

[R16] LI Y, QUAN R, ZHU L, et al. Efficient multimodal fusion via interactive prompting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 2604–2613 [Google Scholar]