NLPrompt

Created2026-03-18|Updated2026-03-24

|Post View:

NLPrompt: Noise-Label Prompt Learning for Vision-Language Models

噪声提示词用于视觉语言模型

意思就是：当现实标注的错的漏的标注，就是数据集带有噪声标签，这些噪声标签会降低提示学习的性能。

提示学习Prompt Learning：使用prompt提示词的这类模型，是一类工作流。

作者：上海理工大学
来源：cvpr2025
代码地址：https://github.com/qunovo/NLPrompt

创新

在prompt learning中使用MAE loss(平均误差损失)能够显著增强噪声标签的鲁棒性，而不是使用MCE loss(交叉熵损失)。可以使用特征学习理论证明
提出PromptOT一种基于prompt的最优传输数据净化方法，利用视觉-语言模型中的文本特征作为原型，构建一个最优传输矩阵，把原数据集分为干净和噪声子集，对干净子集使用交叉熵损失，对噪声子集使用MAE损失。

MAE在传统范式中被认为是一种鲁棒的损失函数，但通常存在收敛缓慢且训练过程中性能不佳的问题，因而很少被用作分类任务中的损失函数。在prompt learning中使用MAE loss能够显著提升鲁棒性，相比传统方法保持较高的准确率，在存在大量噪声的情况下，也表现出强大的准确性和快速收敛。

特征学习理论

将潜在表示分为任务相关和任务无关部分
分析基于梯度下降训练过程中这些特征的优化动态，可以获得关于收敛性和泛化能力的insight。

噪声样本处理

可以直接样本选择，清理数据集
本文中使用了利用视觉-语言基础模型中的内在对齐性，优化数据净化过程。

噪声标签的学习

标签错误的数据可能导致神经网络过拟合噪声标签，前期的研究提出使用鲁棒的网络结构、正则化技术、损失函数。估计矩阵修正损失、样本选择和元学习方法

元学习
- 目标：在训练阶段，给模型看成千上万个不同的小任务（例如：识别猫狗、识别汽车飞机、翻译法语…）。让模型从中总结出“如何快速适应新任务”的通用策略（即“元知识”）。
- 测试：当遇到一个全新的、从未见过的任务时，模型只需看极少的几个例子（比如1-5个），就能迅速调整自己并完成任务。

image-20260318151344788

最优传输optimal Transport

最优传输是一个约束优化问题，旨在确定将一个概率分布映射到另一个概率分布的最优耦合矩阵。

核心在于：用最小的代价去“变形”或“转换”数据，在数学上，它研究的是如何将一个概率分布（或质量分布）以“最经济”的方式转换到另一个概率分布。

具体实现信息流

输入图片，文本
分别提取特征
图像特征和文本特征计算cost matrix就是最优传输中的从i运输到j的代价。就是CLIP模型中文本-图像的转化关系
Q* 就是标签标注错误的概率，可以设置一个超参数，高于这个阈值就判断为噪声样本。
噪声样本按照MAE loss的方式计算loss;正常样本按照CE loss的方法计算loss。
最后计算总和的loss
进行反向传播

image-20260318163111692

噪声数据集

噪声数据集分为两种类型：

对称噪声 Sym:概率反转两个标签，可能出现同一类数据映射到多个其他数据集中
非对称噪声Asym：概率同一类数据只能映射到另一类数据中

消融实验

image-20260318170342823

image-20260318170428352

Author: brightendavid

Link: http://brightendavid.github.io/2026/03/18/NLPrompt/

Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

Related Articles

Circuit Tracing in Vision–Language Models

HEF NET v2心电大模型

Loading the Database