NLPrompt
NLPrompt: Noise-Label Prompt Learning for Vision-Language Models
噪声提示词用于视觉语言模型
意思就是:当现实标注的错的漏的标注,就是数据集带有噪声标签,这些噪声标签会降低提示学习的性能。
提示学习Prompt Learning:使用prompt提示词的这类模型,是一类工作流。
- 作者:上海理工大学
- 来源:cvpr2025
- 代码地址:https://github.com/qunovo/NLPrompt
创新
- 在prompt learning中使用MAE loss(平均误差损失)能够显著增强噪声标签的鲁棒性,而不是使用MCE loss(交叉熵损失)。可以使用特征学习理论证明
- 提出PromptOT一种基于prompt的最优传输数据净化方法,利用视觉-语言模型中的文本特征作为原型,构建一个最优传输矩阵,把原数据集分为干净和噪声子集,对干净子集使用交叉熵损失,对噪声子集使用MAE损失。
MAE在传统范式中被认为是一种鲁棒的损失函数,但通常存在收敛缓慢且训练过程中性能不佳的问题,因而很少被用作分类任务中的损失函数。在prompt learning中使用MAE loss能够显著提升鲁棒性,相比传统方法保持较高的准确率,在存在大量噪声的情况下,也表现出强大的准确性和快速收敛。
特征学习理论
- 将潜在表示分为任务相关和任务无关部分
- 分析基于梯度下降训练过程中这些特征的优化动态,可以获得关于收敛性和泛化能力的insight。
噪声样本处理
- 可以直接样本选择,清理数据集
- 本文中使用了利用视觉-语言基础模型中的内在对齐性,优化数据净化过程。
噪声标签的学习
标签错误的数据可能导致神经网络过拟合噪声标签,前期的研究提出使用鲁棒的网络结构、正则化技术、损失函数。估计矩阵修正损失、样本选择和元学习方法
- 元学习
- 目标:在训练阶段,给模型看成千上万个不同的小任务(例如:识别猫狗、识别汽车飞机、翻译法语…)。让模型从中总结出“如何快速适应新任务”的通用策略(即“元知识”)。
- 测试:当遇到一个全新的、从未见过的任务时,模型只需看极少的几个例子(比如1-5个),就能迅速调整自己并完成任务。
最优传输optimal Transport
最优传输是一个约束优化问题,旨在确定将一个概率分布映射到另一个概率分布的最优耦合矩阵。
核心在于:用最小的代价去“变形”或“转换”数据,在数学上,它研究的是如何将一个概率分布(或质量分布)以“最经济”的方式转换到另一个概率分布。
具体实现信息流
输入图片,文本
分别提取特征
图像特征和文本特征计算cost matrix就是最优传输中的从i运输到j的代价。就是CLIP模型中文本-图像的转化关系
Q* 就是标签标注错误的概率,可以设置一个超参数,高于这个阈值就判断为噪声样本。
噪声样本按照MAE loss的方式计算loss;正常样本按照CE loss的方法计算loss。
最后计算总和的loss
进行反向传播
噪声数据集
噪声数据集分为两种类型:
- 对称噪声 Sym:概率反转两个标签,可能出现同一类数据映射到多个其他数据集中
- 非对称噪声Asym:概率同一类数据只能映射到另一类数据中
消融实验
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

