learning the unlearning
Learning
the Unlearned: Mitigating Feature Suppression in Contrastive
Learning
学习未被学习的内容:缓解对比学习中的特征抑制
对比学习中的特征抑制
来源:ECCV 2024
机构:香港中文大学 & 上海人工智能实验室
代码:https://github.com/MajorDavidZhang/MCL
目的
自监督对比学习在从无标签数据中获取高质量表示方面已证明有效。然而,无论单模态还是多模态对比学习,都面临一个重大挑战——特征抑制现象,即训练数据仅捕捉输入数据中的有限部分信息,而忽略了其他可能有价值的内容。
提出了一种模型无关的多阶段对比学习(Multi stage Constrative
Learning,MCL)框架。
研究现状
各种对比学习模型,作为不同领域的基础预训练骨干网络。研究表明,标准对比学习产生的表示通常遗漏输入信息的大量内容,这种现象称为特征抑制。
image-20260417143618264
证据在于,图1-a中相同纹理组成的五边 ...
Vision Transformers Need More Than Registers
Vision
Transformers Need More Than Registers
代码:https://github.com/ChengShiest/LAST-ViT/
来源:cvpr2026
Vision Transformers 需要的不止Registers寄存器
image-20260416102953024
如上图所示,卷积模型的注意力是正确的,而Transformer模型的注意力却体现在背景上,这是异常的。说明,Transformer模型实际上是将背景作为学习的主要依据。
ViTs进行预训练后,为多种下游任务提供了通用表示。然而,ViTs中普遍存在各种伪影,这些伪影在多种不同的监督范式和下游任务中都有观察到。这些伪影来源于一种“懒惰聚合”行为(a
lazy aggregation
behavior):ViTs利用语义无关的背景补丁作为捷径来表示全局语义,这是由全局注意力和粗粒度语义监督驱动的。
这些现象表明,ViTs中存在一个共同的根本问题,只是在不同的监督范式下表现形式不同。现在的一些解决方案,只能部分解决这个问题,例如Reg ...
open-cd
Open-CD: A
Comprehensive Toolbox for Change Detection
open-cd 一种用于变化检测的综合性工具箱
代码: https://github.com/likyoo/open-cd
论文:https://arxiv.org/pdf/2407.15317
发表在ACM MM 2025
变化检测是遥感图像解释(remote sensing image
interpretation)的一个基本任务,输入是一对图像,任务聚焦检测双时相图像之间的像素级差异。因此,变化检测比单时相分割更加复杂。
它逐渐演变为一个统一平台,涵盖了多种流行的变化检测方法和现代模型,还提供了一些用于数据分析的有用脚本。
这篇文章整体而言更加偏向工程实现和资源的整合。更加类似一个综述+整合工具。
主要特点
可靠的依赖关系,基于OpenMMLab工具包实现,可以在配置文件中任意调用组件。
模块化设计,将变化检测模型分解为不同的组件,可以通过组合不同模块,轻松构建自定义的变化检测方法
内置多种方法支持。支持典型且流行的
前沿水平。在多数 ...
Circuit Tracing in Vision–Language Models
Circuit
Tracing in Vision–Language Models,Understanding the Internal Mechanisms
of Multimodal Thinking
理解多模态思维的内部机制
来源:cvpr2026
代码:https://github.com/UIUC-MONET/vlm-circuit-tracing
作者:伊利诺伊大学
没看明白的论文
背景
VLMS视觉语言模型虽然强大,但仍旧存在透明度不足的黑箱问题。
首次提出用于VLMs的透明电路追踪的框架,系统分析多模态推理,通过利用转编码器、归因图,和基于注意力的方式,揭示了VLMs如何分层整合视觉和语义概念。
结果
作者发现,不同的视觉特征电路可以处理数学推理,并支持跨模态关联,通过特征应道和电路修补验证,框架证明这些电路具有因果性和可控性,为更加可解释,更可靠的VLMs奠定了基础。
以往工作
近期的可解释性研究开始通过注意力可视化、探针分析和电路发现掲示语言模型内部算法。然而,这些方法几乎完全集中在纯文本模型上,多模态视觉语言模型(VLMs)带来 ...
segment anything(sam)
Segment Anything
论文:《Segment Anything》
链接:https://arxiv.org/pdf/2304.02643.pdf
模型链接:Segment
Anythingsegment-anything.com/
机构:Meta
来源:ICCV-2023
image-20260409153041498
目标:构建一个用于图像分割的基础模型,通过设计一个Prompt输入可以实现新视觉概念和数据分布的零样本泛化。开发一个可提示的模型,并在广泛的语料库这通过一种能够实现强大泛化能力的任务进行预训练。借助该模型,可以通过提示工程解决一系列下游分割任务,在新的数据分布上实现应用。
这个Prompt可以是一个(文本提示,mask
图,坐标框,点图),用于确定所谓感兴趣区域(ROI,regions of interest)
什么任务能够实现零样本泛化?
对应的模型架构是什么?
什么数据可以赋能这个任务和模型?
任务
提示词学习(Prompt
Learning)是一种有前景的方式,能够通过Prompt技术 ...
medsam
Segment anything in medical
images
来源:Nature Communications[2024]
作者:多伦多大学,有李飞飞的三作
代码:https://github.com/bowang-lab/MedSAM
到目前为止MedSAM发布了三个版本,这个工作做得还是非常完善的。
特性
MedSAM 1
MedSAM 2
MedSAM 3
核心能力
交互式 2D 图像分割
高效 3D 体数据与视频分割
纯文本驱动的语义分割
主要提示方式
边界框、点
单点/框提示,跨切片传播
纯文本(如“分割肝脏肿瘤”)
处理数据维度
2D 切片
3D 体数据 (CT/MRI) 和 视频 (超声/内镜)
2D 图像,侧重于语义理解
关键技术
在大规模医学数据上微调 SAM
引入记忆注意力模块,实现提示传播
医学概念与图像区域的显式对齐
解决的问题
通用医学图像分割,提升泛化性
解决 3D 和视频数据逐层分割耗时的问题
解决通 ...
MapLe
MaPLe:Multi-model Prompt
Learning
多模态提示学习
来源:[CVPR 2023] Official repository of paper titled “MaPLe:
Multi-modal Prompt Learning”.
作者是印度人
代码:https://github.com/muzairkhattak/multimodal-prompt-learning
背景
预训练的视觉语言模型如CLIP在下游任务中表现出优异的泛化能力,然而,它们对输入文本的Prompt非常敏感,需要仔细选择Prompt
templates提示模板才能表现良好。
受到自然语言处理文献的启发,最近的CLIP适应方法将提示作为文本输入来微调CLIP应对下游任务。在CLIP的一个分支(文本-图像)中使用Prompt是次优的,因为不允许在下游任务中动态调整两个表示空间。
在少样本的情况下对模型进行微调是不现实的,甚至会导致模型以往预训练的信息。Prompt方法可以避免手动调整templates,并不需要调整原始参数。这对于CLIP是未被充分研究的课题 ...
CLIP
Learning
Transferable Visual Models From Natural Language Supervision
从自然语言监督中学习可迁移的视觉模型。
CLIP (Contrastive Language-Image Pretraining), Predict the most
relevant text snippet given an
image。即给定一张图,预测最相关的文本段。
123456789101112131415161718import torchimport clipfrom PIL import Imagedevice = "cuda" if torch.cuda.is_available() else "cpu"model, preprocess = clip.load("ViT-B/32", device=device)image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(devi ...
LViT
LViT:
Language meets Vision Transformer in Medical Image Segmentation
LViT:语言和视觉Transformer在医学图像分割中的融合
来源:[IEEE Transactions on Medical Imaging/TMI 2023]
代码:https://github.com/HUANGLIZI/LViT
论文:https://arxiv.org/abs/2206.14718
关键词:视觉-语言,医学图像分割,半监督学习
这是上一篇MedCLIPSeg的引用文章,几乎是相同类型,可以参考思路。输入输出基本上为相同一个模式,即将一个文本描述“双肺感染,两个感染区域,左下肺和右下肺。”这一类的医生常用的描述类的语句和一个CT图为输入,一个医学分割为输出。
由于是2023年的论文,还是使用的Transformer类的架构。
创新
获取高质量图像的难度
数据标注成本高
纯CNN模型缺乏全局特征建模能力,而纯Transformer模型计算成本高且忽略局部细节,而医学数据集容易出现模糊的标 ...
MedCLIPSeg
MedCLIPSeg:
Probabilistic Vision-Language Adaptation for Data-Efficient and
Generalizable Medical Image Segmentation
med clip
seg:医学图像分割,基于概率的视觉语言适应用于高效通用的医学图像分割
Paper: https://arxiv.org/abs/2602.20423
Code: https://github.com/HealthX-Lab/MedCLIPSeg
Project: https://tahakoleilat.github.io/MedCLIPSeg
来源:cvpr 2026
模型/数据:huggingface.co/TahaKoleilat/MedCLIPSeg
作者:康科迪亚大学-加拿大
主要缝合:CLIP, MaPLe,
and LViT
,所以说缝合3篇A+B+C缝合的好就可以发顶刊。
其中,CLIP是基础模型
MaPLe是中间的融合法,如何将图像特征和文本特征进行融合,以及信息交互,相互查询。
...



