brightendavid's blog - Shambhala is not far away

Created2026-04-17|paper

Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning 学习未被学习的内容：缓解对比学习中的特征抑制对比学习中的特征抑制来源：ECCV 2024 机构：香港中文大学 & 上海人工智能实验室代码：https://github.com/MajorDavidZhang/MCL 目的自监督对比学习在从无标签数据中获取高质量表示方面已证明有效。然而，无论单模态还是多模态对比学习，都面临一个重大挑战——特征抑制现象，即训练数据仅捕捉输入数据中的有限部分信息，而忽略了其他可能有价值的内容。提出了一种模型无关的多阶段对比学习(Multi stage Constrative Learning,MCL)框架。研究现状各种对比学习模型，作为不同领域的基础预训练骨干网络。研究表明，标准对比学习产生的表示通常遗漏输入信息的大量内容，这种现象称为特征抑制。 image-20260417143618264 证据在于，图1-a中相同纹理组成的五边 ...

Vision Transformers Need More Than Registers

Created2026-04-16|paper

Vision Transformers Need More Than Registers 代码：https://github.com/ChengShiest/LAST-ViT/ 来源：cvpr2026 Vision Transformers 需要的不止Registers寄存器 image-20260416102953024 如上图所示，卷积模型的注意力是正确的，而Transformer模型的注意力却体现在背景上，这是异常的。说明，Transformer模型实际上是将背景作为学习的主要依据。 ViTs进行预训练后，为多种下游任务提供了通用表示。然而，ViTs中普遍存在各种伪影，这些伪影在多种不同的监督范式和下游任务中都有观察到。这些伪影来源于一种“懒惰聚合”行为(a lazy aggregation behavior)：ViTs利用语义无关的背景补丁作为捷径来表示全局语义，这是由全局注意力和粗粒度语义监督驱动的。这些现象表明，ViTs中存在一个共同的根本问题，只是在不同的监督范式下表现形式不同。现在的一些解决方案，只能部分解决这个问题，例如Reg ...

open-cd

Created2026-04-15|paper

Open-CD: A Comprehensive Toolbox for Change Detection open-cd 一种用于变化检测的综合性工具箱代码： https://github.com/likyoo/open-cd 论文：https://arxiv.org/pdf/2407.15317 发表在ACM MM 2025 变化检测是遥感图像解释(remote sensing image interpretation)的一个基本任务,输入是一对图像，任务聚焦检测双时相图像之间的像素级差异。因此，变化检测比单时相分割更加复杂。它逐渐演变为一个统一平台，涵盖了多种流行的变化检测方法和现代模型，还提供了一些用于数据分析的有用脚本。这篇文章整体而言更加偏向工程实现和资源的整合。更加类似一个综述+整合工具。主要特点可靠的依赖关系，基于OpenMMLab工具包实现，可以在配置文件中任意调用组件。模块化设计，将变化检测模型分解为不同的组件，可以通过组合不同模块，轻松构建自定义的变化检测方法内置多种方法支持。支持典型且流行的前沿水平。在多数 ...

Circuit Tracing in Vision–Language Models

Created2026-04-14|paper•可解释性•LLM

Circuit Tracing in Vision–Language Models,Understanding the Internal Mechanisms of Multimodal Thinking 理解多模态思维的内部机制来源：cvpr2026 代码：https://github.com/UIUC-MONET/vlm-circuit-tracing 作者：伊利诺伊大学没看明白的论文背景 VLMS视觉语言模型虽然强大，但仍旧存在透明度不足的黑箱问题。首次提出用于VLMs的透明电路追踪的框架，系统分析多模态推理，通过利用转编码器、归因图，和基于注意力的方式，揭示了VLMs如何分层整合视觉和语义概念。结果作者发现，不同的视觉特征电路可以处理数学推理，并支持跨模态关联，通过特征应道和电路修补验证，框架证明这些电路具有因果性和可控性，为更加可解释，更可靠的VLMs奠定了基础。以往工作近期的可解释性研究开始通过注意力可视化、探针分析和电路发现掲示语言模型内部算法。然而，这些方法几乎完全集中在纯文本模型上，多模态视觉语言模型（VLMs）带来 ...

segment anything（sam）

Created2026-04-09|paper•cv

Segment Anything 论文：《Segment Anything》链接：https://arxiv.org/pdf/2304.02643.pdf 模型链接：Segment Anythingsegment-anything.com/ 机构：Meta 来源：ICCV-2023 image-20260409153041498 目标：构建一个用于图像分割的基础模型，通过设计一个Prompt输入可以实现新视觉概念和数据分布的零样本泛化。开发一个可提示的模型，并在广泛的语料库这通过一种能够实现强大泛化能力的任务进行预训练。借助该模型，可以通过提示工程解决一系列下游分割任务，在新的数据分布上实现应用。这个Prompt可以是一个（文本提示，mask 图，坐标框，点图），用于确定所谓感兴趣区域(ROI,regions of interest) 什么任务能够实现零样本泛化？对应的模型架构是什么？什么数据可以赋能这个任务和模型？任务提示词学习（Prompt Learning）是一种有前景的方式，能够通过Prompt技术 ...

medsam

Created2026-04-08|medical•cv

Segment anything in medical images 来源：Nature Communications[2024] 作者：多伦多大学，有李飞飞的三作代码：https://github.com/bowang-lab/MedSAM 到目前为止MedSAM发布了三个版本，这个工作做得还是非常完善的。特性 MedSAM 1 MedSAM 2 MedSAM 3 核心能力交互式 2D 图像分割高效 3D 体数据与视频分割纯文本驱动的语义分割主要提示方式边界框、点单点/框提示，跨切片传播纯文本（如“分割肝脏肿瘤”）处理数据维度 2D 切片 3D 体数据 (CT/MRI) 和视频 (超声/内镜) 2D 图像，侧重于语义理解关键技术在大规模医学数据上微调 SAM 引入记忆注意力模块，实现提示传播医学概念与图像区域的显式对齐解决的问题通用医学图像分割，提升泛化性解决 3D 和视频数据逐层分割耗时的问题解决通 ...

MapLe

Created2026-03-27|paper•VLM

MaPLe:Multi-model Prompt Learning 多模态提示学习来源:[CVPR 2023] Official repository of paper titled “MaPLe: Multi-modal Prompt Learning”. 作者是印度人代码：https://github.com/muzairkhattak/multimodal-prompt-learning 背景预训练的视觉语言模型如CLIP在下游任务中表现出优异的泛化能力，然而，它们对输入文本的Prompt非常敏感，需要仔细选择Prompt templates提示模板才能表现良好。受到自然语言处理文献的启发，最近的CLIP适应方法将提示作为文本输入来微调CLIP应对下游任务。在CLIP的一个分支（文本-图像）中使用Prompt是次优的，因为不允许在下游任务中动态调整两个表示空间。在少样本的情况下对模型进行微调是不现实的，甚至会导致模型以往预训练的信息。Prompt方法可以避免手动调整templates，并不需要调整原始参数。这对于CLIP是未被充分研究的课题 ...

CLIP

Created2026-03-26|paper•VLM

Learning Transferable Visual Models From Natural Language Supervision 从自然语言监督中学习可迁移的视觉模型。 CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image。即给定一张图，预测最相关的文本段。 123456789101112131415161718import torchimport clipfrom PIL import Imagedevice = "cuda" if torch.cuda.is_available() else "cpu"model, preprocess = clip.load("ViT-B/32", device=device)image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(devi ...

LViT

Created2026-03-25|paper•medical•cv

LViT: Language meets Vision Transformer in Medical Image Segmentation LViT:语言和视觉Transformer在医学图像分割中的融合来源：[IEEE Transactions on Medical Imaging/TMI 2023] 代码：https://github.com/HUANGLIZI/LViT 论文：https://arxiv.org/abs/2206.14718 关键词：视觉-语言，医学图像分割，半监督学习这是上一篇MedCLIPSeg的引用文章，几乎是相同类型，可以参考思路。输入输出基本上为相同一个模式，即将一个文本描述“双肺感染，两个感染区域，左下肺和右下肺。”这一类的医生常用的描述类的语句和一个CT图为输入，一个医学分割为输出。由于是2023年的论文，还是使用的Transformer类的架构。创新获取高质量图像的难度数据标注成本高纯CNN模型缺乏全局特征建模能力，而纯Transformer模型计算成本高且忽略局部细节，而医学数据集容易出现模糊的标 ...

MedCLIPSeg

Created2026-03-24|paper•medical•cv

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation med clip seg:医学图像分割，基于概率的视觉语言适应用于高效通用的医学图像分割 Paper: https://arxiv.org/abs/2602.20423 Code: https://github.com/HealthX-Lab/MedCLIPSeg Project: https://tahakoleilat.github.io/MedCLIPSeg 来源：cvpr 2026 模型/数据：huggingface.co/TahaKoleilat/MedCLIPSeg 作者：康科迪亚大学-加拿大主要缝合：CLIP, MaPLe, and LViT ，所以说缝合3篇A+B+C缝合的好就可以发顶刊。其中，CLIP是基础模型 MaPLe是中间的融合法，如何将图像特征和文本特征进行融合，以及信息交互，相互查询。 ...