open-cd
Open-CD: A
Comprehensive Toolbox for Change Detection
open-cd 一种用于变化检测的综合性工具箱
代码: https://github.com/likyoo/open-cd
论文:https://arxiv.org/pdf/2407.15317
发表在ACM MM 2025
变化检测是遥感图像解释(remote sensing image
interpretation)的一个基本任务,输入是一对图像,任务聚焦检测双时相图像之间的像素级差异。因此,变化检测比单时相分割更加复杂。
它逐渐演变为一个统一平台,涵盖了多种流行的变化检测方法和现代模型,还提供了一些用于数据分析的有用脚本。
这篇文章整体而言更加偏向工程实现和资源的整合。更加类似一个综述+整合工具。
主要特点
可靠的依赖关系,基于OpenMMLab工具包实现,可以在配置文件中任意调用组件。
模块化设计,将变化检测模型分解为不同的组件,可以通过组合不同模块,轻松构建自定义的变化检测方法
内置多种方法支持。支持典型且流行的
前沿水平。在多数 ...
Circuit Tracing in Vision–Language Models
Circuit
Tracing in Vision–Language Models,Understanding the Internal Mechanisms
of Multimodal Thinking
理解多模态思维的内部机制
来源:cvpr2026
代码:https://github.com/UIUC-MONET/vlm-circuit-tracing
作者:伊利诺伊大学
没看明白的论文
背景
VLMS视觉语言模型虽然强大,但仍旧存在透明度不足的黑箱问题。
首次提出用于VLMs的透明电路追踪的框架,系统分析多模态推理,通过利用转编码器、归因图,和基于注意力的方式,揭示了VLMs如何分层整合视觉和语义概念。
结果
作者发现,不同的视觉特征电路可以处理数学推理,并支持跨模态关联,通过特征应道和电路修补验证,框架证明这些电路具有因果性和可控性,为更加可解释,更可靠的VLMs奠定了基础。
以往工作
近期的可解释性研究开始通过注意力可视化、探针分析和电路发现掲示语言模型内部算法。然而,这些方法几乎完全集中在纯文本模型上,多模态视觉语言模型(VLMs)带来 ...
segment anything(sam)
Segment Anything
论文:《Segment Anything》
链接:https://arxiv.org/pdf/2304.02643.pdf
模型链接:Segment
Anythingsegment-anything.com/
机构:Meta
来源:ICCV-2023
image-20260409153041498
目标:构建一个用于图像分割的基础模型,通过设计一个Prompt输入可以实现新视觉概念和数据分布的零样本泛化。开发一个可提示的模型,并在广泛的语料库这通过一种能够实现强大泛化能力的任务进行预训练。借助该模型,可以通过提示工程解决一系列下游分割任务,在新的数据分布上实现应用。
这个Prompt可以是一个(文本提示,mask
图,坐标框,点图),用于确定所谓感兴趣区域(ROI,regions of interest)
什么任务能够实现零样本泛化?
对应的模型架构是什么?
什么数据可以赋能这个任务和模型?
任务
提示词学习(Prompt
Learning)是一种有前景的方式,能够通过Prompt技术 ...
medsam
Segment anything in medical
images
来源:Nature Communications[2024]
作者:多伦多大学,有李飞飞的三作
代码:https://github.com/bowang-lab/MedSAM
到目前为止MedSAM发布了三个版本,这个工作做得还是非常完善的。
特性
MedSAM 1
MedSAM 2
MedSAM 3
核心能力
交互式 2D 图像分割
高效 3D 体数据与视频分割
纯文本驱动的语义分割
主要提示方式
边界框、点
单点/框提示,跨切片传播
纯文本(如“分割肝脏肿瘤”)
处理数据维度
2D 切片
3D 体数据 (CT/MRI) 和 视频 (超声/内镜)
2D 图像,侧重于语义理解
关键技术
在大规模医学数据上微调 SAM
引入记忆注意力模块,实现提示传播
医学概念与图像区域的显式对齐
解决的问题
通用医学图像分割,提升泛化性
解决 3D 和视频数据逐层分割耗时的问题
解决通 ...
MapLe
MaPLe:Multi-model Prompt
Learning
多模态提示学习
来源:[CVPR 2023] Official repository of paper titled “MaPLe:
Multi-modal Prompt Learning”.
作者是印度人
代码:https://github.com/muzairkhattak/multimodal-prompt-learning
背景
预训练的视觉语言模型如CLIP在下游任务中表现出优异的泛化能力,然而,它们对输入文本的Prompt非常敏感,需要仔细选择Prompt
templates提示模板才能表现良好。
受到自然语言处理文献的启发,最近的CLIP适应方法将提示作为文本输入来微调CLIP应对下游任务。在CLIP的一个分支(文本-图像)中使用Prompt是次优的,因为不允许在下游任务中动态调整两个表示空间。
在少样本的情况下对模型进行微调是不现实的,甚至会导致模型以往预训练的信息。Prompt方法可以避免手动调整templates,并不需要调整原始参数。这对于CLIP是未被充分研究的课题 ...
CLIP
Learning
Transferable Visual Models From Natural Language Supervision
从自然语言监督中学习可迁移的视觉模型。
CLIP (Contrastive Language-Image Pretraining), Predict the most
relevant text snippet given an
image。即给定一张图,预测最相关的文本段。
123456789101112131415161718import torchimport clipfrom PIL import Imagedevice = "cuda" if torch.cuda.is_available() else "cpu"model, preprocess = clip.load("ViT-B/32", device=device)image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(devi ...
LViT
LViT:
Language meets Vision Transformer in Medical Image Segmentation
LViT:语言和视觉Transformer在医学图像分割中的融合
来源:[IEEE Transactions on Medical Imaging/TMI 2023]
代码:https://github.com/HUANGLIZI/LViT
论文:https://arxiv.org/abs/2206.14718
关键词:视觉-语言,医学图像分割,半监督学习
这是上一篇MedCLIPSeg的引用文章,几乎是相同类型,可以参考思路。输入输出基本上为相同一个模式,即将一个文本描述“双肺感染,两个感染区域,左下肺和右下肺。”这一类的医生常用的描述类的语句和一个CT图为输入,一个医学分割为输出。
由于是2023年的论文,还是使用的Transformer类的架构。
创新
获取高质量图像的难度
数据标注成本高
纯CNN模型缺乏全局特征建模能力,而纯Transformer模型计算成本高且忽略局部细节,而医学数据集容易出现模糊的标 ...
MedCLIPSeg
MedCLIPSeg:
Probabilistic Vision-Language Adaptation for Data-Efficient and
Generalizable Medical Image Segmentation
med clip
seg:医学图像分割,基于概率的视觉语言适应用于高效通用的医学图像分割
Paper: https://arxiv.org/abs/2602.20423
Code: https://github.com/HealthX-Lab/MedCLIPSeg
Project: https://tahakoleilat.github.io/MedCLIPSeg
来源:cvpr 2026
模型/数据:huggingface.co/TahaKoleilat/MedCLIPSeg
作者:康科迪亚大学-加拿大
主要缝合:CLIP, MaPLe,
and LViT
,所以说缝合3篇A+B+C缝合的好就可以发顶刊。
其中,CLIP是基础模型
MaPLe是中间的融合法,如何将图像特征和文本特征进行融合,以及信息交互,相互查询。
...
Visual Agentic AI
Visual
Agentic AI for Spatial Reasoning with a Dynamic API
视觉代理AI用于空间推理和动态api
作者:加州理工学院
代码:https://glab-caltech.github.io/vadar/
来源:cvpr2025
用途:用于视觉推理(解读视觉世界),在三维空间推理中回答问题。
经典的VLM(视觉语言模型)主要擅长于类别级别的语义理解。当被要求在三维世界中进行空间理解时,它们的性能显著下降。
在回答三维世界中问题,例如已知桌子高20米,那么图中镜子的半径是多少?
就需要定位相关对象,确定尺寸,计算三维大小。GPT-4给出了错误答案。
现有方法往往依赖静态的人为定义的api解决问题。
仅进行一次静态图像扫描,无法主动探索细节
视觉信息被压缩为静态上下文,丢失时空动态性
难以有效整合几何结构信息,导致空间逻辑混乱
创新
提出了一种代理程序合成方法,其中大语言模型代理协同生成一个具有新函数的Pythonic
API,以解决常见的子问题。
我们的方法克服了以往依赖静态、人 ...
showUI
ShowUI:
One Vision-Language-Action Model for GUI Visual Agent
ShwoUI:一个视觉-语言-动作模型(VLA) 用于GUI视觉agent
来源:CVPR2025
作者:新加坡国立大学
代码:https://github.com/showlab/ShowUI
背景
创建一个用户图形界面助手对于增强人类工作流生产力非常重要。大部分的agent是基于语言模型的,基于闭源API实现,富文本的元信息,类似HTML或者树结构。在像人类一样感知UI视觉信息这一方面的能力非常有限。
该项目专为GUI智能体设计,能够实现从界面理解到自主操作的全流程控制,让计算机使用像人类一样自然流畅。
创新
将截图转换为UI结构
将GUI动作结构化为JSON格式,有效管理视觉-动作历史和多轮查询-动作序列
精心策划数据并采用重采样策略解决数据类型不平衡问题
image-20260319163544743
把一个UI截图分为多个Patch,按照上面伪代码的说法,会把颜色相近的邻域合起来。
这样的做法可以 ...



