MapLe
MaPLe:Multi-model Prompt
Learning
多模态提示学习
来源:[CVPR 2023] Official repository of paper titled “MaPLe:
Multi-modal Prompt Learning”.
作者是印度人
代码:https://github.com/muzairkhattak/multimodal-prompt-learning
背景
预训练的视觉语言模型如CLIP在下游任务中表现出优异的泛化能力,然而,它们对输入文本的Prompt非常敏感,需要仔细选择Prompt
templates提示模板才能表现良好。
受到自然语言处理文献的启发,最近的CLIP适应方法将提示作为文本输入来微调CLIP应对下游任务。在CLIP的一个分支(文本-图像)中使用Prompt是次优的,因为不允许在下游任务中动态调整两个表示空间。
在少样本的情况下对模型进行微调是不现实的,甚至会导致模型以往预训练的信息。Prompt方法可以避免手动调整templates,并不需要调整原始参数。这对于CLIP是未被充分研究的课题 ...
CLIP
Learning
Transferable Visual Models From Natural Language Supervision
从自然语言监督中学习可迁移的视觉模型。
CLIP (Contrastive Language-Image Pretraining), Predict the most
relevant text snippet given an
image。即给定一张图,预测最相关的文本段。
123456789101112131415161718import torchimport clipfrom PIL import Imagedevice = "cuda" if torch.cuda.is_available() else "cpu"model, preprocess = clip.load("ViT-B/32", device=device)image = preprocess(Image.open("CLIP.png")).unsqueeze(0).to(devi ...
LViT
LViT:
Language meets Vision Transformer in Medical Image Segmentation
LViT:语言和视觉Transformer在医学图像分割中的融合
来源:[IEEE Transactions on Medical Imaging/TMI 2023]
代码:https://github.com/HUANGLIZI/LViT
论文:https://arxiv.org/abs/2206.14718
关键词:视觉-语言,医学图像分割,半监督学习
这是上一篇MedCLIPSeg的引用文章,几乎是相同类型,可以参考思路。输入输出基本上为相同一个模式,即将一个文本描述“双肺感染,两个感染区域,左下肺和右下肺。”这一类的医生常用的描述类的语句和一个CT图为输入,一个医学分割为输出。
由于是2023年的论文,还是使用的Transformer类的架构。
创新
获取高质量图像的难度
数据标注成本高
纯CNN模型缺乏全局特征建模能力,而纯Transformer模型计算成本高且忽略局部细节,而医学数据集容易出现模糊的标 ...
MedCLIPSeg
MedCLIPSeg:
Probabilistic Vision-Language Adaptation for Data-Efficient and
Generalizable Medical Image Segmentation
med clip
seg:医学图像分割,基于概率的视觉语言适应用于高效通用的医学图像分割
Paper: https://arxiv.org/abs/2602.20423
Code: https://github.com/HealthX-Lab/MedCLIPSeg
Project: https://tahakoleilat.github.io/MedCLIPSeg
来源:cvpr 2026
模型/数据:huggingface.co/TahaKoleilat/MedCLIPSeg
作者:康科迪亚大学-加拿大
主要缝合:CLIP, MaPLe,
and LViT
,所以说缝合3篇A+B+C缝合的好就可以发顶刊。
其中,CLIP是基础模型
MaPLe是中间的融合法,如何将图像特征和文本特征进行融合,以及信息交互,相互查询。
...
Visual Agentic AI
Visual
Agentic AI for Spatial Reasoning with a Dynamic API
视觉代理AI用于空间推理和动态api
作者:加州理工学院
代码:https://glab-caltech.github.io/vadar/
来源:cvpr2025
用途:用于视觉推理(解读视觉世界),在三维空间推理中回答问题。
经典的VLM(视觉语言模型)主要擅长于类别级别的语义理解。当被要求在三维世界中进行空间理解时,它们的性能显著下降。
在回答三维世界中问题,例如已知桌子高20米,那么图中镜子的半径是多少?
就需要定位相关对象,确定尺寸,计算三维大小。GPT-4给出了错误答案。
现有方法往往依赖静态的人为定义的api解决问题。
仅进行一次静态图像扫描,无法主动探索细节
视觉信息被压缩为静态上下文,丢失时空动态性
难以有效整合几何结构信息,导致空间逻辑混乱
创新
提出了一种代理程序合成方法,其中大语言模型代理协同生成一个具有新函数的Pythonic
API,以解决常见的子问题。
我们的方法克服了以往依赖静态、人 ...
showUI
ShowUI:
One Vision-Language-Action Model for GUI Visual Agent
ShwoUI:一个视觉-语言-动作模型(VLA) 用于GUI视觉agent
来源:CVPR2025
作者:新加坡国立大学
代码:https://github.com/showlab/ShowUI
背景
创建一个用户图形界面助手对于增强人类工作流生产力非常重要。大部分的agent是基于语言模型的,基于闭源API实现,富文本的元信息,类似HTML或者树结构。在像人类一样感知UI视觉信息这一方面的能力非常有限。
该项目专为GUI智能体设计,能够实现从界面理解到自主操作的全流程控制,让计算机使用像人类一样自然流畅。
创新
将截图转换为UI结构
将GUI动作结构化为JSON格式,有效管理视觉-动作历史和多轮查询-动作序列
精心策划数据并采用重采样策略解决数据类型不平衡问题
image-20260319163544743
把一个UI截图分为多个Patch,按照上面伪代码的说法,会把颜色相近的邻域合起来。
这样的做法可以 ...
NLPrompt
NLPrompt:
Noise-Label Prompt Learning for Vision-Language Models
噪声提示词用于视觉语言模型
意思就是:当现实标注的错的漏的标注,就是数据集带有噪声标签,这些噪声标签会降低提示学习的性能。
提示学习Prompt
Learning:使用prompt提示词的这类模型,是一类工作流。
作者:上海理工大学
来源:cvpr2025
代码地址:https://github.com/qunovo/NLPrompt
创新
在prompt learning中使用MAE
loss(平均误差损失)能够显著增强噪声标签的鲁棒性,而不是使用MCE
loss(交叉熵损失)。可以使用特征学习理论证明
提出PromptOT一种基于prompt的最优传输数据净化方法,利用视觉-语言模型中的文本特征作为原型,构建一个最优传输矩阵,把原数据集分为干净和噪声子集,对干净子集使用交叉熵损失,对噪声子集使用MAE损失。
MAE在传统范式中被认为是一种鲁棒的损失函数,但通常存在收敛缓慢且训练过程中性能不佳的问题,因而很少被用 ...
LLMDet
LLMDet:
Learning Strong Open-Vocabulary Object Detectors under the Supervision
of Large Language Models
LLMDet 在大语言模型监督下的强开放词汇物体检测器
作者:中山大学,阿里
来源:2025cvpr
代码:GitHub 仓库地址:
https://github.com/iSEE-Laboratory/LLMDet
领域:目标识别新进展
核心创新点:
一个新的数据集包含四元组(I,Tg,B,Tc),(一个图片,图片中物体的简短类别,物体标注框,全图的整体详细描述)
联合训练方法:在训练时候,同时执行两个任务
标准的目标检测Grounding,就是表示出物体在哪里
描述生成任务Captioning,描述出全图的一个详细描述,就是理解图像中实体的相对关系,状态等
LLMDet (Learning Strong Open-Vocabulary Object Detectors under the
Supervision of Large ...
HEF NET v2心电大模型
NEF-NET
V2: ADAPTING ELECTROCARDIO PANORAMA IN THE WILD
作者:香港科技大学(广州)
来源: ICLR2026
代码:https://github.com/HKUSTGZ-ML4Health-Lab/NEFNET-v2
背景
心血管疾病仍然是全球治病和致死的主要原因,每年夺走数百万生命,并带来深远的残疾负担。心电图(ECG)是不可或缺的一种诊疗手段,是非入侵性的,成本效益高的方法,能够迅速解释心脏电活动的复杂状态。
ECG视图状态的数量和实际复杂性和心脏状态的理解的全面性直接相关。标准的12导联心电图被认为是在获取成本和临床效用的一种实用折中。
image-20260313142045323
磁吸10个,还有手脚2个吗?
心电图
心电图记录的是心脏点活动的时间序列信号,每个心脏周期可以分解为留个不重叠的波形:P波,PR,QRS复合波,ST段,T波,TP段。通常的12导联心电图广泛用于心血管筛查,通常从6个肢体导联和5个胸导联采集10秒的记录。每个导联作为独立的传感器提供心脏电活动的空间不同视角,类似 ...
OverLoCK
OverLoCK:
An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic
Kernels
经典的使得cnn再次伟大的论文。
如今的科研环境,模型的创新已经被极大的限制,达成了一个Transformer结构的统一共识。
作者是香港大学俞益洲教授与博士生娄蒙。
论文链接:https://arxiv.org/abs/2502.20087
代码链接:https://github.com/LMMMEng/OverLoCK
发表平台:CVPR2025(oral)
创新点
传统卷积的思路是从细节到全局的特征提取,感受野逐步变大。这篇文章讲了一个Top-down
attention(自上而下的注意力机制)在人类视觉系统的作用的故事。核心思路是先用一个网络提取全局的语义信息,再逐步减小感受野,观察图像细节。
一个可变形卷积。和之前得到可变形卷积的区别在于,具有上下文混合能力的新型动态卷积。
维度
传统动态卷积 (如 CondConv ...




