LViT
LViT:
Language meets Vision Transformer in Medical Image Segmentation
LViT:语言和视觉Transformer在医学图像分割中的融合
来源:[IEEE Transactions on Medical Imaging/TMI 2023]
代码:https://github.com/HUANGLIZI/LViT
论文:https://arxiv.org/abs/2206.14718
关键词:视觉-语言,医学图像分割,半监督学习
这是上一篇MedCLIPSeg的引用文章,几乎是相同类型,可以参考思路。输入输出基本上为相同一个模式,即将一个文本描述“双肺感染,两个感染区域,左下肺和右下肺。”这一类的医生常用的描述类的语句和一个CT图为输入,一个医学分割为输出。
由于是2023年的论文,还是使用的Transformer类的架构。
创新
获取高质量图像的难度
数据标注成本高
纯CNN模型缺乏全局特征建模能力,而纯Transformer模型计算成本高且忽略局部细节,而医学数据集容易出现模糊的标 ...
MedCLIPSeg
MedCLIPSeg:
Probabilistic Vision-Language Adaptation for Data-Efficient and
Generalizable Medical Image Segmentation
med clip
seg:医学图像分割,基于概率的视觉语言适应用于高效通用的医学图像分割
Paper: https://arxiv.org/abs/2602.20423
Code: https://github.com/HealthX-Lab/MedCLIPSeg
Project: https://tahakoleilat.github.io/MedCLIPSeg
来源:cvpr 2026
模型/数据:huggingface.co/TahaKoleilat/MedCLIPSeg
作者:康科迪亚大学-加拿大
我感觉这一工作做得还行,可以作为借鉴。用于少样本、半监督模式的一个范式
目的
医学图像分割(medical image
segmentation)仍因标注数据优先,解剖特征模糊以及领域偏移等问题具有挑战性。尽管视觉-语 ...
Visual Agentic AI
Visual
Agentic AI for Spatial Reasoning with a Dynamic API
视觉代理AI用于空间推理和动态api
作者:加州理工学院
代码:https://glab-caltech.github.io/vadar/
来源:cvpr2025
用途:用于视觉推理(解读视觉世界),在三维空间推理中回答问题。
经典的VLM(视觉语言模型)主要擅长于类别级别的语义理解。当被要求在三维世界中进行空间理解时,它们的性能显著下降。
在回答三维世界中问题,例如已知桌子高20米,那么图中镜子的半径是多少?
就需要定位相关对象,确定尺寸,计算三维大小。GPT-4给出了错误答案。
现有方法往往依赖静态的人为定义的api解决问题。
仅进行一次静态图像扫描,无法主动探索细节
视觉信息被压缩为静态上下文,丢失时空动态性
难以有效整合几何结构信息,导致空间逻辑混乱
创新
提出了一种代理程序合成方法,其中大语言模型代理协同生成一个具有新函数的Pythonic
API,以解决常见的子问题。
我们的方法克服了以往依赖静态、人 ...
showUI
ShowUI:
One Vision-Language-Action Model for GUI Visual Agent
ShwoUI:一个视觉-语言-动作模型(VLA) 用于GUI视觉agent
来源:CVPR2025
作者:新加坡国立大学
代码:https://github.com/showlab/ShowUI
背景
创建一个用户图形界面助手对于增强人类工作流生产力非常重要。大部分的agent是基于语言模型的,基于闭源API实现,富文本的元信息,类似HTML或者树结构。在像人类一样感知UI视觉信息这一方面的能力非常有限。
该项目专为GUI智能体设计,能够实现从界面理解到自主操作的全流程控制,让计算机使用像人类一样自然流畅。
创新
将截图转换为UI结构
将GUI动作结构化为JSON格式,有效管理视觉-动作历史和多轮查询-动作序列
精心策划数据并采用重采样策略解决数据类型不平衡问题
image-20260319163544743
把一个UI截图分为多个Patch,按照上面伪代码的说法,会把颜色相近的邻域合起来。
这样的做法可以 ...
NLPrompt
NLPrompt:
Noise-Label Prompt Learning for Vision-Language Models
噪声提示词用于视觉语言模型
意思就是:当现实标注的错的漏的标注,就是数据集带有噪声标签,这些噪声标签会降低提示学习的性能。
提示学习Prompt
Learning:使用prompt提示词的这类模型,是一类工作流。
作者:上海理工大学
来源:cvpr2025
代码地址:https://github.com/qunovo/NLPrompt
创新
在prompt learning中使用MAE
loss(平均误差损失)能够显著增强噪声标签的鲁棒性,而不是使用MCE
loss(交叉熵损失)。可以使用特征学习理论证明
提出PromptOT一种基于prompt的最优传输数据净化方法,利用视觉-语言模型中的文本特征作为原型,构建一个最优传输矩阵,把原数据集分为干净和噪声子集,对干净子集使用交叉熵损失,对噪声子集使用MAE损失。
MAE在传统范式中被认为是一种鲁棒的损失函数,但通常存在收敛缓慢且训练过程中性能不佳的问题,因而很少被用 ...
LLMDet
LLMDet:
Learning Strong Open-Vocabulary Object Detectors under the Supervision
of Large Language Models
LLMDet 在大语言模型监督下的强开放词汇物体检测器
作者:中山大学,阿里
来源:2025cvpr
代码:GitHub 仓库地址:
https://github.com/iSEE-Laboratory/LLMDet
领域:目标识别新进展
核心创新点:
一个新的数据集包含四元组(I,Tg,B,Tc),(一个图片,图片中物体的简短类别,物体标注框,全图的整体详细描述)
联合训练方法:在训练时候,同时执行两个任务
标准的目标检测Grounding,就是表示出物体在哪里
描述生成任务Captioning,描述出全图的一个详细描述,就是理解图像中实体的相对关系,状态等
LLMDet (Learning Strong Open-Vocabulary Object Detectors under the
Supervision of Large ...
HEF NET v2心电大模型
NEF-NET
V2: ADAPTING ELECTROCARDIO PANORAMA IN THE WILD
作者:香港科技大学(广州)
来源: ICLR2026
代码:https://github.com/HKUSTGZ-ML4Health-Lab/NEFNET-v2
背景
心血管疾病仍然是全球治病和致死的主要原因,每年夺走数百万生命,并带来深远的残疾负担。心电图(ECG)是不可或缺的一种诊疗手段,是非入侵性的,成本效益高的方法,能够迅速解释心脏电活动的复杂状态。
ECG视图状态的数量和实际复杂性和心脏状态的理解的全面性直接相关。标准的12导联心电图被认为是在获取成本和临床效用的一种实用折中。
image-20260313142045323
磁吸10个,还有手脚2个吗?
心电图
心电图记录的是心脏点活动的时间序列信号,每个心脏周期可以分解为留个不重叠的波形:P波,PR,QRS复合波,ST段,T波,TP段。通常的12导联心电图广泛用于心血管筛查,通常从6个肢体导联和5个胸导联采集10秒的记录。每个导联作为独立的传感器提供心脏电活动的空间不同视角,类似 ...
OverLoCK
OverLoCK:
An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic
Kernels
经典的使得cnn再次伟大的论文。
如今的科研环境,模型的创新已经被极大的限制,达成了一个Transformer结构的统一共识。
作者是香港大学俞益洲教授与博士生娄蒙。
论文链接:https://arxiv.org/abs/2502.20087
代码链接:https://github.com/LMMMEng/OverLoCK
发表平台:CVPR2025(oral)
创新点
传统卷积的思路是从细节到全局的特征提取,感受野逐步变大。这篇文章讲了一个Top-down
attention(自上而下的注意力机制)在人类视觉系统的作用的故事。核心思路是先用一个网络提取全局的语义信息,再逐步减小感受野,观察图像细节。
一个可变形卷积。和之前得到可变形卷积的区别在于,具有上下文混合能力的新型动态卷积。
维度
传统动态卷积 (如 CondConv ...




