Visual Agentic AI
Visual
Agentic AI for Spatial Reasoning with a Dynamic API
视觉代理AI用于空间推理和动态api
作者:加州理工学院
代码:https://glab-caltech.github.io/vadar/
来源:cvpr2025
用途:用于视觉推理(解读视觉世界),在三维空间推理中回答问题。
经典的VLM(视觉语言模型)主要擅长于类别级别的语义理解。当被要求在三维世界中进行空间理解时,它们的性能显著下降。
在回答三维世界中问题,例如已知桌子高20米,那么图中镜子的半径是多少?
就需要定位相关对象,确定尺寸,计算三维大小。GPT-4给出了错误答案。
现有方法往往依赖静态的人为定义的api解决问题。
仅进行一次静态图像扫描,无法主动探索细节
视觉信息被压缩为静态上下文,丢失时空动态性
难以有效整合几何结构信息,导致空间逻辑混乱
创新
提出了一种代理程序合成方法,其中大语言模型代理协同生成一个具有新函数的Pythonic
API,以解决常见的子问题。
我们的方法克服了以往依赖静态、人 ...
showUI
ShowUI:
One Vision-Language-Action Model for GUI Visual Agent
ShwoUI:一个视觉-语言-动作模型(VLA) 用于GUI视觉agent
来源:CVPR2025
作者:新加坡国立大学
代码:https://github.com/showlab/ShowUI
背景
创建一个用户图形界面助手对于增强人类工作流生产力非常重要。大部分的agent是基于语言模型的,基于闭源API实现,富文本的元信息,类似HTML或者树结构。在像人类一样感知UI视觉信息这一方面的能力非常有限。
该项目专为GUI智能体设计,能够实现从界面理解到自主操作的全流程控制,让计算机使用像人类一样自然流畅。
创新
将截图转换为UI结构
将GUI动作结构化为JSON格式,有效管理视觉-动作历史和多轮查询-动作序列
精心策划数据并采用重采样策略解决数据类型不平衡问题
image-20260319163544743
把一个UI截图分为多个Patch,按照上面伪代码的说法,会把颜色相近的邻域合起来。
这样的做法可以 ...
NLPrompt
NLPrompt:
Noise-Label Prompt Learning for Vision-Language Models
噪声提示词用于视觉语言模型
意思就是:当现实标注的错的漏的标注,就是数据集带有噪声标签,这些噪声标签会降低提示学习的性能。
提示学习Prompt
Learning:使用prompt提示词的这类模型,是一类工作流。
作者:上海理工大学
来源:cvpr2025
代码地址:https://github.com/qunovo/NLPrompt
创新
在prompt learning中使用MAE
loss(平均误差损失)能够显著增强噪声标签的鲁棒性,而不是使用MCE
loss(交叉熵损失)。可以使用特征学习理论证明
提出PromptOT一种基于prompt的最优传输数据净化方法,利用视觉-语言模型中的文本特征作为原型,构建一个最优传输矩阵,把原数据集分为干净和噪声子集,对干净子集使用交叉熵损失,对噪声子集使用MAE损失。
MAE在传统范式中被认为是一种鲁棒的损失函数,但通常存在收敛缓慢且训练过程中性能不佳的问题,因而很少被用 ...
LLMDet
LLMDet:
Learning Strong Open-Vocabulary Object Detectors under the Supervision
of Large Language Models
LLMDet 在大语言模型监督下的强开放词汇物体检测器
作者:中山大学,阿里
来源:2025cvpr
代码:GitHub 仓库地址:
https://github.com/iSEE-Laboratory/LLMDet
领域:目标识别新进展
核心创新点:
一个新的数据集包含四元组(I,Tg,B,Tc),(一个图片,图片中物体的简短类别,物体标注框,全图的整体详细描述)
联合训练方法:在训练时候,同时执行两个任务
标准的目标检测Grounding,就是表示出物体在哪里
描述生成任务Captioning,描述出全图的一个详细描述,就是理解图像中实体的相对关系,状态等
LLMDet (Learning Strong Open-Vocabulary Object Detectors under the
Supervision of Large ...
HEF NET v2心电大模型
NEF-NET
V2: ADAPTING ELECTROCARDIO PANORAMA IN THE WILD
作者:香港科技大学(广州)
来源: ICLR2026
代码:https://github.com/HKUSTGZ-ML4Health-Lab/NEFNET-v2
背景
心血管疾病仍然是全球治病和致死的主要原因,每年夺走数百万生命,并带来深远的残疾负担。心电图(ECG)是不可或缺的一种诊疗手段,是非入侵性的,成本效益高的方法,能够迅速解释心脏电活动的复杂状态。
ECG视图状态的数量和实际复杂性和心脏状态的理解的全面性直接相关。标准的12导联心电图被认为是在获取成本和临床效用的一种实用折中。
image-20260313142045323
磁吸10个,还有手脚2个吗?
心电图
心电图记录的是心脏点活动的时间序列信号,每个心脏周期可以分解为留个不重叠的波形:P波,PR,QRS复合波,ST段,T波,TP段。通常的12导联心电图广泛用于心血管筛查,通常从6个肢体导联和5个胸导联采集10秒的记录。每个导联作为独立的传感器提供心脏电活动的空间不同视角,类似 ...
OverLoCK
OverLoCK:
An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic
Kernels
经典的使得cnn再次伟大的论文。
如今的科研环境,模型的创新已经被极大的限制,达成了一个Transformer结构的统一共识。
作者是香港大学俞益洲教授与博士生娄蒙。
论文链接:https://arxiv.org/abs/2502.20087
代码链接:https://github.com/LMMMEng/OverLoCK
发表平台:CVPR2025(oral)
创新点
传统卷积的思路是从细节到全局的特征提取,感受野逐步变大。这篇文章讲了一个Top-down
attention(自上而下的注意力机制)在人类视觉系统的作用的故事。核心思路是先用一个网络提取全局的语义信息,再逐步减小感受野,观察图像细节。
一个可变形卷积。和之前得到可变形卷积的区别在于,具有上下文混合能力的新型动态卷积。
维度
传统动态卷积 (如 CondConv ...
LLM
加州大学洛杉矶分校【中英⚡LLM与强化学习|Spring
2025, Reinforcement Learning of Large Language Mod】
理解LLM的本质
理解LLM把它看做一个智能体或许不是一个合适的看法,相反,可以理解为一个信息的插值数据库,这是一种相对于复杂的人类作法,力大飞砖的作法。这种作法或许才是正道。
加入的大量预训练数据集,填充了这个世界模型的各个小区域,这些小区域的插值可以得到不少的信息。
LLM可以看做一个用自然语言作为查询语言的一个大的数据库,具有融合和插值的功能。
强化学习为什么好
传统的深度学习实际上是一种被动学习的过程,类似填鸭式的教育,这种学习方式,在近十年的时间内被证明是有效的,但是现有的数据量和算力使得这种方式的效率到达了一个平台期,无法通过数据规模和模型规模的放大更进一步;
而强化学习是一种主动学习,在action和试错之间学习到规律,这或许是一个突破现有瓶颈
的方法。
No title
NLP新闻分类学习赛
https://tianchi.aliyun.com/competition/entrance/531810/forum
介绍
这只是一个经典的分类任务,从不等长的文本序列,得出一个新闻的分类,一共是13种新闻分类。
从分类算法的发展历史来说,这有800种方法可以完成
传统的机器学习算法
CNN网络
新的预训练模型,基于Transformer结构的网络
数据
label
text
6
57 44 66 56 2 3 3 37 5 41 9 57 44 47 45
33 13 63 58 31 17 47 0 1 1 69 26 60 62 15 21 12 49 18 38 20 50 23 57 44
45 33 25 28 47 22 52 35 30 14 24 69 54 7 48 19 11 51 16 43 26 34 53 27
64 8 4 42 36 46 65 69 29 39 15 37 57 44 45 33 69 54 7 25 40 35 30 6 ...
DQN and GAN
https://brightendavid.github.io/2025/10/14/%E6%95%B0%E5%AD%A6%E5%BC%8F%E6%95%B0%E5%AD%97%E5%8C%96/lglr
数学式数字化如拉格朗日计算可见上链接
DQN
DQN 就是deep
Q-learn,深度Q-learn。是在强化学习中引入网络结构的一个早期比较成功的案例。基于Q-Learn算法原理做的一个应用。
核心公式
[!NOTE]
这是TD算法,做参数最优化的工作
$$
q{\tiny t+1} = q_t + \alpha _t[ q_\pi-\hat{q}(s{\tiny t},a,w_t)))]
$$
[!NOTE]
这是引入了Q-Learn计算qπ,并对w参数向量求偏导
$$
w {\tiny t+1} = w_t + \alpha _t[ r{\tiny t+1} + \gamma
(max(\hat{q}(s{\tiny t+1},a,w_t)-\hat{q}(s{\tiny
t},a,w_t)))]\bigtriangle ...




