ShowUI: One Vision-Language-Action Model for GUI Visual Agent

ShwoUI:一个视觉-语言-动作模型(VLA) 用于GUI视觉agent

  • 来源:CVPR2025
  • 作者:新加坡国立大学
  • 代码:https://github.com/showlab/ShowUI

背景

创建一个用户图形界面助手对于增强人类工作流生产力非常重要。大部分的agent是基于语言模型的,基于闭源API实现,富文本的元信息,类似HTML或者树结构。在像人类一样感知UI视觉信息这一方面的能力非常有限。

该项目专为GUI智能体设计,能够实现从界面理解到自主操作的全流程控制,让计算机使用像人类一样自然流畅。

创新

  • 将截图转换为UI结构
  • 将GUI动作结构化为JSON格式,有效管理视觉-动作历史和多轮查询-动作序列
  • 精心策划数据并采用重采样策略解决数据类型不平衡问题
image-20260319163544743

把一个UI截图分为多个Patch,按照上面伪代码的说法,会把颜色相近的邻域合起来。

这样的做法可以节约token,增加训练速度。

image-20260319163840243

如果是空白的就可以丢掉了。

image-20260319163943973

这里是两个训练流。

  1. Action-Visual:把每一步的截图和动作串起来,图片和动作交织组成一个长序列,训练时只使用动作 tokens 对应的 loss。这样一个任务理论上可以作为一个样本。

  2. Action-Query:对于一些单步性质的任务,比如对应一个截图中的多个元素的 grounding 任务,可以把这些多个单步任务拼成多轮对话的形式进行训练,也就变成上面那种交织的形式了,以便提升训练效率。