ShowUI: One Vision-Language-Action Model for GUI Visual Agent

ShwoUI:一个视觉-语言-动作模型（VLA）用于GUI视觉agent

背景

创建一个用户图形界面助手对于增强人类工作流生产力非常重要。大部分的agent是基于语言模型的，基于闭源API实现，富文本的元信息，类似HTML或者树结构。在像人类一样感知UI视觉信息这一方面的能力非常有限。

该项目专为GUI智能体设计，能够实现从界面理解到自主操作的全流程控制，让计算机使用像人类一样自然流畅。

把一个UI截图分为多个Patch，按照上面伪代码的说法，会把颜色相近的邻域合起来。

这样的做法可以节约token,增加训练速度。

如果是空白的就可以丢掉了。

Action-Visual：把每一步的截图和动作串起来，图片和动作交织组成一个长序列，训练时只使用动作 tokens 对应的 loss。这样一个任务理论上可以作为一个样本。
Action-Query：对于一些单步性质的任务，比如对应一个截图中的多个元素的 grounding 任务，可以把这些多个单步任务拼成多轮对话的形式进行训练，也就变成上面那种交织的形式了，以便提升训练效率。