Segment Anything

论文：《Segment Anything》
链接：https://arxiv.org/pdf/2304.02643.pdf
模型链接：Segment Anythingsegment-anything.com/
机构：Meta
来源：ICCV-2023

目标：构建一个用于图像分割的基础模型，通过设计一个Prompt输入可以实现新视觉概念和数据分布的零样本泛化。开发一个可提示的模型，并在广泛的语料库这通过一种能够实现强大泛化能力的任务进行预训练。借助该模型，可以通过提示工程解决一系列下游分割任务，在新的数据分布上实现应用。
这个Prompt可以是一个（文本提示，mask 图，坐标框，点图），用于确定所谓感兴趣区域(ROI,regions of interest)
- 什么任务能够实现零样本泛化？
- 对应的模型架构是什么？
- 什么数据可以赋能这个任务和模型？

任务

提示词学习（Prompt Learning）是一种有前景的方式，能够通过Prompt技术实现新数据集和新任务的零样本和少样本学习。提出一个可提示分割任务，目标是——更具任意的分割提示词返回一个有效的mask，一个Prompt指明图像中需要分割的内容。Prompt是模糊，并可能指向多个对象，输出也至少是一个对象的合理掩码。

模型

SAM更倾向于训练到一个类似LLM这样的能够用于下游任务微调的可提示模型，同时希望模型能够用于实时服务中，选择了Encoder-Decoder的比较主流的结构，encoder包含独立的两个部分，分别为提示encoder和图像encoder，生成深度内容后一同传入decoder推理计算，得到最终的分割结果