Segment anything in medical images

来源：Nature Communications[2024]
作者：多伦多大学，有李飞飞的三作
代码：https://github.com/bowang-lab/MedSAM

到目前为止MedSAM发布了三个版本，这个工作做得还是非常完善的。

特性	MedSAM 1	MedSAM 2	MedSAM 3
核心能力	交互式 2D 图像分割	高效 3D 体数据与视频分割	纯文本驱动的语义分割
主要提示方式	边界框、点	单点/框提示，跨切片传播	纯文本（如“分割肝脏肿瘤”）
处理数据维度	2D 切片	3D 体数据 (CT/MRI) 和视频 (超声/内镜)	2D 图像，侧重于语义理解
关键技术	在大规模医学数据上微调 SAM	引入记忆注意力模块，实现提示传播	医学概念与图像区域的显式对齐
解决的问题	通用医学图像分割，提升泛化性	解决 3D 和视频数据逐层分割耗时的问题	解决通用模型不理解专业医学术语的问题

前言

分割是医学图像分析中的一个基本任务，涉及到在各种医学图像中识别和勾画出一个感兴趣区域（ROI,regions of interest），例如器官、病灶和组织。准确的分割对于许多临床应用至关重要，包括疾病诊断，治疗计划制定以及疾病进展的监测。手动分割耗时长，劳动强度大，通常需要高度的专业知识。半自动或者全自动分割可以显著减少所需的时间和劳动量，提高一致性，并实现大规模数据集的分析。（所以，开源demo中的演示视频展示的是通过框定或者简单的像素加点，的半自动方法去进行分割）

一般的医学分割方法通常针对特定模态或者疾病类型，缺乏在多样化的医学分割任务中的通用性。

SAM是Meta公司提出的一个分割万物模型，通过一种可提示的方法进行分割，即通过点或者边界框开制定分割目标，这和传统的分割方法相似但SAM有更好的泛化能力。研究得出SAM在边界明显的目标中表现较好，但在边界模糊或者对比度较低的典型医学目标中有显著的局限性。