LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models

LLMDet 在大语言模型监督下的强开放词汇物体检测器

  • 作者:中山大学,阿里
  • 来源:2025cvpr
  • 代码:GitHub 仓库地址: https://github.com/iSEE-Laboratory/LLMDet
  • 领域:目标识别新进展

核心创新点:

  • 一个新的数据集包含四元组(I,Tg,B,Tc),(一个图片,图片中物体的简短类别,物体标注框,全图的整体详细描述)

  • 联合训练方法:在训练时候,同时执行两个任务

    • 标准的目标检测Grounding,就是表示出物体在哪里
    • 描述生成任务Captioning,描述出全图的一个详细描述,就是理解图像中实体的相对关系,状态等

    LLMDet (Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models) 是一种创新的开放词汇目标检测(Open-Vocabulary Object Detection, OVD)方法。它利用大型语言模型(LLM)强大的语义理解能力来监督和训练目标检测器,从而显著提升其性能和泛化能力。

    简单来说,LLMDet 的核心思想是让目标检测模型通过“阅读”由大型语言模型生成的、对图片非常详尽的文字描述来学习识别各种物体,而不仅仅是依赖传统的、带有物体类别标签的边界框进行训练。这使得模型能够理解训练时从未见过的物体类别,实现了“开放词汇”检测。

Loss

L = Lalign + Lbox + Llmimage + Lregion

align loss

目标检测loss,就是标定块和物体类别有没有对应

box loss

标定框有没有多画,有没有少画

lm image loss

通过llm描述一整个图像,能不能描述出物体的属性,动作和相互关系

就是图像标题生成任务,我一向觉得这是一个伪命题

区域级描述生成损失 (Llm_region)

本质上是一种 语言建模损失(通常为交叉熵损失 Cross-Entropy Loss)

图像级描述损失(Llm_image)负责让模型看懂“全局故事”,那么区域级描述损失(Llm_region)则负责让模型精准定位“谁在哪儿”。

就是一个patch级别的图像标题生成任务。

实现

基于LLM Transformer架构实现,包含一个特征提取块,SA,FFN都是Transformer模型中常见的东西。

image-20260317152207814

实际上,标注框,文本,长描述,其实都是模型可以生成的。模型输入和以往的传统模型相同,都是只有一张原始图像。

该工作的输出包含目标识别框以及对图像整体的一个长描述。

image-20260317154215559