LLMDet

Created2026-03-17|Updated2026-03-24

|Post View:

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models

LLMDet 在大语言模型监督下的强开放词汇物体检测器

作者：中山大学，阿里
来源：2025cvpr
代码：GitHub 仓库地址： https://github.com/iSEE-Laboratory/LLMDet
领域：目标识别新进展

核心创新点：

一个新的数据集包含四元组（I,Tg,B,Tc）,(一个图片，图片中物体的简短类别，物体标注框，全图的整体详细描述)
联合训练方法：在训练时候，同时执行两个任务
- 标准的目标检测Grounding，就是表示出物体在哪里
- 描述生成任务Captioning,描述出全图的一个详细描述，就是理解图像中实体的相对关系，状态等
LLMDet (Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models) 是一种创新的开放词汇目标检测（Open-Vocabulary Object Detection, OVD）方法。它利用大型语言模型（LLM）强大的语义理解能力来监督和训练目标检测器，从而显著提升其性能和泛化能力。

简单来说，LLMDet 的核心思想是让目标检测模型通过“阅读”由大型语言模型生成的、对图片非常详尽的文字描述来学习识别各种物体，而不仅仅是依赖传统的、带有物体类别标签的边界框进行训练。这使得模型能够理解训练时从未见过的物体类别，实现了“开放词汇”检测。

Loss

L = L_align + L_box + L_{lm_image} + L_region

align loss

目标检测loss，就是标定块和物体类别有没有对应

box loss

标定框有没有多画，有没有少画

lm image loss

通过llm描述一整个图像，能不能描述出物体的属性，动作和相互关系

就是图像标题生成任务，我一向觉得这是一个伪命题

区域级描述生成损失 (Llm_region)

本质上是一种 语言建模损失（通常为交叉熵损失 Cross-Entropy Loss）

图像级描述损失（Llm_image）负责让模型看懂“全局故事”，那么区域级描述损失（Llm_region）则负责让模型精准定位“谁在哪儿”。

就是一个patch级别的图像标题生成任务。

实现

基于LLM Transformer架构实现，包含一个特征提取块，SA,FFN都是Transformer模型中常见的东西。

image-20260317152207814

实际上，标注框，文本，长描述，其实都是模型可以生成的。模型输入和以往的传统模型相同，都是只有一张原始图像。

该工作的输出包含目标识别框以及对图像整体的一个长描述。

image-20260317154215559

Author: brightendavid

Link: http://brightendavid.github.io/2026/03/17/LLMDet/

Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

Related Articles

Circuit Tracing in Vision–Language Models

HEF NET v2心电大模型

Loading the Database