OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels

经典的使得cnn再次伟大的论文。

如今的科研环境,模型的创新已经被极大的限制,达成了一个Transformer结构的统一共识。

作者是香港大学俞益洲教授与博士生娄蒙。

  • 论文链接:https://arxiv.org/abs/2502.20087
  • 代码链接:https://github.com/LMMMEng/OverLoCK
  • 发表平台:CVPR2025(oral)

创新点

  • 传统卷积的思路是从细节到全局的特征提取,感受野逐步变大。这篇文章讲了一个Top-down attention(自上而下的注意力机制)在人类视觉系统的作用的故事。核心思路是先用一个网络提取全局的语义信息,再逐步减小感受野,观察图像细节。
  • 一个可变形卷积。和之前得到可变形卷积的区别在于,具有上下文混合能力的新型动态卷积。
维度 传统动态卷积 (如 CondConv, DynamicConv, Involution) OverLoCK 的 ContMix
驱动信号 仅依赖当前输入特征图 (Input Features) 依赖 Top-down 上下文先验 (Context Prior)
建模目标 建模空间位置的变化(Spatially-varying) 建模长距离依赖 + 空间变化
感受野 局部的(受限于输入特征的分辨率) 全局的(利用低分辨率的上下文先验)
计算方式 通常用 MLP 根据输入生成权重 计算输入与区域中心 (Region Centers) 的亲和力
解决痛点 适应不同位置的局部模式 解决卷积核固定导致的长距离依赖建模困难

具体实现方法

  • 本质上是三阶段的级联网络。这也是一种老思想了,在很多文章中都有提到。

  • 三个协同的子网络:1)Base-Net,一个基础网络,用以编码低/中层次的特征;2)Overview-Net,一个轻量级的概览网络,通过粗略的全局上下文建模生成动态的自上而下的注意力(即先进行概览);3)Focus-Net,一个鲁棒的网络,在to-down attention引导下执行更精细的感知(即近距离观察)。

image-20260313115408439