OverLoCK
OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels
经典的使得cnn再次伟大的论文。
如今的科研环境,模型的创新已经被极大的限制,达成了一个Transformer结构的统一共识。
作者是香港大学俞益洲教授与博士生娄蒙。
- 论文链接:https://arxiv.org/abs/2502.20087
- 代码链接:https://github.com/LMMMEng/OverLoCK
- 发表平台:CVPR2025(oral)
创新点
- 传统卷积的思路是从细节到全局的特征提取,感受野逐步变大。这篇文章讲了一个Top-down attention(自上而下的注意力机制)在人类视觉系统的作用的故事。核心思路是先用一个网络提取全局的语义信息,再逐步减小感受野,观察图像细节。
- 一个可变形卷积。和之前得到可变形卷积的区别在于,具有上下文混合能力的新型动态卷积。
| 维度 | 传统动态卷积 (如 CondConv, DynamicConv, Involution) | OverLoCK 的 ContMix |
|---|---|---|
| 驱动信号 | 仅依赖当前输入特征图 (Input Features) | 依赖 Top-down 上下文先验 (Context Prior) |
| 建模目标 | 建模空间位置的变化(Spatially-varying) | 建模长距离依赖 + 空间变化 |
| 感受野 | 局部的(受限于输入特征的分辨率) | 全局的(利用低分辨率的上下文先验) |
| 计算方式 | 通常用 MLP 根据输入生成权重 | 计算输入与区域中心 (Region Centers) 的亲和力 |
| 解决痛点 | 适应不同位置的局部模式 | 解决卷积核固定导致的长距离依赖建模困难 |
具体实现方法
本质上是三阶段的级联网络。这也是一种老思想了,在很多文章中都有提到。
三个协同的子网络:1)Base-Net,一个基础网络,用以编码低/中层次的特征;2)Overview-Net,一个轻量级的概览网络,通过粗略的全局上下文建模生成动态的自上而下的注意力(即先进行概览);3)Focus-Net,一个鲁棒的网络,在to-down attention引导下执行更精细的感知(即近距离观察)。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.


