OverLoCK

Created2026-03-13|Updated2026-03-24

|Post View:

OverLoCK: An Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels

经典的使得cnn再次伟大的论文。

如今的科研环境，模型的创新已经被极大的限制，达成了一个Transformer结构的统一共识。

作者是香港大学俞益洲教授与博士生娄蒙。

论文链接：https://arxiv.org/abs/2502.20087

代码链接：https://github.com/LMMMEng/OverLoCK

发表平台：CVPR2025（oral）

创新点

传统卷积的思路是从细节到全局的特征提取，感受野逐步变大。这篇文章讲了一个Top-down attention（自上而下的注意力机制）在人类视觉系统的作用的故事。核心思路是先用一个网络提取全局的语义信息，再逐步减小感受野，观察图像细节。
一个可变形卷积。和之前得到可变形卷积的区别在于，具有上下文混合能力的新型动态卷积。

维度	传统动态卷积 (如 CondConv, DynamicConv, Involution)	OverLoCK 的 ContMix
驱动信号	仅依赖当前输入特征图 (Input Features)	依赖 Top-down 上下文先验 (Context Prior)
建模目标	建模空间位置的变化（Spatially-varying）	建模长距离依赖 + 空间变化
感受野	局部的（受限于输入特征的分辨率）	全局的（利用低分辨率的上下文先验）
计算方式	通常用 MLP 根据输入生成权重	计算输入与区域中心 (Region Centers) 的亲和力
解决痛点	适应不同位置的局部模式	解决卷积核固定导致的长距离依赖建模困难

具体实现方法

本质上是三阶段的级联网络。这也是一种老思想了，在很多文章中都有提到。
三个协同的子网络：1）Base-Net，一个基础网络，用以编码低/中层次的特征；2）Overview-Net，一个轻量级的概览网络，通过粗略的全局上下文建模生成动态的自上而下的注意力（即先进行概览）；3）Focus-Net，一个鲁棒的网络，在to-down attention引导下执行更精细的感知（即近距离观察）。

image-20260313115408439

Author: brightendavid

Link: http://brightendavid.github.io/2026/03/13/OverLoCK/

Copyright Notice: All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.

Related Articles

Visual Agentic AI

dataloader problem

noise layer surver

Loading the Database