Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning

学习未被学习的内容：缓解对比学习中的特征抑制 对比学习中的特征抑制

目的

自监督对比学习在从无标签数据中获取高质量表示方面已证明有效。然而，无论单模态还是多模态对比学习，都面临一个重大挑战——特征抑制现象，即训练数据仅捕捉输入数据中的有限部分信息，而忽略了其他可能有价值的内容。

提出了一种模型无关的多阶段对比学习(Multi stage Constrative Learning,MCL)框架。

各种对比学习模型，作为不同领域的基础预训练骨干网络。研究表明，标准对比学习产生的表示通常遗漏输入信息的大量内容，这种现象称为特征抑制。

证据在于，图1-a中相同纹理组成的五边形和圆形对于SimClR模型难以区分；图1-b，CLIP模型对于兔子向左还是向右的表示高度相似。这说明构建的超空间有一些问题，可能导致后续语义区分的阻碍或者出现严重的模型幻觉问题。

已有的解决方法，通常需要牺牲已学习到的特征，或者需要构建额外的re-contrastive loss。此外，这些方法使用范围局限于单模态或者多模态对比学习，缺乏普适性。

提出一个新型的模型无关框架多阶段对比学习（MCL），旨在有效解决单模态和多模态设置中的特征抑制问题。旨在逐步学习在前期训练阶段未被探索的新特征，同时保留已学习到的特征。

对比学习中representations倾向于已学习特征进行聚类的观察启发，在每个阶段，MCL从前期阶段分配到的聚类中为每个锚点选择负样本，而同一聚类内的样本共享相似的特征，无法被选择为负样本。那么，模型必须重新整合之前未学习到的特征——以区分锚点和负样本。

贡献有三点：

提出了一种新型的模型无关对比学习框架，多阶段对比学习，缓解了对比学习中常见的特征抑制严重问题
这是首次针对单模态和多模态对比学习中的特征抑制问题进行讨论和解决的工作
实验证明，MCL可以适应多种对比学习设置，从ResNet-18到ViT-L-14的多种编码器主干网络进一步提升其性能。在CLIP中，显著提高了平均准确率从20.0-32.6

由图可见，这是一个基本的分步处理多阶段思想，或者可以说是分治思想，属于计算机算法中一个比较常见的解决思路。举例来说：

相对于单阶段的Contrastive Learning可能只区分了个别特征，这个方法能够构建更加符合实际的超空间。