Circuit Tracing in Vision–Language Models
Circuit Tracing in Vision–Language Models,Understanding the Internal Mechanisms of Multimodal Thinking
理解多模态思维的内部机制
来源:cvpr2026
代码:https://github.com/UIUC-MONET/vlm-circuit-tracing
作者:伊利诺伊大学
没看明白的论文
背景
VLMS视觉语言模型虽然强大,但仍旧存在透明度不足的黑箱问题。
首次提出用于VLMs的透明电路追踪的框架,系统分析多模态推理,通过利用转编码器、归因图,和基于注意力的方式,揭示了VLMs如何分层整合视觉和语义概念。
结果
作者发现,不同的视觉特征电路可以处理数学推理,并支持跨模态关联,通过特征应道和电路修补验证,框架证明这些电路具有因果性和可控性,为更加可解释,更可靠的VLMs奠定了基础。
以往工作
近期的可解释性研究开始通过注意力可视化、探针分析和电路发现掲示语言模型内部算法。然而,这些方法几乎完全集中在纯文本模型上,多模态视觉语言模型(VLMs)带来了更深的挑战,必须整合两种不同统计特性和语义的模态。
在发现有意义的视觉-语言对应关系时,视觉语言模型如何将视觉特征绑定到token,实现跨模态推理,或协调视觉和语言注意力,仍旧largely unknown——这构成比单模态文本模型或者早期视觉可解释性研究中的可解释工作更加复杂的前沿问题。
创新
- “归因图”(Attribution Graphs): 创新性地提出了一种将模型内部复杂的矩阵运算转化为人类可读的计算图的方法。它不再关注单个神经元,而是关注特征组(Feature Groups)之间的因果连接,清晰地展示了信息是如何从输入层流向输出层的。如上图所示。
好的,让我们深入到电路追踪技术内部,通过几个具体的案例,看看它究竟是如何像“AI显微镜”一样,揭示视觉-语言模型(VLM)内部多模态思维过程的。
🔬 案例一:解剖一个“常识”问题——模型如何推理出“奥斯汀”?
当被问到“包含达拉斯的州的首府是?”时,一个VLM需要完成一个多步推理过程。电路追踪技术可以将这个“黑箱”思考过程,绘制成一张清晰的归因图(Attribution Graph)。
- 识别“达拉斯”:输入词元“Dallas”首先激活了模型中代表“达拉斯”这个城市概念的特征节点。
- 关联到“得克萨斯州”:接着,信息流沿着电路传递,“达拉斯”节点会显著提升一个代表“得克萨斯州”的抽象概念节点的激活值。这揭示了模型内部存储了“达拉斯位于得克萨斯州”这一知识关联。
- 理解“首府”指令:与此同时,问题中的“capital”(首府)一词也激活了另一个独立的特征节点,这个节点的功能是让模型倾向于生成一个“首府城市”作为答案。
- 组合推理出“奥斯汀”:最终,“得克萨斯州”节点和“首府”节点共同作用,它们的信号汇聚并大幅提升了输出节点“say Austin”(说奥斯汀)的概率。
关键发现:这张电路图不仅展示了正确的推理路径,还可能存在一条从“Dallas”直接到“say Austin”的“捷径”边。这表明模型可能同时使用了逻辑推理和记忆关联两种方式来得出答案。通过干预实验,我们可以验证这一点:如果人为抑制“Texas”特征节点,模型就可能无法回答这个问题,从而证明了该节点在推理链中的因果作用。
- 跨层转码器(Cross-Layer Transcoders)的应用: 为了解决神经元“多义性”(一个神经元同时代表多个不相关概念)的问题,研究者利用转码器将模型内部的激活状态解码为稀疏的、具有明确语义的“特征”。这使得我们能够用自然语言(如“总统概念”、“2010年概念”)来解释数学向量。
结论
粒度与单义性在各层之间的体现。 特征表示随着深度的增加而变得越来越抽象。早期层表现出高度局部化、细粒度的视觉模式——细至数字或纹理,而后期层则形成物体级和概念级的特征,与视觉模型中的趋势 [25,38] 相似,但现已与语义对齐。
图像中简单数学推理的视觉电路。 对基于图像的算术(例如,1 + 2 以视觉形式呈现),模型似乎在视觉空间中进行部分计算。中间层包含与结果数字(例如,“3”)相对应的视觉特征,并在不同上下文中激活。我们还发现了数字范围和模运算模式的视觉编码,这与 Lindseay 等人 [19] 的文本研究发现相呼应。这些结果表明,基于图像的简单算术可以依赖于视觉电路,而非纯粹的语义计算。
Conclusion
这项工作提出了首个用于视觉-语言模型的电路追踪框架,揭示了多模态推理背后的机制。通过使用转码器提取可解释的特征,并利用归因图追踪因果结构,我们为物体识别、计数、问答和描述等任务隔离了稀疏电路。干预实验证实这些电路具有因果意义,能够实现有针对性的损害和可控引导。除了推进科学理解外,该框架还提供了调试、缓解失败以及指导更可解释的VLM设计的实用工具——支持开发透明、可控且对齐的AI系统。





