Visual Agentic AI for Spatial Reasoning with a Dynamic API

视觉代理AI用于空间推理和动态api

经典的VLM（视觉语言模型）主要擅长于类别级别的语义理解。当被要求在三维世界中进行空间理解时，它们的性能显著下降。

在回答三维世界中问题，例如已知桌子高20米，那么图中镜子的半径是多少？

就需要定位相关对象，确定尺寸，计算三维大小。GPT-4给出了错误答案。

创新

提出了一种代理程序合成方法，其中大语言模型代理协同生成一个具有新函数的Pythonic API，以解决常见的子问题。 我们的方法克服了以往依赖静态、人工定义API方法的局限，能够处理更广泛的查询。将这个方法称为VADAR。

由大模型生成动态API,可以拓展一应对新的查询。

一部分的api通过调用现有的大模型生成，例如：用Moimo进行目标识别，UniDepth的深度估计模块，GPT-4o的VGA视觉问答模块，SAM的语义分割模块。这一部分是通用的一些功能，完成3D环境下的视觉问答必然需要解决这些问题。如右侧所示。
另一部分，就是解决这个问题的程序化流程api需要动态生成。这一部分是通过大模型生成的。

接受N个Queries(N=15),针对这些问题可能产出的子问题生成通用的方法签名。

Agent接受当前API状态作为文档字符串，不需要上下文示例（with out in-context examples）,能够生成更加多样性的api,具有更广泛的功能潜力（wider potential functionality）。

需要上下文示例，因为这部分的实现需要注重准确性，而不是多样性。就是here are some examples of how to implement a method given its docstring and signature.

深度优先实现。一旦方法根据签名实现完成，test agent通过使用占位符输入运行该方法。如果发生错误，test agent向Implemention Agent发送异常Exception.如果包含未实现方法，测试无法进行，在这种情况，会遍历一个隐式的依赖图。

这一部分模型只是写了一段提示词而已。试验了两种模型：CLEVR和OMNI3D-BENCH。