广州国际校区  Guangzhou International Campus
您当前的位置:首页 > 米乐盘口 > 正文

M6体育app2026世界杯(中国)官方app下载 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson

来源:未知   作者:   发布时间:   浏览:110

M6体育app2026世界杯(中国)官方app下载 Meta蔡志鹏新作VLM³: 全面揭示三维视觉的Bitter Lesson

蔡志鹏博士(https://zhipengcai.github.io/)是好意思国 Meta 公司的高档连络员,博士毕业于澳大利亚阿德莱德大学。他的连络主要蚁集在 Physical Intelligence,包括三维视觉、多模态大模子等。他的使命已在界限顶级会议杂志上发表跳跃 20 篇。其中 10 篇著述被选为顶级会议表面或特邀评释,对鲁棒臆想筹划复杂度的表面解释使命被选为 ECCV18 12 篇最好论文之一。

Meta 发布了一项令东说念主震荡的连络使命 VLM³,初度揭示了三维视觉学习的 Bitter Lesson:圭臬的视觉话语模子 + scale 数据就是最简单有用的范式,针对特定任务的架构、亏欠函数以及数据增强的遐想,甚而是 regression 的 formulation,均不是三维视觉学习的必要条目。

面前的视觉话语 AI 模子(Vision Language Models, VLMs)通过长入的模子架构疏忽纯真处治各样不同的视觉任务。然则,尽管在语义领略、视觉问答、图像提醒等任务上发达优异,它们在三维视觉方面仍然发达欠安。比拟之下,巨匠视觉模子(expert vision models)在全王人深度臆想(metric depth estimation)等三维理除名务上,凭借特意遐想的采集中构、亏欠函数及数据增强,还是达到了杰出东说念主类的精度。

这就带来了一个中枢问题:「视觉话语模子是否在三维视觉学习方面无法替代巨匠模子?」VLM³ 初度解释了该问题的谜底是辩护的!

VLM³ 通过极简的遐想,在极为各样的三维视觉任务中比好意思或杰出巨匠视觉模子,并大幅杰出起原进的视觉话语模子:1)在单目深度臆想上 match UnidepthV2 及 MoGe2;2)在运筹帷幄级三维理除名务上杰出 SpatialRGPT;3)在像素匹配任务上杰出 DKM 和 RoMa;4)在相机姿态臆想上 match DA3,杰出 VGGT。

代码地址:https://github.com/facebookresearch/VLM3

二、亮点

在此之前,即即是起原进的 VLM 在圭臬的三维视觉任务中均远远过时于巨匠视觉模子。

VLM³ 通过防备的实验发现,圭臬的 VLM 仅需要 1)相机焦距归一化;2)像素空间归一化,就疏忽以令东说念主咋舌的简易神情有用学会各样三维视觉模子,在 1)单目深度臆想中 match UniDepthV2 及 MoGe2;2)在运筹帷幄级别三维领略杰出 SpatialRGPT;3)在像素匹配任务上杰出 DKM 和 RoMa;4)在相机姿态臆想上 match DA3 并杰出 VGGT。

和之前的三维视觉 VLM 不同,VLM³ 既不需要更变 VLM 的架构,也不需要在图片上渲染 marker。比拟于巨匠视觉模子需要多数的架构、亏欠函数及数据增强方面的复杂遐想,米乐体育2026世界杯中国官网VLM³ 仅需要圭臬的 VLM 架构(如 Qwen3-vl-4B)和测验(基于翰墨的 SFT)就疏忽在极为各样的三维任务上达到 SOTA。

这种简易的测验推翻了之前三维视觉的学习范式,并揭示了三维视觉的 Bitter Lesson:咱们其实完全不需要针对特定三维视觉任务东说念主为遐想复杂的架构、亏欠函数及数据增强。通过简单的视觉话语建模 + scale 数据就疏忽达到不异的排除,而且于其他非三维视觉任务在长入的话语模子测验框架下完全兼容。这使得三维视觉不再需要与视觉话语模子的大范畴预测验别离,同期咱们疏忽使用不异的神情来已矣三维视觉的 scaling law。

同期 VLM³ 的见效也意味着三维视觉的学习远比咱们思象中的要容易:除开不需要畸形架构、亏欠函数等,咱们甚而不错不依赖追想(regression)来学会 fine-grained 3D understanding,这在之前的使命中是难以思象的,因为在勾通的输出空间进行追想是绝大多数三维视觉模子的中枢遐想。

三、主要排除 / 性能对比

在四大三维视觉任务上性能权贵优于起原进的 VLM

在单目深度臆想上将 DepthLM 的准确率从 84 进步至 90,而且测验及推理愈加简单高效,无需渲染 marker。

在运筹帷幄级别三维领略上用不异的测验数据杰出 SpatialRGPT,而且无需尽头的 encoder,模子参数少一半(4B vs 8B)。

在多视角几何任务上如像素匹配及相机姿态臆想上远超 Qwen3-vl-32B。

开云体育app2026世界杯中国官网下载

同期在与先进的巨匠视觉模子(如 MoGe2、DA3、RoMa 等)的对比中,VLM³ 也绝不失态,而且完全不需要复杂的架构、亏欠函数及数据增强。

四、兴致 / 哄骗出路

VLM³ 再行界说了三维视觉的最勤学习范式:最简单的 generalist 架构如 VLM 及 scaling 就是最通用的三维视觉范式!昔日三维视觉界限广博罗致的东说念主为的 task-specific 的遐想并非必须。

这将极猛经过地简化三维基础模子的构建。通过将三维视觉任务融入视觉话语模子的预测验,咱们也能有用地兼容三维视觉与其它视觉任务,并将 VLM 的上风,及纯真性与泛化性从语义及二维视觉任务有用拓展至三维视觉,极猛经过进步模子的智力上限。

结语

VLM³ 的出现M6体育app2026世界杯(中国)官方app下载,初度买通了视觉话语模子与三维视觉之间的壁垒,使得长入的架构就疏忽简易地学会各样视觉任务,并达到巨匠模子的性能。这既是科研层面的里程碑,也为改日在本色系统中长入多模态推聪敏力提供了可能。咱们期待 VLM³ 后续在机器东说念主、自动驾驶、增强执行等场景中的落地哄骗。