图形已死,all in AI具身 I: RoboSplat 论文阅读与杂谈

这周组会上导师提到现在做 Rendering 已经很难有价值和影响力了,也很难找到好的课题,应该 all in 具身智能。感觉自己从一个转型阵痛期的组跳进了另一个转型阵痛期的组。不过转型是正确的,具身方向的确好发有影响力的论文,就业前景也比传统图形学好。虽然私心比较喜欢简洁优雅但没用的图形学,但确实应该现实一点。我们该思考一下怎样把已有的图形学、渲染经验搬到具身智能的应用上。 组里同学分享的 RoboSplat [1] 一文确实相当契合 CG for embodied 的愿景,因此我们从这篇论文开始了解我们能够做什么。 论文概要 本文的目标是通过输入场景的多视角 RGB 图片和单次示教样本(Expert Demonstration,人工操作机械臂完成一次任务,得到每帧的机械臂状态数据和单监督视角 RGB 图像序列)训练 VLA 模型泛化完成不同干扰场景下的同一任务。本文试图解决的干扰场景分为物体位姿移动(Object Pose)、监督相机移动(Camera View)、光照条件改变(Lighting)、物体种类改变(Object Type)、周边环境改变(Appearance)、机械臂外观改变(Cross Embodiment)六种。 图 1 论文 teaser,展示了 RoboSplat 的训练过程。 本文做到泛化的具体方法则是做数据增强,从单次示教样本中根据这几种干扰情况生成上千条增强样本 (augmented demonstrations)。以往生成增强样本的思路是直接在 2D 图像空间做生成式编辑,而本文考虑将多视角图片训练成 3DGS 场景(并在语义上分离场景、物体、机械臂,给机械臂绑骨),去在 3DGS 场景中做编辑模拟这些干扰,再合成回样本图像序列。这样做的好处是保证了图像之间场景的一致性,且不会有抖动等情况出现,因此能准确指导 VLA 模型学习到正确的操作策略。 本文对这几种任务做了测试: Pick Object(抓取物体):机械臂需要抓起放置在 30cm*40cm 范围桌面上的目标物体。 难点: 测试基本的空间 3D 定位与抓取能力。 Close Drawer(关闭抽屉):机械臂需要推关一个抽屉。抽屉的位置在 15cm*40cm 范围内随机变化,且抽屉在 Z 轴方向的旋转角度在 [-pi/8, pi/8] 之间随机偏转。 ...

June 4, 2026 · 2 min

SIGGRAPH 2026 论文笔记 I: 3D Gaussians

写一些笔记记录一下领域的最新进展。会持续更新,主页的 blog 发表日期仅供参考~ 1. 正向渲染加速 Gaussian Point Splatting [1] [Project] 本文用蒙特卡洛方法代替深度排序,加速了超大 3DGS 场景在 GPU 上的正向渲染过程。目前仅支持正向渲染。 本文注意到单个 Gaussian Splat 到屏幕空间的行为可以等价于在屏幕空间上按一个 Gaussian 分布放回采样 个点的结果的期望( 和 Gaussian 的参数相关)。而一系列 Gaussians 做 Alpha Blending 的行为可以等价于,对每个 Gaussian 采样 个点,然后对每个像素取深度上最靠前的点 作为 Splat 结果的无偏估计值。 ...

May 27, 2026 · 5 min