图形已死,all in AI具身 II: 机器人会梦到怎样的现实呢

图 1 玩音乐的最终归宿是转行具身智能。[1] TODO Table of Contents References References [1] 山下清悟, “超かぐや姫!.” [Online]. Available: https://www.netflix.com/title/81756595 [2] J. Park and H. Kang, “RenderMem: Rendering as Spatial Memory Retrieval.” [Online]. Available: https://arxiv.org/abs/2603.14669 [3] R. I. C. Muchacho and F. T. Pokorny, “Walk on Spheres for PDE-based Path Planning.” [Online]. Available: https://arxiv.org/abs/2406.01713 [4] C. Jambon, M. S. Nabizadeh, and M. Konaković Luković, “Walk on Decomposed Subdomains: A Hybrid Monte Carlo–Deterministic Solver for Elliptic PDEs,” ACM Trans. Graph., vol. 45, no. 4, July 2026, doi: 10.1145/3811340. [5] Heskey0, “具身智能 - 9 个方向讲透 2025-2026 灵巧手智能.” [Online]. Available: https://zhuanlan.zhihu.com/p/2046746760459171551

June 7, 2026 · 1 min

图形已死,all in AI具身 I: RoboSplat 论文阅读与杂谈

这周组会上导师提到现在做 Rendering 已经很难有价值和影响力了,也很难找到好的课题,应该 all in 具身智能。感觉自己从一个转型阵痛期的组跳进了另一个转型阵痛期的组。不过转型是正确的,具身方向的确好发有影响力的论文,就业前景也比传统图形学好。虽然私心比较喜欢简洁优雅但没用的图形学,但确实应该现实一点。我们该思考一下怎样把已有的图形学、渲染经验搬到具身智能的应用上。 组里同学分享的 RoboSplat [1] 一文确实相当契合 CG for embodied 的愿景,因此我们从这篇论文开始了解我们能够做什么。 论文概要 本文的目标是通过输入场景的多视角 RGB 图片和单次示教样本(Expert Demonstration,人工操作机械臂完成一次任务,得到每帧的机械臂状态数据和单监督视角 RGB 图像序列)训练 VLA 模型泛化完成不同干扰场景下的同一任务。本文试图解决的干扰场景分为物体位姿移动(Object Pose)、监督相机移动(Camera View)、光照条件改变(Lighting)、物体种类改变(Object Type)、周边环境改变(Appearance)、机械臂外观改变(Cross Embodiment)六种。 图 1 论文 teaser,展示了 RoboSplat 的训练过程。 本文做到泛化的具体方法则是做数据增强,从单次示教样本中根据这几种干扰情况生成上千条增强样本 (augmented demonstrations)。以往生成增强样本的思路是直接在 2D 图像空间做生成式编辑,而本文考虑将多视角图片训练成 3DGS 场景(并在语义上分离场景、物体、机械臂,给机械臂绑骨),去在 3DGS 场景中做编辑模拟这些干扰,再合成回样本图像序列。这样做的好处是保证了图像之间场景的一致性,且不会有抖动等情况出现,因此能准确指导 VLA 模型学习到正确的操作策略。 本文对这几种任务做了测试: Pick Object(抓取物体):机械臂需要抓起放置在 30cm*40cm 范围桌面上的目标物体。 难点: 测试基本的空间 3D 定位与抓取能力。 Close Drawer(关闭抽屉):机械臂需要推关一个抽屉。抽屉的位置在 15cm*40cm 范围内随机变化,且抽屉在 Z 轴方向的旋转角度在 [-pi/8, pi/8] 之间随机偏转。 ...

June 4, 2026 · 2 min