具身智能

图 1 玩音乐的最终归宿是转行具身智能。[1] TODO Table of Contents References References [1] 山下清悟, “超かぐや姫！.” [Online]. Available: https://www.netflix.com/title/81756595 [2] J. Park and H. Kang, “RenderMem: Rendering as Spatial Memory Retrieval.” [Online]. Available: https://arxiv.org/abs/2603.14669 [3] R. I. C. Muchacho and F. T. Pokorny, “Walk on Spheres for PDE-based Path Planning.” [Online]. Available: https://arxiv.org/abs/2406.01713 [4] C. Jambon, M. S. Nabizadeh, and M. Konaković Luković, “Walk on Decomposed Subdomains: A Hybrid Monte Carlo–Deterministic Solver for Elliptic PDEs,” ACM Trans. Graph., vol. 45, no. 4, July 2026, doi: 10.1145/3811340. [5] Heskey0, “具身智能 - 9 个方向讲透 2025-2026 灵巧手智能.” [Online]. Available: https://zhuanlan.zhihu.com/p/2046746760459171551

这周组会上导师提到现在做 Rendering 已经很难有价值和影响力了，也很难找到好的课题，应该 all in 具身智能。感觉自己从一个转型阵痛期的组跳进了另一个转型阵痛期的组。不过转型是正确的，具身方向的确好发有影响力的论文，就业前景也比传统图形学好。虽然私心比较喜欢简洁优雅但没用的图形学，但确实应该现实一点。我们该思考一下怎样把已有的图形学、渲染经验搬到具身智能的应用上。组里同学分享的 RoboSplat [1] 一文确实相当契合 CG for embodied 的愿景，因此我们从这篇论文开始了解我们能够做什么。论文概要本文的目标是通过输入场景的多视角 RGB 图片和单次示教样本（Expert Demonstration，人工操作机械臂完成一次任务，得到每帧的机械臂状态数据和单监督视角 RGB 图像序列）训练 VLA 模型泛化完成不同干扰场景下的同一任务。本文试图解决的干扰场景分为物体位姿移动(Object Pose)、监督相机移动(Camera View)、光照条件改变(Lighting)、物体种类改变(Object Type)、周边环境改变(Appearance)、机械臂外观改变(Cross Embodiment)六种。图 1 论文 teaser，展示了 RoboSplat 的训练过程。本文做到泛化的具体方法则是做数据增强，从单次示教样本中根据这几种干扰情况生成上千条增强样本 (augmented demonstrations)。以往生成增强样本的思路是直接在 2D 图像空间做生成式编辑，而本文考虑将多视角图片训练成 3DGS 场景（并在语义上分离场景、物体、机械臂，给机械臂绑骨），去在 3DGS 场景中做编辑模拟这些干扰，再合成回样本图像序列。这样做的好处是保证了图像之间场景的一致性，且不会有抖动等情况出现，因此能准确指导 VLA 模型学习到正确的操作策略。本文对这几种任务做了测试： Pick Object（抓取物体）：机械臂需要抓起放置在 30cm*40cm 范围桌面上的目标物体。难点：测试基本的空间 3D 定位与抓取能力。 Close Drawer（关闭抽屉）：机械臂需要推关一个抽屉。抽屉的位置在 15cm*40cm 范围内随机变化，且抽屉在 Z 轴方向的旋转角度在 [-pi/8, pi/8] 之间随机偏转。 ...

图形已死，all in AI具身 II: 机器人会梦到怎样的现实呢

图形已死，all in AI具身 I: RoboSplat 论文阅读与杂谈