<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>具身智能 on Umbrella Coffee</title><link>https://rubatotree.github.io/blog/tags/%E5%85%B7%E8%BA%AB%E6%99%BA%E8%83%BD/</link><description>Recent content in 具身智能 on Umbrella Coffee</description><image><title>Umbrella Coffee</title><url>https://rubatotree.github.io/blog/images/og-default.png</url><link>https://rubatotree.github.io/blog/images/og-default.png</link></image><generator>Hugo</generator><language>en-us</language><lastBuildDate>Sun, 07 Jun 2026 00:00:00 +0800</lastBuildDate><atom:link href="https://rubatotree.github.io/blog/tags/%E5%85%B7%E8%BA%AB%E6%99%BA%E8%83%BD/index.xml" rel="self" type="application/rss+xml"/><item><title>图形已死，all in AI具身 II: 机器人会梦到怎样的现实呢</title><link>https://rubatotree.github.io/blog/posts/embodied-notes-2/</link><pubDate>Sun, 07 Jun 2026 00:00:00 +0800</pubDate><guid>https://rubatotree.github.io/blog/posts/embodied-notes-2/</guid><description>&lt;p class="typst-parbreak"&gt;&lt;/p&gt;
&lt;div style="display: grid; place-items: start center;"&gt;
&lt;figure&gt;
&lt;div style="display: grid; place-items: start center;"&gt;&lt;img src="https://rubatotree.github.io/blog/images/embodied-notes-2/teaser.png" alt loading="lazy"&gt;&lt;/div&gt;
&lt;div style="display: grid; place-items: start center;"&gt;
&lt;figcaption&gt;图 1 玩音乐的最终归宿是转行具身智能。&lt;a id="loc-1" href="#loc-3" role="doc-biblioref"&gt;[1]&lt;/a&gt;&lt;/figcaption&gt;
&lt;/div&gt;
&lt;/figure&gt;
&lt;/div&gt;
&lt;p class="typst-parbreak"&gt;&lt;/p&gt;
&lt;p&gt;TODO&lt;/p&gt;
&lt;div class="toc" style="display: none"&gt;&lt;details&gt;&lt;summary&gt;Table of Contents&lt;/summary&gt;&lt;div&gt;&lt;nav role="doc-toc"&gt;&lt;ol style="list-style-type: none"&gt;&lt;li&gt;&lt;p&gt;&lt;/p&gt;&lt;ul&gt;&lt;li&gt;&lt;a href="#loc-2"&gt;References&lt;/a&gt;&lt;/li&gt;&lt;/ul&gt;&lt;p&gt;&lt;/p&gt;&lt;/li&gt;&lt;/ol&gt;&lt;/nav&gt;&lt;/div&gt;&lt;/details&gt;&lt;/div&gt;
&lt;section role="doc-bibliography"&gt;
&lt;h2 id="loc-2"&gt;References&lt;/h2&gt;
&lt;ul style="list-style-type: none"&gt;
&lt;li id="loc-3"&gt;&lt;span class="prefix"&gt;&lt;a href="#loc-1" role="doc-backlink"&gt;[1]&lt;/a&gt;&lt;/span&gt; 山下清悟, “超かぐや姫！.” [Online]. Available: &lt;a href="https://www.netflix.com/title/81756595" target="_blank" rel="noopener noreferrer"&gt;&lt;span style="color: #59a4ff;"&gt;&lt;span style="text-decoration: underline"&gt;https://www.netflix.com/title/81756595&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;span class="prefix"&gt;[2]&lt;/span&gt; J. Park and H. Kang, “RenderMem: Rendering as Spatial Memory Retrieval.” [Online]. Available: &lt;a href="https://arxiv.org/abs/2603.14669" target="_blank" rel="noopener noreferrer"&gt;&lt;span style="color: #59a4ff;"&gt;&lt;span style="text-decoration: underline"&gt;https://arxiv.org/abs/2603.14669&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;span class="prefix"&gt;[3]&lt;/span&gt; R. I. C. Muchacho and F. T. Pokorny, “Walk on Spheres for PDE-based Path Planning.” [Online]. Available: &lt;a href="https://arxiv.org/abs/2406.01713" target="_blank" rel="noopener noreferrer"&gt;&lt;span style="color: #59a4ff;"&gt;&lt;span style="text-decoration: underline"&gt;https://arxiv.org/abs/2406.01713&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;span class="prefix"&gt;[4]&lt;/span&gt; C. Jambon, M. S. Nabizadeh, and M. Konaković Luković, “Walk on Decomposed Subdomains: A Hybrid Monte Carlo–Deterministic Solver for Elliptic PDEs,” &lt;em&gt;ACM Trans. Graph.&lt;/em&gt;, vol. 45, no. 4, July 2026, doi: &lt;a href="https://doi.org/10.1145/3811340" target="_blank" rel="noopener noreferrer"&gt;&lt;span style="color: #59a4ff;"&gt;&lt;span style="text-decoration: underline"&gt;10.1145/3811340&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;.&lt;/li&gt;
&lt;li&gt;&lt;span class="prefix"&gt;[5]&lt;/span&gt; Heskey0, “具身智能 - 9 个方向讲透 2025-2026 灵巧手智能.” [Online]. Available: &lt;a href="https://zhuanlan.zhihu.com/p/2046746760459171551" target="_blank" rel="noopener noreferrer"&gt;&lt;span style="color: #59a4ff;"&gt;&lt;span style="text-decoration: underline"&gt;https://zhuanlan.zhihu.com/p/2046746760459171551&lt;/span&gt;&lt;/span&gt;&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/section&gt;</description></item><item><title>图形已死，all in AI具身 I: RoboSplat 论文阅读与杂谈</title><link>https://rubatotree.github.io/blog/posts/embodied-notes-1-robosplat/</link><pubDate>Thu, 04 Jun 2026 00:00:00 +0800</pubDate><guid>https://rubatotree.github.io/blog/posts/embodied-notes-1-robosplat/</guid><description>&lt;p&gt;这周组会上导师提到现在做 Rendering 已经很难有价值和影响力了，也很难找到好的课题，应该 all in 具身智能。感觉自己从一个转型阵痛期的组跳进了另一个转型阵痛期的组。不过转型是正确的，具身方向的确好发有影响力的论文，就业前景也比传统图形学好。虽然私心比较喜欢简洁优雅但没用的图形学，但确实应该现实一点。我们该思考一下怎样把已有的图形学、渲染经验搬到具身智能的应用上。&lt;/p&gt;
&lt;p&gt;组里同学分享的 RoboSplat &lt;a id="loc-1" href="#loc-10" role="doc-biblioref"&gt;[1]&lt;/a&gt; 一文确实相当契合 CG for embodied 的愿景，因此我们从这篇论文开始了解我们能够做什么。&lt;/p&gt;
&lt;h2 id="loc-2"&gt;论文概要&lt;/h2&gt;
&lt;p&gt;本文的目标是通过输入场景的多视角 RGB 图片和&lt;strong&gt;单次&lt;/strong&gt;示教样本（Expert Demonstration，人工操作机械臂完成一次任务，得到每帧的机械臂状态数据和单监督视角 RGB 图像序列）训练 VLA 模型泛化完成不同干扰场景下的同一任务。本文试图解决的干扰场景分为物体位姿移动(Object Pose)、监督相机移动(Camera View)、光照条件改变(Lighting)、物体种类改变(Object Type)、周边环境改变(Appearance)、机械臂外观改变(Cross Embodiment)六种。&lt;/p&gt;
&lt;p class="typst-parbreak"&gt;&lt;/p&gt;
&lt;div style="display: grid; place-items: start center;"&gt;
&lt;figure&gt;
&lt;div style="display: grid; place-items: start center;"&gt;&lt;img src="https://rubatotree.github.io/blog/images/embodied-notes-1-robosplat/robosplat-teaser.png" alt loading="lazy"&gt;&lt;/div&gt;
&lt;div style="display: grid; place-items: start center;"&gt;
&lt;figcaption&gt;图 1 论文 teaser，展示了 RoboSplat 的训练过程。&lt;/figcaption&gt;
&lt;/div&gt;
&lt;/figure&gt;
&lt;/div&gt;
&lt;p class="typst-parbreak"&gt;&lt;/p&gt;
&lt;p&gt;本文做到泛化的具体方法则是做&lt;strong&gt;数据增强&lt;/strong&gt;，从单次示教样本中根据这几种干扰情况生成上千条增强样本 (augmented demonstrations)。以往生成增强样本的思路是直接在 2D 图像空间做生成式编辑，而本文考虑将多视角图片训练成 3DGS 场景（并在语义上分离场景、物体、机械臂，给机械臂绑骨），去在 3DGS 场景中做编辑模拟这些干扰，再合成回样本图像序列。这样做的好处是保证了图像之间场景的一致性，且不会有抖动等情况出现，因此能准确指导 VLA 模型学习到正确的操作策略。&lt;/p&gt;
&lt;p&gt;本文对这几种任务做了测试：&lt;/p&gt;
&lt;p&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;
&lt;p&gt;Pick Object（抓取物体）：机械臂需要抓起放置在 30cm*40cm 范围桌面上的目标物体。&lt;/p&gt;
&lt;p&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;难点： 测试基本的空间 3D 定位与抓取能力。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;Close Drawer（关闭抽屉）：机械臂需要推关一个抽屉。抽屉的位置在 15cm*40cm 范围内随机变化，且抽屉在 Z 轴方向的旋转角度在 [-pi/8, pi/8] 之间随机偏转。&lt;/p&gt;</description></item></channel></rss>