从Sharpa近期的灵巧手Demo讲起,无论是CES上翻扑克牌、折风车,还是在春晚盘核桃,在GTC大会期间削苹果,这些Demo代表灵巧手第一次展示了够胜任精细的以及长步骤任务,这是具身智能在灵巧操作上的里程碑时刻。
探讨灵巧手在硬件上的不同路线,包括直驱代表的Sharpa Wave,腱绳方案代表的特斯拉 Optimus,代表了两种“第一性原理”。
梳理了具身智能行业正在发生的几个关键趋势。NVIDIA、Google DeepMind、Disney Research 联合开发的Newton物理引擎和NVIDIA Cosmos带来的合成数据与虚拟世界仿真;从EgoScale论文中看到的两万小时第一视角数据带来的Scaling Law迹象;具备视频预测能力的世界模型,如DreamDojo实现了一分钟的长程任务;还有SONIC同样展现了运动控制领域Scaling Law的曙光。
在模型架构上,剖析了Sharpa的CraftNet三层系统,从System 2的语言意识层,到System 1的视觉动作层,再到System 0的触觉手感层,以及世界模型、VLA的路线之争,最后讨论了NVIDIA三台计算机(训练—仿真—推理),展望触觉作为新模态、分层预训练推动灵巧操作走向通用泛化潜力。
03:00 从盘核桃到装显卡:这些 Demo 到底有多难?
对于人来说简单的事情,对于机器反而是难的——就像人的 DNA 里携带了预训练的模型,机器人得完全从零做起。——朱雪洲 灵巧操作三个难度级:搬运物体(夹爪能干)→ 两个物体精确配合(插 USB、发扑克牌)→ 改变物体形态(折纸风车、削苹果)。
Sharpa 的长程任务能力是亮点:不是完成一个原子动作,是把很多复杂步骤串起来。
触觉决定下限:带触觉的机器手展会成功率超 90%,观众现场拍打干扰也能找补回来;失去触觉后成功率直接暴跌到 20% 以下。
11:30 为什么夹爪不够用?一把刀就能说明问题
人要用好一个刀,你要握持,甚至拿一个手指抵住刀背——夹爪夹住刀是两点受力,那个刀是不稳定的。——朱雪洲 宇树 G1 全身 23 自由度(无灵巧手),Sharpa 单手就 22 自由度——手的复杂度约等于一整个机器人。
夹爪的致命短板:早期训练勉强够用,中后期发现姿势空间太窄,面对极其日常的场景直接束手无策。
人类世界的工具都是为五指手设计的:吸尘器要握手柄还要抠扳机,电动工具同理。夹爪的两点受力根本 hold 不住。
反直觉的训练困境:自由度少的夹爪,可行姿势空间反而太窄,训练中后期发现大量场景不适配,还得从头来。
为什么是五指,而不是四指?
特斯拉等车企坚持在工厂部署灵巧手,其最终目标并非仅限于造车,而是为了打造能胜任各种场景的通用机器人。
17:45 从OpenAI在18年的的灵巧手研究开始,谈行业的痛点
当我们在谈 scale 的时候,其实我们谈的在机器人这个领域往往是多个不同角度的scale,它包括任务的scale、数据的scale、模型规模 的scale、计算规模的scale。——Juana OpenAI的解魔方强化学习尝试:没有泛化、没有触觉
NVIDIA的三台计算机加速机器人开发和基础模型构建
第一代硬件:手动力密度比强健人手差 2-3 倍,"两指做俯卧撑"级别的极限指力还做不到;具备触觉能力
模型和数据还在追求 scaling law
28:00 灵巧手Know how:直驱 vs 腱绳-特斯拉跳票的卡点在哪?
全腱绳也不是真正仿生——人手内部有不少小肌肉群是直驱的。——朱雪洲 Sharpa 选直驱:22 个自由度全集成在手掌内,和人手 1:1 尺寸,客户不用绑定特定小臂,灵活拼装。代价是手略重,但有明确的轻量化路径。
特斯拉选双腱绳:电机放小臂、手部成本低、空间大,但一堆腱绳挤满管道,任何一根出问题就得"把手整个破开来换筋"。
最终形态可能融合——力量型大肌肉放小臂(腱绳),精细小肌肉留手内(直驱),就像人手本来的结构。
1:1的重要性,好采集数据
为什么不是六指?无法采集数据
在仿真里做数据采集,适配硬件和环境的快速迭代
42:40 CraftNet 的架构:首个三分层的模型
一旦接触上物体,你就没有必要视觉上一直盯着看了,这个时候触觉本体已经 take over 了。——朱雪洲 System 2(10B,~1Hz):语言推理层——"今晚做番茄炒蛋,先去冰箱看看有没有鸡蛋"。直接用现有大语言模型,不自研。
System 1(1B,~10Hz):视觉主导——看冰箱在哪、引导手伸过去抓。用互联网第一人称视频预训练。
System 0(0.1B,~100Hz):触觉+本体觉——抓到鸡蛋那一刻视觉就退后,手感接管。用 NVIDIA 仿真环境的合成数据预训练。
三层异步运行、各有主模态,分层的好处:每层单独预训练更高效,数据需求不冲突,避免模态间"互相打架"。
51:00 数据金字塔:仿真练手感,视频练眼力,真机做对齐
在真实世界里去做改变是比较困难的,但在仿真里它就非常容易 scale。——Juana 底层(海量、便宜、gap 大):YouTube 等互联网视频,训 System 1 的视觉理解。
中层(可控、可 scale):Newton 仿真引擎合成触觉数据,训 System 0 的手感;Cosmos 系列做风格迁移(Transfer)、未来帧预测(Predict)、洞察推理(Reason)。
顶层(稀缺、贵、gap 小):真机数据,用来把 System 0 和 1 级联在一起端到端调优。
仿真对触觉数据特别合适:真实世界的触觉动捕设备(手套)噪声大、retargeting 难,仿真引擎天生擅长力学建模。
解决遥操的问题,有希望实现远程操作
1:06:15 Scaling Law 的曙光:上万小时的第一人称视频
EgoScale:2 万小时第一人称视频训练 GR00T,成功率随数据量呈近对数关系上升,且"还没撞墙"——20 万小时会不会出现 transformer 时刻?
DreamDojo:4 万小时第一人称视频走世界模型路线,蒸馏到机器人后能做连续 1 分钟长程任务。
第一人称数据为什么重要:当前视觉 backbone 缺乏 3D 空间转换能力,第一人称和机器人视角直接对应,省掉了"第三人称到第一人称"的转换。
Thomas 的脑洞:短视频平台上的第一人称视频(手一直出现在画面里)、开箱博主桌面视角,说不定是下一个金矿。
1:11:20 世界模型 vs VLA:形似但"灵魂还没到"
今天 VLA 可能有点形似,但灵魂层面还没有真理解世界。一个更好的 VLA 本质就是一个基于世界模型的 VLA。——朱雪洲 VLA(Vision-Language-Action):视觉+语言输入→直接输出动作。主流范式,但内部不一定真懂物理因果。
世界模型:学习"做什么动作→世界状态怎么变"的因果律。不一定要生成像素级视频,可以是更抽象的物理状态预测。
NVIDIA 两条路都在推:GR00T系列走 VLA 迭代,DreamDojo 走世界模型探索。
1:22:20 模型的协同、运行性能、算力需求
如果让医生把人的手做一个全麻,就是你完全感知不到手上末端信号,然后在这种情况下去做一些手部的操作,很多时候你就会发现你很难完成你原本以为很简单的任务。——Juana 三层模型的协同
基于NVIDIA Blackwell架构的Jetson Thor支持端侧同时运行多任务(硬件分割能力)
非分层模型的道路:GR00T的教师模型,蒸馏一个学生的policy
Newton:用GPU加速版本的Mujoco,迪士尼机器人“沙地行走”场景
商业化路径:"先把产品形态做对"是 Sharpa 的核心逻辑:高自由度+触觉+1:1 人手比例,决定了产品能不能在市场存活,价格问题交给起量后的自然下降。
人物:
Juana Du - NVIDIA 机器人解决方案架构师
朱雪洲(Tom) - Sharpa 研究副总裁
托马斯白 - “脑放电波”主播,消费电子营销人,科技媒体特约作者
Nixon - ”脑放电波“主播,硬件产品经理,前媒体记者
剪辑制作:Jeff
欢迎订阅脑放电波,2024/25苹果播客周度推荐节目、小宇宙累计12次编辑推荐单集、2024CPA播客中文奖年度科技数码类播客
欢迎在评论区留言发表你对 灵巧操作、具身智能Scaling Law 的感受与看法
对于节目话题的更多观点,获取更多未呈现在节目中的扩展阅读,欢迎添加脑放电波小助手微信(BrainAMP01),附言“灵巧手”,加群参与讨论,后续会发布本期节目的文字稿
参考内容
1. 物理AI核心技术与平台
Cosmos:NVIDIA 面向物理 AI 的世界基础模型开放平台。
推理 VLA (Reasoning Vision-Language-Action):融合视觉、语言与动作生成的逐步推理 AI 模型。
三台计算机 (Three Computers for Robotics):NVIDIA 为物理 AI 提出的训练、仿真、部署三层计算架构。
Isaac GR00T:NVIDIA 面向人形机器人的通用基础模型研发平台。
Isaac Sim / Isaac Lab:机器人仿真与合成数据生成框架及其配套强化学习框架。
Newton 物理仿真引擎:NVIDIA、Google DeepMind、Disney Research 联合开发的开源 GPU 物理引擎。
2. 前沿机器人论文
DreamDojo:在 4.4 万小时人类第一人称视频上预训练的通用机器人世界模型。
EgoScale:利用人类第一人称数据训练 VLA 模型、提升灵巧操作能力的框架。
DreamZero(GR00T N2 基础研究):基于视频扩散模型的世界-动作模型,具备强大的零样本泛化能力。
SONIC:NVIDIA 在运动控制上的 scaling law 研究,展示了数据、模型和算力规模化的效果
TacMap:高保真触觉仿真框架,行业内唯一可大规模商用的触觉仿真方案,NVIDIA 与 Sharpa 合作开发
3. 灵巧手与机器人公司
SharpaWave 灵巧手:Sharpa 首款产品,22 个主动自由度、尺寸与人手高度匹配。
CraftNet (VTLA 模型):Sharpa 的端到端分层视觉-触觉-语言-动作模型。
Sharpa North 机器人:Sharpa 在 CES 2026 推出的首款自主全尺寸人形机器人。
OpenAI 机械手解魔方 (2019):证明仿真训练的神经网络可控制真实灵巧手单手还原魔方的里程碑研究。
4. 经典 Demo 视频(Sharpa 官方)
GTC 2026:组装电脑:Sharpa North 自主将 GPU 精准插入主板 PCIe 插槽。
削苹果:机器人双手协调配合触觉反馈完成削苹果皮。
转网球:对比有无触觉系统辅助下灵巧手旋转网球的效果。
CES 2026:打乒乓球与折风车:0.02 秒反应时间的乒乓球对打及纸风车折叠长程任务。
CES 2026:综合展示(含 BlackJack 发牌):Sharpa 在 CES 展台的多项互动演示,含 21 点荷官发牌。
5.软件架构和其他技术名词
Sharpa在GTC 2026大会上的技术分享回放
CraftNet:Sharpa 的分层模型架构,包含三个系统:
System 2(10B 模型,1Hz):语言推理大脑
System 1(1B 模型,10Hz):视觉运动大脑
System 0(0.1B 模型,100Hz):触觉交互大脑
Egocentric Data(第一人称数据):从机器人或人类第一视角采集的数据,对训练最有价值
Sim-to-Real:从仿真到现实的迁移,是具身智能的关键挑战
节目中用到的音乐:来自monkeyman535的90's Rock Style,地址freesound.org;来自kjartan_abel的Berlin Town,地址freesound.org;基于 CC BY 4.0 DEED 使用。