具身智能的今生与未来

中欧国际工商学院 合一讲堂(2025-11-29),由高岳教授主讲。系统解析具身智能(Embodied AI)的技术架构、数据瓶颈、商业化痛点及投资逻辑。

核心定义

具身智能是将多模态输入(视觉、语言、触觉)映射为机器人低维物理动作的VLA(Vision-Language-Action)模型。与传统生成式AI(低维输入→高维输出)相反,具身智能是超高维输入→低维输出,且面临严重的多解性问题。

两大技术流派

架构代表优势劣势
端到端Google Pi系列无模块间误差传递极度消耗数据,遇未见场景易崩溃
大小脑分层Figure AI、交大高频控制安全稳定系统复杂度高

大小脑分层架构:

  • 大脑(大语言模型):1-5 Hz,负责任务理解与拆解,云端运行
  • 小脑(运动控制):50-100 Hz,本地部署,强化学习保证不摔倒

大模型的低频响应(1Hz)无法挽救高频失稳(如踩空上楼梯),必须依赖本地高频”小脑”托底。

数据:最大瓶颈

成本

训练通用模型需1亿-10亿条高质量遥操数据。以人工采集(40美元/小时)计算,纯数据成本40亿-100亿美元

“鸡头现象”

Pi的机器人叠衣服时抓取失败后手部抽风式重复动作——因为数据集缺乏”失败后如何纠错”的样本。

关键发现

交大测试:1位懂算法的博士生采集1小时数据(含故意掉落、重新抓取等纠错动作),模型效果远好于5位本科生采集5小时的纯成功数据。边缘场景(Corner Case)数据才是决定算法成败的关键

仿真技术

仿真器特点局限
Isaac Sim / MuJoCoGPU并行加速,支持数千机器人同时训练把所有物体视为刚体,无法模拟软体操作
Genesis(下一代)开源,支持软体互动与4D渲染较新,生态尚在建设中

硬件关键设计

  • 7自由度:物理定位仅需6个,第7个用于避障时的姿态灵活性
  • 串联 vs 并联:串联控制简单但刚度低;并联(如人类小臂双骨)大幅提升刚度和精度
  • 驱动器标准化:特斯拉擎天柱优化至6种标准驱动器以利于量产

商业化现实

真场景

场景价值现状
教育(To-U)职校/大专采购,提升评级目前最大现金流来源
3C制造/汽车总装快速适应新品类螺丝安装有明确痛点和买单意愿
特种工业高空/消防/宇航等危险场景政策支持,但量小

伪需求

  • 养老:高净值客户更需真人服务,且安全隐患极大(机器跌倒/信号干扰起搏器)
  • 泛化通用:多为资本故事,尚无现金流

投资估值逻辑

Figure AI(估值390亿美元):单台机器人替代4个工人(7×24h),年劳动价值30万美元,收取9.1万美元订阅费,毛利90%。

宇树G1:广告价9.9万元(无灵巧手、仅手柄遥控),科研可用版实际约33万元

传统制造业切入建议

  1. 最优:与高校签项目合作(几百万),针对特定痛点定制预研
  2. 次优:高薪挖大牛组十人团队(年薪100-500万/人,但易冲击薪酬体系)
  3. 最差:出资与外部基金拼盘投资

相关页面

来源

  • raw/2025-11-29 中欧合一讲堂-具身智能的今生与未来.md