具身智能的今生与未来

中欧国际工商学院合一讲堂（2025-11-29），由高岳教授主讲。系统解析具身智能（Embodied AI）的技术架构、数据瓶颈、商业化痛点及投资逻辑。

核心定义

具身智能是将多模态输入（视觉、语言、触觉）映射为机器人低维物理动作的VLA（Vision-Language-Action）模型。与传统生成式AI（低维输入→高维输出）相反，具身智能是超高维输入→低维输出，且面临严重的多解性问题。

两大技术流派

架构	代表	优势	劣势
端到端	Google Pi系列	无模块间误差传递	极度消耗数据，遇未见场景易崩溃
大小脑分层	Figure AI、交大	高频控制安全稳定	系统复杂度高

大小脑分层架构：

大脑（大语言模型）：1-5 Hz，负责任务理解与拆解，云端运行
小脑（运动控制）：50-100 Hz，本地部署，强化学习保证不摔倒

大模型的低频响应（1Hz）无法挽救高频失稳（如踩空上楼梯），必须依赖本地高频”小脑”托底。

数据：最大瓶颈

成本

训练通用模型需1亿-10亿条高质量遥操数据。以人工采集（40美元/小时）计算，纯数据成本40亿-100亿美元。

“鸡头现象”

Pi的机器人叠衣服时抓取失败后手部抽风式重复动作——因为数据集缺乏”失败后如何纠错”的样本。

关键发现

交大测试：1位懂算法的博士生采集1小时数据（含故意掉落、重新抓取等纠错动作），模型效果远好于5位本科生采集5小时的纯成功数据。边缘场景（Corner Case）数据才是决定算法成败的关键。

仿真技术

仿真器	特点	局限
Isaac Sim / MuJoCo	GPU并行加速，支持数千机器人同时训练	把所有物体视为刚体，无法模拟软体操作
Genesis（下一代）	开源，支持软体互动与4D渲染	较新，生态尚在建设中

硬件关键设计

7自由度：物理定位仅需6个，第7个用于避障时的姿态灵活性
串联 vs 并联：串联控制简单但刚度低；并联（如人类小臂双骨）大幅提升刚度和精度
驱动器标准化：特斯拉擎天柱优化至6种标准驱动器以利于量产

商业化现实

真场景

场景	价值	现状
教育（To-U）	职校/大专采购，提升评级	目前最大现金流来源
3C制造/汽车总装	快速适应新品类螺丝安装	有明确痛点和买单意愿
特种工业	高空/消防/宇航等危险场景	政策支持，但量小

伪需求

养老：高净值客户更需真人服务，且安全隐患极大（机器跌倒/信号干扰起搏器）
泛化通用：多为资本故事，尚无现金流

投资估值逻辑

Figure AI（估值390亿美元）：单台机器人替代4个工人（7×24h），年劳动价值30万美元，收取9.1万美元订阅费，毛利90%。

宇树G1：广告价9.9万元（无灵巧手、仅手柄遥控），科研可用版实际约33万元。

传统制造业切入建议

最优：与高校签项目合作（几百万），针对特定痛点定制预研
次优：高薪挖大牛组十人团队（年薪100-500万/人，但易冲击薪酬体系）
最差：出资与外部基金拼盘投资

来源

raw/2025-11-29 中欧合一讲堂-具身智能的今生与未来.md

CEIBS EMBA Wiki

Courses

Professors

Others

具身智能的今生与未来

具身智能的今生与未来

核心定义

两大技术流派

数据：最大瓶颈

成本

“鸡头现象”

关键发现

仿真技术

硬件关键设计

商业化现实

真场景

伪需求

投资估值逻辑

传统制造业切入建议

相关页面

来源

Graph View

Table of Contents

Backlinks