具身智能的今生与未来
中欧国际工商学院 合一讲堂(2025-11-29),由高岳教授主讲。系统解析具身智能(Embodied AI)的技术架构、数据瓶颈、商业化痛点及投资逻辑。
核心定义
具身智能是将多模态输入(视觉、语言、触觉)映射为机器人低维物理动作的VLA(Vision-Language-Action)模型。与传统生成式AI(低维输入→高维输出)相反,具身智能是超高维输入→低维输出,且面临严重的多解性问题。
两大技术流派
| 架构 | 代表 | 优势 | 劣势 |
|---|---|---|---|
| 端到端 | Google Pi系列 | 无模块间误差传递 | 极度消耗数据,遇未见场景易崩溃 |
| 大小脑分层 | Figure AI、交大 | 高频控制安全稳定 | 系统复杂度高 |
大小脑分层架构:
- 大脑(大语言模型):1-5 Hz,负责任务理解与拆解,云端运行
- 小脑(运动控制):50-100 Hz,本地部署,强化学习保证不摔倒
大模型的低频响应(1Hz)无法挽救高频失稳(如踩空上楼梯),必须依赖本地高频”小脑”托底。
数据:最大瓶颈
成本
训练通用模型需1亿-10亿条高质量遥操数据。以人工采集(40美元/小时)计算,纯数据成本40亿-100亿美元。
“鸡头现象”
Pi的机器人叠衣服时抓取失败后手部抽风式重复动作——因为数据集缺乏”失败后如何纠错”的样本。
关键发现
交大测试:1位懂算法的博士生采集1小时数据(含故意掉落、重新抓取等纠错动作),模型效果远好于5位本科生采集5小时的纯成功数据。边缘场景(Corner Case)数据才是决定算法成败的关键。
仿真技术
| 仿真器 | 特点 | 局限 |
|---|---|---|
| Isaac Sim / MuJoCo | GPU并行加速,支持数千机器人同时训练 | 把所有物体视为刚体,无法模拟软体操作 |
| Genesis(下一代) | 开源,支持软体互动与4D渲染 | 较新,生态尚在建设中 |
硬件关键设计
- 7自由度:物理定位仅需6个,第7个用于避障时的姿态灵活性
- 串联 vs 并联:串联控制简单但刚度低;并联(如人类小臂双骨)大幅提升刚度和精度
- 驱动器标准化:特斯拉擎天柱优化至6种标准驱动器以利于量产
商业化现实
真场景
| 场景 | 价值 | 现状 |
|---|---|---|
| 教育(To-U) | 职校/大专采购,提升评级 | 目前最大现金流来源 |
| 3C制造/汽车总装 | 快速适应新品类螺丝安装 | 有明确痛点和买单意愿 |
| 特种工业 | 高空/消防/宇航等危险场景 | 政策支持,但量小 |
伪需求
- 养老:高净值客户更需真人服务,且安全隐患极大(机器跌倒/信号干扰起搏器)
- 泛化通用:多为资本故事,尚无现金流
投资估值逻辑
Figure AI(估值390亿美元):单台机器人替代4个工人(7×24h),年劳动价值30万美元,收取9.1万美元订阅费,毛利90%。
宇树G1:广告价9.9万元(无灵巧手、仅手柄遥控),科研可用版实际约33万元。
传统制造业切入建议
- 最优:与高校签项目合作(几百万),针对特定痛点定制预研
- 次优:高薪挖大牛组十人团队(年薪100-500万/人,但易冲击薪酬体系)
- 最差:出资与外部基金拼盘投资
相关页面
来源
raw/2025-11-29 中欧合一讲堂-具身智能的今生与未来.md