图书简介:
第1章 具身智能概述 1
1.1 具身智能的内涵与重要性 1
1.1.1 具身智能的基本概念 2
1.1.2 具身智能的发展历程 3
1.1.3 与其他概念的区别与联系 4
1.2 具身智能系统的核心组成 7
1.2.1 具身智能中的感知 7
1.2.2 具身智能中的规划 8
1.2.3 具身智能中的操控 9
1.2.4 安全性与可靠性 9
1.3 具身智能产业现状与挑战 10
1.3.1 在新型农业领域的应用 10
1.3.2 在工业制造领域的应用 11
1.3.3 在新兴服务领域的应用 12
1.3.4 技术层面与应用层面的挑战 13
1.3.5 时代赋予的新机遇 15
第2章 具身智能基础技术 17
2.1 三维视觉概述 17
2.1.1 三维表达方式 17
2.1.2 NeRF技术 20
2.1.3 三维高斯泼溅 25
2.2 强化学习概述 31
2.2.1 什么是强化学习 31
2.2.2 价值学习 33
2.2.3 策略学习 43
2.2.4 模仿学习 46
2.3 大模型技术初探 49
2.3.1 大语言模型基本概念与架构 50
2.3.2 大语言模型核心训练技术 58
2.3.3 视觉与多模态基础模型 63
第3章 感知与环境理解 69
3.1 视觉感知 69
3.1.1 视觉传感器及其特性 70
3.1.2 三维物体检测与识别 71
3.1.3 三维视觉定位 78
3.1.4 物体位姿估计 86
3.1.5 物体可供性识别 95
3.2 触觉感知 103
3.2.1 触觉传感器及其特性 103
3.2.2 基于触觉的物体识别 104
3.2.3 基于触觉的滑移检测 105
3.3 听觉感知 106
3.3.1 听觉传感器及其特性 106
3.3.2 声音源定位技术 107
3.3.3 语音识别技术 108
3.3.4 语音分离技术 111
3.4 本体感知 113
3.4.1 本体感知传感器及其特性 113
3.4.2 本体运动控制 114
3.4.3 本体平衡维护 115
3.4.4 本体惯性导航 117
第4章 视觉增强的导航 118
4.1 视觉导航的基础 118
4.1.1 导航的基本概念 118
4.1.2 环境的表示方法 119
4.1.3 视觉导航的分类 122
4.1.4 挑战与机遇 124
4.2 视觉同步定位与建图 125
4.2.1 视觉SLAM的基本原理 125
4.2.2 端到端视觉SLAM 130
4.2.3 隐式生成视觉SLAM 132
4.2.4 动态环境中的视觉SLAM 135
4.3 基于多模态交互的导航 138
4.3.1 基于视觉—语言模型的导航 139
4.3.2 面向问答的导航 144
4.3.3 通过对话进行导航 146
4.4 面向复杂长程任务的导航 148
4.4.1 长程任务的数据获取与基准测试 149
4.4.2 面向长程任务的导航模型 151
第5章 视觉辅助的操控技术 155
5.1 具身操控任务概述 155
5.1.1 操控任务的基本概念156
5.1.2 仿真数据基准与评测158
5.1.3 真实场景数据集 163
5.1.4 统一标准的大规模具身数据集 168
5.2 用于具身操控的经典方案 171
5.2.1 基于自回归模型的方案 171
5.2.2 基于扩散模型的方案 175
5.3 基于预训练大模型的方法 180
5.3.1 视觉—语言—动作模型 181
5.3.2 多模态大模型+概率生成模型 186
5.4 基于世界模型的方法 188
5.4.1 世界模型的基本概念 189
5.4.2 基于隐式表达的方案 190
5.4.3 基于显式表达的方案 193
第6章 视觉驱动的任务规划 196
6.1 具身任务规划初探 196
6.1.1 任务规划的基本概念 197
6.1.2 基于技能库的增量式规划 199
6.1.3 基于交互反馈的闭环规划 202
6.2 面向复杂任务的规划与纠错 205
6.2.1 任务检索增强与重新规划 205
6.2.2 多任务依赖关系与优先级判定 208
6.3 基于空间智能的时空规划 213
6.3.1 空间智能的基本概念 213
6.3.2 基于时空限制的规划 215
第7章 多智能体交互 221
7.1 多智能体系统概述 221
7.1.1 多智能体系统的基本组件 222
7.1.2 多智能体系统的组织形式 223
7.1.3 多智能体系统任务执行 225
7.2 多智能体通信 226
7.2.1 通信的内容表示 227
7.2.2 通信的基础范式 229
7.3 多智能体协作 231
7.3.1 基于预训练大模型的方法 232
7.3.2 基于世界模型的方法 238
第8章 仿真平台入门 241
8.1 Isaac Sim概述 241
8.1.1 NVIDIA Omniverse 平台介绍 241
8.1.2 NVIDIA Isaac Sim 及其组件介绍 242
8.1.3 使用 Isaac Sim 进行机器人开发 244
8.2 Isaac Sim与Isaac Lab 的安装指南 245
8.2.1 Isaac Sim的安装流程 245
8.2.2 Isaac Lab 的安装流程 247
8.2.3 资产加载失败问题与解决方案 249
8.3 掌握CoreAPI:构建机械臂仿真环境实战指南 250
8.3.1 开发模式选择与介绍 250
8.3.2 使用Task类模块化仿真 256
8.3.3 使用控制器控制机器人 260
8.3.4 使用 Standalone 模式运行仿真 262
8.4 Isaac Sim 仿真与开发进阶 263
8.4.1 场景构建进阶:添加相机传感器 263
8.4.2 使用 Isaac Replicator 实现仿真数据生成 265
8.4.3 Isaac Sim与 ROS 结合进行仿真开发 270
参考文献 275
展开
如何实现具身智能呢?当前的研究主要分为三条路径。
第一条路径是延续以ChatGPT 为代表的“离身智能”的成功,使语言模型从“理解世界”走向“行动于世界”。第二条路径是突破人形机器人,以波士顿动力的Atlas、特斯拉的Optimus 为代表,打造通用的劳动力智能体。第三条路径以物联网“感—联—知—控”为核心,通过更细粒度、更高精度、更实时的感知与物理世界交互,从万物智联到智能涌现。
本书采用系统化的知识架构,共分为8章,内容编排遵循由浅入深、循序渐进的原则,旨在为读者构建具身智能领域的理论体系与实践方法的完整认知框架。
第1章作为导论部分,系统阐释了具身智能的概念内涵、理论构成、发展历程及应用场景,不仅为初学者提供了该领域的全景式认知图谱,也为后续的深入探讨奠定了基础。第2章聚焦具身智能的基础技术体系,重点介绍了三维空间表征、强化学习方法及大模型技术等核心内容。这些基础技术构成了当前具身智能相关算法的理论支柱,深入理解这些技术是把握后续内容的关键前提。第3章至第7章构成了本书的核心技术部分,分别从感知、导航、操控、规划与协作等五个维度,系统地介绍了具身智能的关键技术体系。各章不仅梳理了技术的发展演进脉络,还结合最新的研究进展,对当前的技术前沿进行了全面的阐述。通过对这些技术的细致剖析,读者不仅能建立对具身智能核心技术的系统性认知,还可深入思考其在实践应用中的潜在价值与现实挑战。第8章以实践为导向,重点探讨了具身智能在仿真平台中的实现路径。本章通过引入具体的案例,指导读者在仿真环境中实现从技术认知到实践应用的能力跃迁,并通过实践反哺核心技术的学习,完成学习闭环。
展开