图书详情

配套资源图书内容样章/电子教材图书评价

配套资源
本书资源

本书暂无资源
会员上传本书资源
为本书上传资源

图书内容

内容简介

本书共分为8章，内容编排遵循由浅入深、循序渐进的原则，旨在为读者构建具身智能领域的理论体系与实践方法的完整认知框架。第2章聚焦具身智能的基础技术体系，重点介绍三维空间表征、强化学习方法及大模型技术等核心内容。这些基础技术构成了当前具身智能相关算法的理论支柱，深入理解这些技术是把握后续内容的关键前提。第3章至第7章分别从感知、导航、操控、规划与协作等五个维度，系统地介绍了具身智能的关键技术体系。第8章以实践为导向，重点探讨了具身智能在仿真平台中的实现路径。

图书详情

ISBN：9787121502668

开本：16(185*235)

页数：296

字数：448

本书目录

第1章 具身智能概述 1 
1.1 具身智能的内涵与重要性 1 
1.1.1 具身智能的基本概念 2 
1.1.2 具身智能的发展历程 3 
1.1.3 与其他概念的区别与联系 4 
1.2 具身智能系统的核心组成 7 
1.2.1 具身智能中的感知 7 
1.2.2 具身智能中的规划 8 
1.2.3 具身智能中的操控 9 
1.2.4 安全性与可靠性 9 
1.3 具身智能产业现状与挑战 10 
1.3.1 在新型农业领域的应用 10 
1.3.2 在工业制造领域的应用 11 
1.3.3 在新兴服务领域的应用 12 
1.3.4 技术层面与应用层面的挑战 13 
1.3.5 时代赋予的新机遇 15 

第2章  具身智能基础技术 17 
2.1 三维视觉概述 17 
2.1.1 三维表达方式 17 
2.1.2 NeRF技术 20 
2.1.3 三维高斯泼溅 25 
2.2 强化学习概述 31 
2.2.1 什么是强化学习 31 
2.2.2 价值学习 33 
2.2.3 策略学习 43 
2.2.4 模仿学习 46 
2.3 大模型技术初探 49 
2.3.1 大语言模型基本概念与架构 50 
2.3.2 大语言模型核心训练技术 58 
2.3.3 视觉与多模态基础模型 63 

第3章   感知与环境理解 69 
3.1 视觉感知 69 
3.1.1 视觉传感器及其特性 70 
3.1.2 三维物体检测与识别 71 
3.1.3 三维视觉定位 78 
3.1.4 物体位姿估计 86 
3.1.5 物体可供性识别 95 
3.2 触觉感知 103 
3.2.1 触觉传感器及其特性 103 
3.2.2 基于触觉的物体识别 104 
3.2.3 基于触觉的滑移检测 105 
3.3 听觉感知 106 
3.3.1 听觉传感器及其特性 106 
3.3.2 声音源定位技术 107 
3.3.3 语音识别技术 108 
3.3.4 语音分离技术 111 
3.4 本体感知 113 
3.4.1 本体感知传感器及其特性 113 
3.4.2 本体运动控制 114 
3.4.3 本体平衡维护 115 
3.4.4 本体惯性导航  117 

第4章   视觉增强的导航  118 
4.1 视觉导航的基础 118 
4.1.1 导航的基本概念 118 
4.1.2 环境的表示方法 119 
4.1.3 视觉导航的分类 122 
4.1.4 挑战与机遇 124 
4.2 视觉同步定位与建图 125 
4.2.1 视觉SLAM的基本原理 125 
4.2.2 端到端视觉SLAM 130 
4.2.3 隐式生成视觉SLAM 132 
4.2.4 动态环境中的视觉SLAM 135 
4.3 基于多模态交互的导航 138 
4.3.1 基于视觉—语言模型的导航 139 
4.3.2 面向问答的导航 144 
4.3.3 通过对话进行导航 146 
4.4 面向复杂长程任务的导航 148 
4.4.1 长程任务的数据获取与基准测试 149 
4.4.2 面向长程任务的导航模型 151 

第5章   视觉辅助的操控技术 155 
5.1 具身操控任务概述 155 
5.1.1 操控任务的基本概念156 
5.1.2 仿真数据基准与评测158 
5.1.3 真实场景数据集 163 
5.1.4 统一标准的大规模具身数据集 168 
5.2 用于具身操控的经典方案 171 
5.2.1 基于自回归模型的方案 171 
5.2.2 基于扩散模型的方案 175 
5.3 基于预训练大模型的方法 180 
5.3.1 视觉—语言—动作模型 181 
5.3.2 多模态大模型+概率生成模型 186 
5.4 基于世界模型的方法 188 
5.4.1 世界模型的基本概念 189 
5.4.2 基于隐式表达的方案 190 
5.4.3 基于显式表达的方案 193 

第6章   视觉驱动的任务规划 196 
6.1 具身任务规划初探 196 
6.1.1 任务规划的基本概念 197 
6.1.2 基于技能库的增量式规划 199 
6.1.3 基于交互反馈的闭环规划 202 
6.2 面向复杂任务的规划与纠错 205 
6.2.1 任务检索增强与重新规划 205 
6.2.2 多任务依赖关系与优先级判定 208 
6.3 基于空间智能的时空规划 213 
6.3.1 空间智能的基本概念 213 
6.3.2 基于时空限制的规划 215

第7章   多智能体交互 221 
7.1 多智能体系统概述 221 
7.1.1 多智能体系统的基本组件 222 
7.1.2 多智能体系统的组织形式 223 
7.1.3 多智能体系统任务执行 225
7.2 多智能体通信 226 
7.2.1 通信的内容表示 227 
7.2.2 通信的基础范式 229 
7.3 多智能体协作 231 
7.3.1 基于预训练大模型的方法 232 
7.3.2 基于世界模型的方法 238 

第8章  仿真平台入门  241 
8.1 Isaac Sim概述 241 
8.1.1 NVIDIA Omniverse 平台介绍 241 
8.1.2 NVIDIA Isaac Sim 及其组件介绍 242 
8.1.3 使用 Isaac Sim 进行机器人开发 244 
8.2 Isaac Sim与Isaac Lab 的安装指南 245 
8.2.1 Isaac Sim的安装流程 245 
8.2.2 Isaac Lab 的安装流程 247 
8.2.3 资产加载失败问题与解决方案 249 
8.3 掌握CoreAPI：构建机械臂仿真环境实战指南 250 
8.3.1 开发模式选择与介绍 250 
8.3.2 使用Task类模块化仿真 256 
8.3.3 使用控制器控制机器人 260 
8.3.4 使用 Standalone 模式运行仿真 262 
8.4 Isaac Sim 仿真与开发进阶 263 
8.4.1 场景构建进阶：添加相机传感器 263 
8.4.2 使用 Isaac Replicator 实现仿真数据生成 265 
8.4.3 Isaac Sim与 ROS 结合进行仿真开发 270 
参考文献 275

展开

前言

如何实现具身智能呢？当前的研究主要分为三条路径。
第一条路径是延续以ChatGPT 为代表的“离身智能”的成功，使语言模型从“理解世界”走向“行动于世界”。第二条路径是突破人形机器人，以波士顿动力的Atlas、特斯拉的Optimus 为代表，打造通用的劳动力智能体。第三条路径以物联网“感—联—知—控”为核心，通过更细粒度、更高精度、更实时的感知与物理世界交互，从万物智联到智能涌现。

本书采用系统化的知识架构，共分为8章，内容编排遵循由浅入深、循序渐进的原则，旨在为读者构建具身智能领域的理论体系与实践方法的完整认知框架。
第1章作为导论部分，系统阐释了具身智能的概念内涵、理论构成、发展历程及应用场景，不仅为初学者提供了该领域的全景式认知图谱，也为后续的深入探讨奠定了基础。第2章聚焦具身智能的基础技术体系，重点介绍了三维空间表征、强化学习方法及大模型技术等核心内容。这些基础技术构成了当前具身智能相关算法的理论支柱，深入理解这些技术是把握后续内容的关键前提。第3章至第7章构成了本书的核心技术部分，分别从感知、导航、操控、规划与协作等五个维度，系统地介绍了具身智能的关键技术体系。各章不仅梳理了技术的发展演进脉络，还结合最新的研究进展，对当前的技术前沿进行了全面的阐述。通过对这些技术的细致剖析，读者不仅能建立对具身智能核心技术的系统性认知，还可深入思考其在实践应用中的潜在价值与现实挑战。第8章以实践为导向，重点探讨了具身智能在仿真平台中的实现路径。本章通过引入具体的案例，指导读者在仿真环境中实现从技术认知到实践应用的能力跃迁，并通过实践反哺核心技术的学习，完成学习闭环。

展开

作者简介

林倞，人工智能领域国际著名学者（IEEE Fellow、IAPR Fellow、IET Fellow）、鹏城国家实验室多智能体与具身智能研究所所长、中山大学二级教授、国家杰出青年科学基金获得者、国家人工智能重大专项首席科学家，在多模态表征学习、因果推断、具身智能等领域有一系列突破创新成果。截至2024年10月，发表论文400余篇，论文被引用4万余次（谷歌学术统计），获得最佳论文奖5次。获黑龙江省自然科学一等奖、吴文俊人工智能奖（自然科学类）、中国图象图形学会科学技术奖一等奖等荣誉，指导学生获得CCF优秀博士论文奖、ACM China优秀博士论文奖及CAAI优秀博士论文奖。曾任商汤科技研究院执行院长，孵化新一代人工智能领军企业拓元智慧。带领团队坚持产学研结合的科技创新思路，聚焦于打造感知、规划、执行一体化的具身通用大模型。张瑞茂，中山大学电子与通信工程学院副教授、博士生导师，深圳市海外高层次人才。研究方向集中于计算机视觉、机器人视觉、多模态大模型等领域。所指导的课题组近年来的核心目标是研发“能够在动态环境中与人进行有效交互的具身智能体”。截至2025年4月，在人工智能领域的期刊和会议上发表论文70余篇，论文被引用 7000 余次（谷歌学术统计），授权中国/美国发明专利10余项。作为核心成员参加谷歌视频分析挑战赛并获得金牌，参加AIM可学习图像处理挑战赛并获得冠军。先后主持、参与国家自然科学基金、科技部重点研发、广东省自然科学基金等项目，并与华为、腾讯、商汤、蔚来等知名企业保持长期合作关系。吴贺丰，中山大学副教授，致力于视觉理解、多模态学习、具身智能、智能体交互等人工智能领域的科学研究与应用实践，在IEEE T-PAMI、CVPR、AAAI等国际重要期刊和会议上发表论文60余篇，主持国家重点项目课题、多项国家自然科学基金项目，授权中国发明专利10余项。获得广东省计算机学会优秀论文一等奖，入选广州市珠江科技新星。

样章试读

本书暂无样章试读！
图书评价我要评论

本书资源

会员上传本书资源

内容简介

图书详情

本书目录

前 言

作者简介

前言