新書推薦:

《
世界在前进
》
售價:HK$
380

《
文以载道:唐宋四大家的道论与文学
》
售價:HK$
413

《
高句丽史
》
售價:HK$
858

《
随他们去:别把精力浪费在无法掌控的事情上
》
售價:HK$
380

《
聊斋志异:2025全新插图珍藏白话版(全4册)
》
售價:HK$
2745

《
史记的文化发掘:中国早期史学的人类学探索
》
售價:HK$
930

《
风起红楼:百年讹缘探秘
》
售價:HK$
1034

《
跑外卖:一个女骑手的世界
》
售價:HK$
319
|
| 編輯推薦: |
|
《具身智能:从理论到实践》是一本系统且实用的技术指南,深入探讨了具身智能这一前沿领域的核心理论与实际应用。通过覆盖多传感器融合、ROS2平台、机器人运动规划与控制、以及机器学习与关键算法的部署优化,《具身智能:从理论到实践》为读者提供了从入门到精通的全流程指导。不仅适合科研人员、工程师和开发者,也为高年级本科生和研究生提供了理论与实践相结合的学习路径。书中丰富的案例与仿真实践,使读者能更好地将技术应用于实际项目,助力掌握未来智能科技的关键技术。
|
| 內容簡介: |
|
”《具身智能:从理论到实践》聚焦人工智能前沿的具身智能领域,以“理论奠基-技术解析-实践应用”为主线,系统阐述相关内容。《具身智能:从理论到实践》共8章,构建了从基础概念到工程应用的完整知识体系。开篇介绍人工智能发展脉络,引出具身智能的概念,并明确其定义等关键内容。接着通过采摘福白菊的实例,剖析传统机械臂控制方法及局限。随后深入探讨VLA原理、SLAM技术、机器人感知与自主定位技术、视觉语言导航技术等核心要点,并详细介绍相关算法和模型。书中着重展示VLA技术于实体机械臂上的应用实践,同时详细讲解VLN的具体代码,涵盖算法原理与实现过程等内容。 全书融合理论推导与代码实践,既有学术深度,又具工程实用性,适合人工智能研究者、工程师及爱好者阅读,为具身智能技术的研发与应用创新提供全面参考。”
|
| 關於作者: |
易显维
中国地质大学硕士,拥有13年算法研发及管理经验。曾任科大讯飞、北京百分点科技和中国建设银行的算法专家。在数据竞赛、机器视觉和自然语言处理等领域具有丰富经验,为公司技术研发和业务拓展作出了巨大贡献。主导了多项NLP平台和机器人产品的研发,并参与了国内外多个学术评测和算法竞赛,取得了优异成绩。
吴 凯
中国科学院大学博士,国防科技大学博士后,高级工程师。博士期间参与“嫦娥三号”工程中月球车制图与视觉导航核心算法模块的研发,博士后期间负责国防领域的无人机图像测量与视觉导航系统的关键技术研究,并开发一整套无人机视觉巡查实时应用系统。出站后作为资深研究员加入智驾领域知名科创企业,长期负责智能驾驶领域多传感器融合感知、低成本建图定位、自主导航算法自研及工程化落地,曾获测绘科技进步一等奖,已申请多项智驾核心技术专利。
|
| 目錄:
|
目 录
第1章 序章 1
1.1 创作背景:人工智能的范式跃迁 1
1.2 具身智能:打破虚拟与现实的次元壁 4
1.3 大模型与物理世界的融合革命 8
1.4 具身智能的定义与范畴 10
1.5 具身智能的关键问题 11
1.6 本章小结 12
第2章 传统机械臂控制实例 13
2.1 目标检测模型的数据集构建和模型训练 14
2.1.1 数据集构建及数据预处理 14
2.1.2 模型训练 15
2.1.3 模型优化与调整 15
2.1.4 实际应用与效果评估 15
2.2 构建坐标系,获取深度信息 16
2.2.1 构建世界坐标系 16
2.2.2 模型的拟合与建立 16
2.3 机械臂控制实现 19
2.3.1 坐标系的建立与标定 19
2.3.2 坐标转换—世界坐标到机械臂基坐标的转换 19
2.3.3 求解机械臂关节需转动角度 20
2.3.4 轨迹规划—生成关节空间轨迹 21
2.3.5 控制实现 22
2.4 核心代码讲解 22
2.5 本章小结 28
第3章 VLA(视觉-语言-动作)原理 29
3.1 视觉-语言-动作发展范式 30
3.1.1 传统系统的模态割裂 30
3.1.2 VLA范式—从割裂到融合的跨越 31
3.1.3 VLA的核心价值—具身智能的落地实践 31
3.2 隐式端到端VLA 31
3.2.1 基础模块介绍 32
3.2.2 方案分类 36
3.2.3 RT-1算法详解 39
3.3 显式端到端VLA 42
3.3.1 显式端到端VLA的定义 43
3.3.2 UniPi:开山之作 43
3.4 分层端到端VLA 48
3.4.1 分层端到端VLA的举例说明 49
3.4.2 Pi0-CogACT算法详解 50
3.5 本章小结 55
第4章 SLAM基础原理简介 56
4.1 视觉里程计原理 57
4.1.1 2D-3D:对极几何 58
4.1.2 八点法求解本质矩阵 60
4.1.3 3D-2D:PnP 61
4.1.4 3D-3D匹配:ICP 65
4.2 后端状态估计与累计误差 67
4.2.1 线性系统和卡尔曼滤波 69
4.2.2 非线性系统和扩展卡尔曼滤波 70
4.2.3 光束平差法(BA)与图优化 71
4.3 回环检测消除累计误差实现精准导航 75
4.3.1 词袋模型 76
4.3.2 字典 78
4.3.3 相似度计算 79
4.4 本章小结 81
第5章 机器人感知与自主定位 82
5.1 常见传感器在具身智能中的应用 84
5.1.1 相机 84
5.1.2 惯性测量单元 85
5.1.3 激光雷达 86
5.1.4 角雷达 87
5.1.5 全球卫星定位系统 87
5.1.6 轮速传感器 88
5.1.7 超声波传感器 89
5.2 多传感器时间同步 90
5.2.1 时间同步的意义 91
5.2.2 基本方法 91
5.2.3 实验方案 93
5.2.4 应用案例分析 94
5.2.5 性能提升策略 95
5.3 轮式机器人外参标定 96
5.3.1 基础理论 97
5.3.2 基本方法 100
5.3.3 实验方案 102
5.3.4 应用案例分析 107
5.4 场景感知 111
5.4.1 多模态信息融合 112
5.4.2 目标检测与实例分割 114
5.4.3 场景深度感知 116
5.5 记忆地图构建与智能导航 119
5.5.1 记忆地图构建 120
5.5.2 记忆地图的表示与存储 120
5.5.3 记忆地图的更新与维护 124
5.5.4 基于记忆地图的自主定位 127
5.6 场景理解与认知 128
5.7 本章小结 130
第6章 视觉语言导航原理 132
6.1 概述 133
6.1.1 任务定义 133
6.1.2 任务介绍 133
6.1.3 发展历史 134
6.1.4 任务三要素 135
6.1.5 VLN系统的构成 136
6.2 导航任务的划分 138
6.2.1 指令导向任务 138
6.2.2 目标导向任务 140
6.2.3 需求导向任务 142
6.2.4 对话导向任务 144
6.3 数据集基准与仿真器 145
6.3.1 数据集基准范式 146
6.3.2 常见数据集介绍 146
6.3.3 仿真环境 150
6.4 评估指标 151
6.5 Baseline方法 155
6.5.1 动作空间划分 155
6.5.2 图像的输入处理 155
6.5.3 算法流程 156
6.5.4 损失函数 158
6.5.5 实验结果 159
6.6 本章小结 160
第7章 VLA实战 161
7.1 ACT算法实践 163
7.1.1 ACT算法原理 163
7.1.2 ACT算法实现 168
7.1.3 ACT算法复现 192
7.2 DP算法实践 206
7.2.1 DP算法原理 206
7.2.2 DP算法实现 211
7.2.3 DP算法复现 219
7.3 本章小结 222
第8章 VLN实战 223
8.1 DUET原理 223
8.1.1 整体流程 223
8.1.2 详细实现 224
8.2 复现流程 228
8.2.1 环境配置 228
8.2.2 预训练 235
8.2.3 微调和验证 242
8.3 本章小结 248
|
| 內容試閱:
|
前 言
为什么写这本书
在科技飞速发展、日新月异的时代,人工智能作为引领新一轮科技革命和产业变革的战略性技术,正以前所未有的速度蓬勃发展,已成为国家重点发展战略之一。我国高度重视人工智能的发展,将其视为推动经济高质量发展、提升国家竞争力、保障国家安全以及改善人民生活的关键驱动力。人工智能领域宛如一片蕴含着无尽潜力的创新海洋,探索与创新的浪潮此起彼伏、汹涌澎湃,一刻也未曾停歇。“忽如一夜春风来,千树万树梨花开”,这句诗恰如其分地描绘了这一领域的蓬勃发展、繁花似锦的景象。
在国家大力支持与积极引导的背景下,笔者有幸投身于人工智能这一充满挑战与机遇的领域,尤其是在自然语言处理(NLP)和计算机视觉(CV)这两个重要的研究方向深耕,积累了较为丰富的研究与实践经验。在长期的探索过程中,笔者深刻体会到,虽然非具身智能在特定任务和领域取得了一定成果,但它仍然存在明显的局限性。这不仅关乎技术瓶颈的突破,更与我国人工智能战略布局的推进息息相关。理解并解决这些局限性,对于我国在人工智能领域实现跨越式发展,在全球科技竞争中抢占先机,具有重要的现实意义。
一、非具身智能的局限
过去,笔者在NLP和CV领域付出了诸多努力,并在特定任务和领域取得了一些成绩。但不可忽视的是,这些技术本质上都属于非具身智能的范畴。它们如同被禁锢在虚拟数字空间中的精灵,虽然能在虚拟世界里展现强大的能力,却无法与真实的物理世界进行直接交互。
在NLP领域,以语言模型为例,凭借强大的计算能力,它们能够处理海量的文本数据,生成看似准确、逻辑通顺的语言表达。无论是撰写文章、回答问题,还是进行语言翻译,它们都能给出看似合理的结果。然而,这些语言模型对现实世界中的物体、场景和事件缺乏直接的感知和理解。就像一个从未见过庐山真面目的游客,仅仅通过文字描述来想象庐山的样子,始终无法真正领略庐山的雄伟与奇妙。语言模型只能在数据的围城中打转,依据预先设定的算法和大量的文本数据进行分析和生成,却难以触摸到真实世界的纹理和细节。例如,当被问及“苹果是什么味道的”,语言模型可能会根据文本中对苹果味道的描述进行回答,但它从未真正品尝过苹果,无法真切地体会那种酸甜的滋味。
同样,在CV领域中图像识别和处理算法展现出了强大的能力,能够对图像中的物体进行精准的分类和识别。无论是人脸识别系统准确地识别出每个人的身份,还是智能安防系统快速检测出异常物体,都体现了这些算法的价值。然而,它们无法像人类一样,真正地触摸、感受和与物理对象进行互动。它们只能根据图像的像素信息进行分析,无法理解物体的材质、重量、温度等物理属性。例如,算法可以识别出图像中的杯子,但它无法理解一个杯子从拿起来到放下的物理过程。
这种与物理世界的隔离,给非具身智能带来了各种各样的问题。一方面,缺乏对现实情境的深刻理解,使得非具身智能的输出往往存在局限性,可能会产生不准确或不恰当的结果。这就像几个盲人摸象,每个盲人只摸到了大象的一部分,并以此描述大象的样子,最终反映出的只是片面的认知,失去了对整体的把握。例如,在一个智能客服系统中,当用户询问某种产品的使用方法时,由于语言模型无法直接感知产品和实际使用场景,可能会给出一些不切实际或不完整的回答,无法有效帮助用户解决问题。
另一方面,面对复杂多变的现实场景,非具身智能显得力不从心,缺乏灵活性和适应性。就如同纸上谈兵,虽然熟读兵书,理论知识丰富,但在实际战场上却无法根据瞬息万变的局势做出正确决策。例如,在复杂的交通场景中,若自动驾驶技术仅依靠非具身智能,当遇到道路施工或突发事件时,它可能无法及时、准确地做出反应,导致交通事故的发生。因为它无法像人类驾驶员一样,通过直接观察和感知周围环境,并结合历史数据形成与物理世界交互的驾驶经验,灵活地调整驾驶策略。
二、具身智能的魅力与潜力
正是在深刻认识到非具身智能局限性的基础上,笔者将研究重心转向了具身智能(Embodied AI / Embodied Intelligence)领域。具身智能就像一把神奇的钥匙,为我们打开了一扇通往全新世界的大门,让我们看到了人工智能发展的新方向和新可能。
具身智能的核心在于强调人工智能产品与物理世界的交互。通过各种先进的传感器、执行器等设备,具身智能体(Embodied Agent)能够在物理世界中进行感知、行动和学习,从而更好地适应和理解现实环境。与非具身智能相比,具身智能具有多方面的显著优势。
首先,具身智能具备强大的感知能力。借助各类传感器,如视觉传感器、触觉传感器、力觉传感器等,具身智能体能够直接感知物理世界,获取丰富的多模态信息。例如,配备了 RGB-D摄像头和激光雷达的机器人,它不仅可以通过视觉获取周围环境的图像信息,识别出物体的形状、颜色和位置,还能通过激光雷达获取物体的距离信息,构建出精确的三维环境模型。这种全面的感知能力使得具身智能体能够更加准确地理解现实情境,为后续的决策和行动提供更加可靠的依据。正如“欲穷千里目,更上一层楼”,只有站得高才能看得远,只有获取更全面的信息,才能做出更优的决策。
其次,具身智能拥有出色的行动能力。它能够在物理世界中进行实际的操作和交互,这是它区别于非具身智能的重要特征。以人形机器人为例,借助具身智能技术,它可以实现自主导航、物体抓取等复杂操作。在物流仓储领域,机器人可以在仓库中自由穿梭,准确地找到货物并将其搬运到指定位置。这种实际操作能力使得具身智能能够更好地完成各种任务,满足不同领域的需求。
最后,具身智能还具备强大的学习能力。在与物理世界的交互过程中,具身智能体能够不断地学习和进化。每一次与环境的互动都为它注入新的知识和经验,推动它不断提高自身的性能和适应性。正如 “问渠那得清如许?为有源头活水来”,现实世界就是具身智能不断成长的 “源头活水”。例如,机器人在反复抓取不同形状和材质的物体的过程中,能够根据触觉和视觉反馈不断调整抓取策略,从而提高抓取的成功率和稳定性。
具身智能的这些优势为解决现实世界中的各种问题提供了巨大的潜力。在工业制造领域,具身智能机器人可以实现高精度的生产操作,提高生产效率和产品质量;在医疗卫生领域,具身机器人可以协助医生进行手术、护理等工作,减轻医护人员的负担,提高医疗服务的水平;在交通运输领域,自动驾驶车辆借助具身智能技术能够更加安全、高效地行驶;在日常生活中,智能家居机器人可以为人们提供便捷的服务,如清洁、陪伴等。可以说,具身智能在各个领域都有着广阔的应用前景,有望深刻地改变我们的生活和生产方式。
三、本书的目的与意义
正是看到了具身智能所蕴含的巨大潜力,笔者怀着满腔热情和强烈的使命感,将自己在这一领域的研究成果和积累的经验分享给读者,于是有了这本书的诞生。
本书的目标是为广大读者提供一个全面而深入了解具身智能的窗口。通过详细介绍具身智能的概念、原理、技术和应用,笔者希望激发读者对这一前沿领域的兴趣和探索热情。无论是对人工智能领域充满好奇的初学者,还是在该领域深耕已久的研究人员,都能从本书中获得有价值的信息。
对于初学者,本书可作为他们进入具身智能领域的入门指南。通过系统地学习具身智能的基本概念和原理,他们将建立起对这一领域的初步认识,为今后的深入学习打下坚实的基础。而对于专业研究人员和从事人工智能应用的人员,本书将为他们提供有益的参考和启示,帮助他们在自己的研究和工作中取得新的突破,推动具身智能技术的进一步发展和应用。
本书将深入探讨具身智能的核心技术。从传感器技术如何获取精准的物理世界信息,到感知算法怎样对这些信息进行分析和理解;从行动控制如何实现具身智能体在物理世界中的精确操作,到学习机制怎样让具身智能体不断进化和提升性能,每一方面都将详细阐述。同时,本书还将介绍具身智能在实际应用中的成功案例,通过这些真实案例展示具身智能在解决实际问题中的强大能力,让读者更加直观地感受具身智能的魅力和价值。
此外,本书也不会忽视具身智能未来的发展趋势。笔者将探讨其面临的挑战和机遇。分析当前的技术瓶颈和未来的发展方向,为读者提供前瞻性的视角,帮助他们更好地把握具身智能领域的发展动态。
总之,笔者衷心希望这本书能够为推动具身智能的发展和应用贡献一份力量,让更多人受益于这一前沿科技。无论是促进学术研究的进步,还是推动产业的发展,只要本书能发挥一定的作用,笔者便感到无比欣慰。
如何阅读本书
本书围绕具身智能这一核心主题,从理论知识到实践案例进行了全面而深入的讲解,适合不同层次的读者,包括人工智能领域的初学者、研究人员以及对具身智能感兴趣的各界人士。为了帮助读者更好地理解和掌握书中的内容,针对各章节的阅读给出以下建议:
第1章 序章:这一章是全书的基础和开篇,读者应着重了解人工智能的发展历程,尤其是范式跃迁的四个关键阶段。通过对这四个阶段的深入学习,明确具身智能在整个人工智能发展进程中的重要地位。同时,需深入理解具身智能如何打破虚拟与现实次元壁的四个维度,包括感知与行动的闭环机制、物理规律的内化理解、从仿真到现实的迁移能力,以及知识获取方式的根本差异。此外,还需掌握大模型与物理世界融合的意义,以及具身智能的定义、范畴和关键问题。这些内容是理解全书核心概念的基石,只有扎实掌握,才能为后续学习打下坚实基础。
第2章 传统机械臂控制实例:本章通过采摘菊花的具体实例,带领读者学习传统机械臂控制方法。在阅读时,建议按照以下顺序进行:首先理解目标检测与识别操作、构建经验模型获取深度信息,然后学习机械臂控制实现及核心代码。通过这样的阅读方式,读者能够全面理解传统控制方法的流程、技术细节,并清晰地认识到其在实际应用中的局限性。这不仅有助于读者掌握传统机械臂控制技术,更为后续对比先进控制技术做好铺垫,从而更好地理解技术发展的必要性和方向。
第3章 VLA(视觉-语言-动作)原理:VLA技术是具身智能的关键技术之一,在学习这一章时,读者应首先系统了解其发展范式。通过对比传统系统的模态割裂,深入理解VLA范式的融合优势和核心价值。接着,学习隐式端到端、显示端到端和分层端到端 VLA 的原理、算法和性能特点。这将帮助读者深入理解具身智能中感知、决策和行动的一体化实现机制,明白VLA技术是如何帮助具身智能体在复杂物理世界中实现高效交互的。
第4章 SLAM原理简介:SLAM技术在机器人和自动驾驶领域具有关键作用。在阅读这一章时,读者应按照视觉里程计原理、后端状态估计与累计误差、回环检测消除累计误差实现精准导航的顺序进行学习。在这个过程中,要深入理解其涉及的各种算法和概念,如对极几何、PnP、ICP、卡尔曼滤波、BA与图优化、词袋模型等。这些内容是机器人在未知环境中定位和导航的基础技术,掌握它们对于理解具身智能在实际应用中的定位和导航功能至关重要。
第5章 机器人感知与自主定位:本章将深入探讨机器人感知与自主定位技术,这是具身智能领域的核心技术之一。从机器人感知与自主定位的概述入手,介绍多传感器感知融合、自主定位技术、多传感器时间同步、外参标定和场景感知等内容。读者将学习到不同传感器(如相机、激光雷达、超声波传感器、IMU等)的工作原理及其融合方法,理解自主定位的基本原理和算法(如卡尔曼滤波、粒子滤波等),掌握时间同步和外参标定的关键技术和实验方案,并了解场景感知技术在目标检测、实例分割和深度信息处理中的应用。通过理论学习与实践案例相结合,读者可以全面掌握机器人感知与自主定位技术,为后续学习和研究打下坚实的基础。
第6章 视觉语言导航原理:在学习这一章时,读者首先要明确视觉语言导航的任务定义、任务介绍、发展历史、任务三要素和VLN系统的构成。这些是理解该技术的基础框架的关键。接着,读者将深入学习导航任务的分类,包括指令导向任务、目标导向任务、需求导向任务和对话导向任务,了解它们各自的特点和应用场景。同时,要熟悉常见数据集基准与仿真器、评估指标和Baseline方法。通过学习这些内容,读者能够全面掌握机器人结合语言和视觉信息在环境中进行导航的原理和技术。
第7章 VLA实战:本章通过ACT和DP算法实践,将理论知识与实际应用相结合。读者在阅读时,首先应深入掌握ACT和DP算法原理,理解它们在实现具身智能任务中的核心思想。然后,详细了解它们在虚拟仿真和真实环境中的复现步骤和代码实现,包括环境配置、数据采集、训练和推理等环节。通过这一过程,读者能够将前面所学的理论知识应用到实际操作中,加深对具身智能技术的理解和掌握,提升自己的实践能力。
第8章 VLN实战:本章围绕VLN技术中的DUET模型展开深入探讨。DUET模型提出双尺度规划导航方法,兼顾全局粗粒度规划与局部细粒度预测。通过融合粗粒度地图编码和细粒度局部编码,模型能够在长距离导航中有效记忆并精准预测动作,为具身智能在未知环境中的导航提供有力支持。为了将DUET模型付诸实践,本章将详细介绍其复现流程,包括搭建 MATTERPORT3D 仿真环境,进行复制项目库、构建镜像等一系列操作;在预训练过程中,运用不同数据集的脚本开展训练,并对训练脚本中的各功能模块深入剖析;在微调和验证阶段,借助特定脚本优化模型,并详细阐述模型的输入输出及微调流程。通过完整呈现这些内容,助力读者全面掌握 DUET 模型,推动 VLN 技术在实际场景中的应用。
资源下载
本书提供源代码、PPT课件,请读者用微信扫描下面的二维码下载。如果学习本书的过程中发现问题或疑问,可发送邮件至booksaga@126.com,邮件主题为“具身智能:从理论到实践”。
(源代码) (PPT)
本书的圆满完成,归功于众多人士的共同努力。特别感谢宋希儒和熊世杰在资料整理方面的辛勤工作,他们为本书内容的充实和完善作出了重要的贡献。
编 者
2025年8月
|
|