新書推薦:

《
张元济的生平与事业:从清代改革家到二十世纪出版家
》
售價:NT$
398.0

《
他者中的近代朝鲜(西方韩国研究丛书)
》
售價:NT$
398.0

《
索恩丛书·苏莱曼大帝的崛起:奥斯曼宫廷与16世纪的地中海世界
》
售價:NT$
403.0

《
攀龙附凤:北宋潞州上党李氏外戚将门研究(增订本)宋代将门百年兴衰史
》
售價:NT$
454.0

《
金钱的力量:财富流动、债务、与经济繁荣
》
售價:NT$
454.0

《
超越想象的ChatGPT教育:人工智能将如何彻底改变教育 (土耳其)卡罗琳·费尔·库班 穆罕默德·萨欣
》
售價:NT$
352.0

《
应对百年变局Ⅲ:全球治理视野下的新发展格局
》
售價:NT$
398.0

《
咖啡烘焙师:CCR数据化咖啡烘焙实战
》
售價:NT$
347.0
|
編輯推薦: |
计算机视觉领域专家学者携手打造,系统构建知识体系;
综述当下领域前沿研究方向、理论与技术;
以宏观视野把握领域前沿,获取领域底层逻辑
|
內容簡介: |
计算机视觉是人工智能的重要分支,其研究是计算机系统智能化的第一步,也是实现人工智能的桥梁。本书面向计算机视觉,聚焦前沿算法理论,分别讲述了图像分类、检测、生成、视频处理等计算机视觉领域的研究重点,也对计算机视觉的基本概念和计算机视觉研究的预备知识进行了简要介绍,帮助读者在构建完整的计算机视觉知识框架的同时,打下较为坚实的基础,为进一步在计算机视觉和相关领域提出新设想、开发新算法、解决新问题创造良好的条件。本书可作为人工智能专业和计算机类相关专业的低年级研究生学习计算机视觉的参考书,也可作为从事计算机视觉技术研究工作的科研人员的自学用书。
|
關於作者: |
查红彬
北京大学智能学院博雅特聘教授,机器感知与智能重点实验室主任。主要从事计算机视觉与智能机器人感知的研究,在三维视觉几何计算、三维重建与环境几何建模、传感器即时定位与地图构建等方面取得一系列成果,发表学术期刊及国际会议论文350多篇。现任中国计算机学会出版工作委员会主任、中国图象图形学学会监事长,曾任中国计算机学会计算机视觉专委会主任。获得CCF-CV杰出成就奖等学术奖项。
虞晶怡
OSA Fellow,IEEE Fellow,ACM杰出科学家。现任上海科技大学副教务长、信息科学与技术学院教授、执行院长,智能感知与人机协同重点实验室主任。长期从事计算机视觉、计算成像、计算机图形学、生物信息学等领域的研究工作,在智能光场研究上,拥有十余项国际PCT专利,已广泛应用于智慧城市、数字人、人机交互等场景。他曾经担任IEEE TPAMI、IEEE TIP等多个顶级期刊编委,并担任国际人工智能顶会CVPR 2021和ICCV 2025的大会程序主席。任达沃斯世界经济论坛(WEF)全球议程理事会理事。
刘青山
南京邮电大学教授。主要从事计算机视觉,模式识别、人工智能 交叉应用等研究,曾获国家杰出青年科学基金资助,带领团队入选“全国高校黄大年式教师团队”,获江苏省科学技术一等奖、中国电子学会自然科学一等奖和自然科学二等奖等。现兼任中国计算机学会计算机视觉专委会副主任、中国图象图形学学会学术工委主任、江苏省人工智能学会副理事长。
王亮
中国科学院自动化研究所研究员,IEEE/IAPR Fellow,多模态人工智能系统全国重点实验室副主任,中国图象图形学学会副理事长、视觉大数据专委会主任,中国计算机学会计算机视觉专委会副主任。主要从事计算机视觉、模式识别、机器学习、数据挖掘等相关领域的研究。已发表或接收论文300余篇,谷歌学术引用4万余次。获国家杰出青年科学基金资助,入选国家万人计划科技创新领军人才,曾获中国青年科技奖、北京市科学技术一等奖和二等奖。
|
目錄:
|
丛书序
“十讲”序
推荐序
前言
第 1 讲 底层视觉
1.1 底层视觉概述 /2
1.1.1 底层视觉定义 /2
1.1.2 传统底层视觉方法 /2
1.2 基于数学模型的底层视觉方法 /4
1.2.1 全变分模型 /4
1.2.2 稀疏和低秩模型 /7
1.2.3 小结 /13
1.3 基于深度学习的底层视觉方法 /13
1.3.1 图像去噪 /14
1.3.2 图像超分辨率 /17
1.3.3 基于 VGG 模型的图像超分辨率方法 /17
1.3.4 图像去模糊 /21
1.4 底层视觉的挑战与展望 /26
参考文献 /26
第 2 讲 图像质量评价
2.1 全参考/部分参考型图像质量评价 /34
2.1.1 全参考型图像质量评价 /34
2.1.2 部分参考型图像质量评价 /37
2.2 无参考型图像质量评价 /38
2.2.1 基于统计学的无参考型图像质量评价 /39
2.2.2 基于深度学习的无参考型图像质量评价 /40
2.3 图像美学质量评价 /45
2.3.1 大众化图像美学评价 /48
2.3.2 个性化图像美学评价 /63
2.4 总结与展望 /70
参考文献 /70
第 3 讲 图像分割
3.1 图像分割概述 /80
3.1.1 早期图像分割 /80
3.1.2 语义分割 /80
3.1.3 实例分割和全景分割 /81
3.1.4 其他分割问题 /81
3.2 图像语义分割 /82
3.2.1 背景与问题 /82
3.2.2 基于传统特征的图像语义分割 /82
3.2.3 基于深度特征的图像语义分割 /82
3.3 图像实例分割 /88
3.3.1 问题定义 /88
3.3.2 两阶段实例分割 /89
3.3.3 一阶段实例分割 /91
3.3.4 基于 Transformer 的实例分割 /93
3.4 图像全景分割 /95
3.4.1 问题定义 /95
3.4.2 子任务分离的全景分割 /96
3.4.3 子任务统一的全景分割 /98
3.5 弱监督图像分割 /99
3.5.1 基于超像素的方法 /100
3.5.2 基于分类网络的方法 /101
3.6 跨域图像分割 /103
3.6.1 基于风格迁移的输入级图像对齐 /103
3.6.2 基于域不变特征发掘的中间级特征对齐 /104
3.6.3 基于标签分布发掘的输出级预测结果对齐 /105
3.7 医疗图像分割 /106
3.7.1 全监督医疗图像分割 /108
3.7.2 弱监督医疗图像分割 /112
参考文献 /114
第 4 讲 目标检测
4.1 目标检测概述 /128
4.1.1 目标检测的概念 /128
4.1.2 目标检测的研究意义 /128
4.1.3 目标检测的发展路线 /130
4.1.4 小结 /134
4.2 非深度学习目标检测方法 /134
4.2.1 图像匹配方法 /134
4.2.2 机器学习方法 /137
4.2.3 小结 /139
4.3 深度学习目标检测方法 /139
4.3.1 深度学习简介 /139
4.3.2 深度学习模型 /140
4.3.3 基于深度学习的方法框架 /143
4.4 评价指标和数据集 /148
4.4.1 数据集 /148
4.4.2 评价指标 /150
4.5 讨论与展望 /151
4.5.1 目标检测面临的挑战 /151
4.5.2 目标检测的发展趋势 /152
参考文献 /154
第 5 讲 目标跟踪
5.1 引言 /162
5.2 目标跟踪概述 /162
5.2.1 目标跟踪的基本概念 /162
5.2.2 目标跟踪的分类方式 /163
5.2.3 目标跟踪的研究意义 /164
5.2.4 小结 /165
5.3 单目标跟踪 /165
5.3.1 传统方法 /165
5.3.2 深度学习方法 /167
5.3.3 数据集与评价指标 /182
5.3.4 小结 /184
5.4 多目标跟踪 /185
5.4.1 多目标关联技术 /186
5.4.2 一体化多目标跟踪技术 /191
5.4.3 数据集与评价指标 /194
5.4.4 小结 /196
5.5 其他跟踪问题 /196
5.5.1 视频目标检测与多目标跟踪 /196
5.5.2 视频实例分割中的跟踪问题 /196
5.5.3 半监督视频物体分割 /198
5.5.4 小结 /199
5.6 应用 /199
5.6.1 目标跟踪与安防监控 /199
5.6.2 目标跟踪与智能机器人 /200
5.6.3 目标跟踪与自动驾驶 /201
5.6.4 无人机精准跟踪 /202
5.6.5 跟踪辅助视频标注 /204
5.7 总结与展望 /204
5.7.1 目标跟踪面临的挑战 /204
5.7.2 目标跟踪的发展趋势 /207
5.7.3 小结 /208
参考文献 /208
第 6 讲 行人重识别
6.1 行人重识别的定义与常用方法 /228
6.1.1 背景与问题 /228
6.1.2 常用方法 /229
6.2 行人重识别中的小样本问题 /232
6.2.1 弱监督建模 /232
6.2.2 无监督建模 /234
6.2.3 迁移学习建模 /240
6.3 行人重识别中的开放性建模问题 /242
6.3.1 遮挡问题 /242
6.3.2 跨模态问题 /250
6.3.3 换装问题 /263
6.3.4 其他问题 /267
参考文献 /270
第 7 讲 视频行为识别
7.1 引言 /284
7.2 视频行为识别数据集 /285
7.2.1 通用行为识别数据集 /286
7.2.2 骨架行为识别数据集 /287
7.2.3 群体行为识别数据集 /288
7.2.4 时域行为定位数据集 /288
7.2.5 时空行为定位数据集 /289
7.2.6 音视频行为定位数据集 /290
7.3 视频行为分类 /291
7.3.1 基于手工特征的视频行为分类方法概述 /291
7.3.2 基于深度学习的视频行为分类方法概述 /295
7.3.3 常用方法 /296
7.4 行为定位 /302
7.4.1 时域行为定位 /302
7.4.2 时空行为定位 /311
7.5 骨架行为识别 /316
7.5.1 早期骨架行为识别方法 /317
7.5.2 基于深度学习的骨架行为识别 /317
7.5.3 总结与展望 /325
7.6 多模态行为识别 /326
7.6.1 基于文本的视频定位 /326
7.6.2 音视频行为识别 /330
7.7 交互及组群行为识别 /337
7.7.1 交互行为识别 /337
7.7.2 组群行为识别 /343
7.7.3 群体行为识别的未来研究趋势 /349
参考文献 /350
第 8 讲 视觉与语言
8.1 视觉与语言的定义 /376
8.1.1 背景与意义 /376
8.1.2 典型任务与方法 /379
8.2 视觉语言的典型框架 /383
8.2.1 传统方法 /383
8.2.2 预训练方法 /385
8.2.3 其他方面 /386
8.3 视觉语言的语义关联与建模 /388
8.3.1 注意力机制建模 /390
8.3.2 图结构建模 /391
8.3.3 生成式建模 /392
8.3.4 其他建模 /393
8.4 视觉语言的预训练技术 /396
8.4.1 单模态主干网络 /397
8.4.2 视觉与语言架构 /399
8.4.3 预训练任务与下游任务 /401
8.4.4 预训练数据集 /405
8.5 视觉语言发展趋势与展望 /407
参考文献 /409
第 9 讲 图像的三维重建
9.1 背景介绍 /426
9.2 传统三维重建方法回顾 /427
9.2.1 经典多视点几何三维重建 /427
9.2.2 经典光度立体三维重建 /428
9.2.3 常见数据采集设备 /429
9.3 深度学习对基于不同形状表达的三维重建 /431
9.3.1 基于体素的显式三维表达 /431
9.3.2 基于多边形网格的显式三维表达 /437
9.3.3 基于隐式辐射场的三维表达 /443
9.4 三维重建与三维生成 /450
9.4.1 基于扩散生成大模型分数蒸馏的三维生成 /451
9.4.2 基于预训练三维重建模型和扩散生成模型的三维生成 /452
参考文献 /454
第 10 讲 SLAM
10.1 基础知识 /464
10.1.1 相机模型 /464
10.1.2 多视图几何原理 /467
10.2 SLAM 的分类 /472
10.2.1 基于滤波的 SLAM /472
10.2.2 基于优化的 SLAM /474
10.2.3 基于深度学习的 SLAM /476
10.3 视觉 SLAM /478
10.3.1 初始化 /479
10.3.2 前台实时跟踪 /480
10.3.3 后端优化 /482
10.3.4 重定位 /483
10.3.5 回路闭合 /485
10.4 视觉惯性 SLAM /486
10.4.1 IMU 模型 /487
10.4.2 前端模块 /489
10.4.3 后端模块 /491
10.5 融合深度信息的 SLAM /492
10.5.1 RGBD SLAM /493
10.5.2 激光视觉惯性 SLAM /502
10.6 SLAM 发展趋势与展望 /508
参考文献 /509
|
內容試閱:
|
前言
一、概述
计算机视觉是以计算手段模拟生物视觉功能,对视觉信息进行表征、理解和解释的一门学科。它是一门让机器学会“看”、懂得怎么“看”“看”后能反馈的科学,是人工智能的重要领域。从 20 世纪 80 年代 Marr 的视觉计算理论提出至今,计算机视觉逐渐成为非常活跃的研究领域,吸引了大量研究人员。经过近 50 年的发展,尤其是近 10 年来以深度学习为代表的人工智能方法与计算机视觉研究深入融合并被广泛应用,推动了计算机视觉深度、广度的发展以及大量研究的落地。计算机视觉在医疗健康、工业生产、安防监控、社交媒体、遥感遥测、航空航天等领域发挥了重要的作用,对于提高社会管理效率、保障社会安全、满足人民美好生活的向往等发挥了重要的支撑作用。
近年来,计算机视觉研究十分活跃,很多研究方向取得了突破性进展,因此,有必要对该领域的前沿研究进行梳理和总结,帮助不同层次、不同方向的学者、学生和专业技术人员对相关方向进行全面了解,以便快速进入研究和研发工作。
二、计算机视觉研究体系
计算机视觉研究方向非常丰富。在数据维度,包括二维静态视觉(图像)处理、二维动态视觉(视频)处理和三维视觉处理等;在处理方法维度,包括底层处理、中层处理、高层处理;在应用维度,基于特定领域的数据,有一些和领域相适应的特定处理方法。综合而言,计算机视觉的主要研究体系如图 0-1所示。
三、内容结构
本书对计算机视觉领域近年来比较热的 10 个研究方向进行了梳理和总结,每一部分内容保持相对独立,自成体系,突出前沿热点和应用。第 1 讲“底层视觉”,主要介绍基于数学模型与基于深度学习的两大类方法的前沿进展。第 2 讲“图像质量评价”,从失真评价(包括全参考型、部分参考型和无参考型评价)和美学评价(包括大众化评价和个性化评价)两个方面全面介绍数字图像的感知质量评价技术,包括研究的历史、代表性评价算法、最新的研究进展与未来发展趋势。第 3 讲“图像分割”,主要介绍图像语义分割、实例分割、全景分割、弱监督分割、跨域图像分割、医疗图像分割等前沿进展。第 4 讲“目标检测”,主要介绍非深度学习和基于深度学习检测方法的前沿进展,并总结常用数据集与评价指标。第 5 讲“目标跟踪”,主要分单目标跟踪与多目标跟踪两方面介绍算法的前沿进展,并讨论跟踪问题在现实中的应用。第 6 讲“行人重识别”,主要介绍在数据受限以及开放性复杂场景下重识别算法的前沿进展。第 7 讲“视频行为识别”,主要介绍视频行为识别的任务定义、基准数据集,以及视频行为识别领域主流方法与技术,包括视频行为分类、视频行为检测、视频行为时序检测、基于骨架的视频行为识别、多模态行为识别,以及交互和群组行为识别。第 8 讲“视觉与语言”,主要介绍视觉–语言典型框架、语义关联方法和预训练技术等方面的前沿进展。第 9 讲“图像的三维重建”,主要介绍基于深度学习的三维重建方法和三维生成方法的前沿进展。第10 讲“SLAM”主要讲述 SLAM 的基本原理和分类、视觉 SLAM 的主流框架,以及常用的几种融合深度信息的 SLAM 技术,并对 SLAM 的发展趋势进行展望。
四、读者对象
本书首先可作为高等院校电子信息类专业的高年级本科生和研究生学习计算机视觉、图像处理的教科书,适合课堂讲授、案例学习、研讨班等课程形式,学生通过阅读本书,围绕特定主题开展研讨,作为其深入学习和开展科研的基础。本书也可作为高校上述专业的教师开设计算机视觉、图像处理相关必修课或选修课的教学辅助用书、课程补充材料等,根据所在专业的培养目标和研究方向,给学生指定本书特定章节进行阅读并开展研讨。此外,本书可作为计算机视觉领域从业人员的技术指导类书籍,帮助他们针对政府、企事业单位的需求开展计算机视觉业务创新和关键技术攻关等工作。
五、编写团队
本书由中国计算机学会计算机视觉专业委员会(以下简称 CCF–CV 专委会)组织编写,专委会主任北京大学查红彬教授担任主编,上海科技大学虞晶怡教授、专委副主任南京邮电大学刘青山教授、中国科学院自动化研究所王亮研究员担任副主编,北京邮电大学马占宇教授、中山大学郑伟诗教授、北京工业大学毋立芳教授担任主审。依托 CCF–CV专委会常务委员进行主题遴选和撰写人推荐,形成了约 40 人的写作团队。第 1 讲由左旺孟、潘金山、王楠楠负责撰写,第 2 讲由吴金建、李雷达负责撰写,第 3 讲由王井东、余昌黔、谢恩泽、梁孔明、纪源丰负责撰写,第 4 讲由韩军伟、欧阳万里、程塨负责撰写,第 5 讲由卢湖川、王栋、王兴刚负责撰写,第 6 讲由郑伟诗、张史梁、任传贤负责撰写,第 7 讲由林巍峣、王利民、舒祥波、张彰、赵洲负责撰写,第 8 讲由王聿铭、黄岩、邓成负责撰写,第 9 讲由高盛华、许岚负责撰写,第 10 讲由吴毅红、章国锋、董秋雷、张朋举、郭世毅、王硕负责撰写。最后,由中山大学吴岸聪博士、北京工业大学石戈
博士整理成稿。
编写团队成员长期从事计算机视觉、图像处理领域的学术研究和教学工作,承担了一系列与计算机视觉相关的科研项目,在视觉领域的顶级期刊如 IEEE TPAMI、IEEE TIP
|
|