新書推薦:

《
MATLAB入门与应用实践(视频教学版)
》
售價:NT$
607.0

《
再无孤岛:跨学科的逻辑、路径与实践(实现认知跃迁,洞见未来先机,必先构建跨学科思维!)
》
售價:NT$
602.0

《
社会情感学习经典入门
》
售價:NT$
357.0

《
盆底觉醒
》
售價:NT$
403.0

《
作业治疗经典模式及实践应用
》
售價:NT$
500.0

《
信用债投资笔记:交易策略+基本面分析
》
售價:NT$
449.0

《
神秘欢娱:人与香烟500年
》
售價:NT$
505.0

《
口腔修复学精要(原书第2版) 国际经典口腔医学译著
》
售價:NT$
857.0
|
編輯推薦: |
第4版重要更新:·增加关于CUDA的新内容,包括较新的库,如CUDNN。·新增关于常用并行模式(模板、归约、排序)的章节,并对之前的章节(卷积、直方图、稀疏矩阵、图遍历、深度学习)进行了全面更新。·新增一章专门讨论GPU架构,包含Ampere等新的架构示例。·优化关于问题分解策略和性能方面的讨论,增加新的优化检查清单。
|
內容簡介: |
本书内容简洁、直观、实用,强调计算思维能力和并行编程技巧。本书主要分为四个部分:第 一部分介绍异构并行计算编程的基础概念,包括数据并行化、GPU架构、CUDA编程及程序性能优化方法等内容;第二部分介绍并行模式,包括卷积、模板、并行直方图、归约、前缀和、归并等内容;第三部分介绍高级模式及应用,包括排序、稀疏矩阵计算、图遍历、深度学习、迭代式磁共振成像重建、静电势能图和计算思维等内容;第四部分介绍高级编程实践,包括异构计算集群编程、CUDA动态并行化等内容。本书不仅适合高等院校计算机相关专业的学生学习,也适合并行计算领域的技术人员参考。
|
關於作者: |
胡文美(Wen-mei W. Hwu)
NVIDIA公司杰出研究科学家兼高级研究总监。伊利诺伊大学厄巴纳-香槟分校荣休教授,并行计算研究中心首席科学家。他在编译器设计、计算机体系结构、微体系结构和并行计算方面做出了卓越贡献,是IEEE Fellow、ACM Fellow,荣获了包括ACM-IEEE CS Eckert-Mauchly奖、ACM Grace Murray Hopper奖、ACM SIGARCH Maurice Wilkes奖在内的众多奖项。他拥有加州大学伯克利分校计算机科学博士学位。
大卫·B. 柯克(David B. Kirk)
美国国家工程院院士,NVIDIA Fellow,曾任NVIDIA公司首席科学家。2002年,他荣获ACM SIGGRAPH计算机图形学成就奖,以表彰其在把高性能计算机图形系统推向大众市场方面做出的杰出贡献。他拥有加州理工学院计算机科学博士学位。
伊扎特·埃尔·哈吉(Izzat El Hajj)
贝鲁特美国大学计算机科学系助理教授。他的研究方向是针对新兴并行处理器和内存技术的应用加速和编程支持,特别是GPU和存算一体。他拥有伊利诺伊大学厄巴纳-香槟分校电气与计算机工程博士学位。
|
內容試閱:
|
前 言
Programming Massively Parallel Processors: A Hands-on Approach, Fourth Edition
我们非常自豪地向你介绍本书。
融合多核CPU和多线程GPU的大众市场计算系统已经将万亿级别的计算能力引入笔记本电脑中,将亿亿级别的计算能力引入计算集群中。在如此强大的计算动能下,我们正处于科学、工程、医学以及商业领域广泛应用计算实验的黎明。我们也亲历了GPU计算在金融、电子商务、石油与天然气、制造等关键产业垂直市场的广泛渗透。通过具有前所未有的规模、精确度、安全性、可控性与可视性的计算实验,这些领域的突破将得以实现。本书为这一愿景提供了关键要素,即将并行编程教授给数百万研究生和本科生,使得计算思维和并行编程技能能够与微积分技能一样广泛普及。
本书的主要读者是所有需要通过计算思维和并行编程技能来取得科学与工程学科上的突破的研究生和本科生。此外,本书还被业内专业开发人员广泛使用,目标是在并行计算领域学习新的技能,与技术的飞速进步保持同步。这些专业开发人员涵盖机器学习、网络安全、自动驾驶、计算金融、数据分析、认知计算、机械工程、土木工程、电气工程、生物工程、物理学、化学、天文学以及地理学等领域,他们运用计算推动着各自领域前沿技术的发展。因此,这些开发人员既需要是领域专家,同时也必须是编程专家。本书通过逐步建立对技术的直观理解这一方式讲授并行编程。我们假设读者至少具备基本的C编程经验。我们选用了CUDA C这一并行编程环境,该环境需要NVIDIA GPU的支持。在大众消费者和专业人员手中已有超过10亿台这样的处理器,而超过40万名程序员在积极地运用CUDA进行开发。你在学习过程中开发出的应用程序,将有可能被非常庞大的用户社群所使用。
自2016年第3版上市以来,我们收到了许多来自读者和教师的宝贵意见。其中,很多人肯定了本书现有的非常重要的特点,其他人则提供了关于如何扩展本书内容以使其更具价值的建议。与此同时,自2016年以来,用于异构并行计算的硬件和软件技术已经取得了巨大的进步。在硬件领域,GPU计算架构已经推出了三代新版本,分别是Volta、Turing和Ampere。在软件领域,从CUDA 9到CUDA 11的发展使程序员得以访问新的硬件和系统功能。同时,新的算法也得到了开发。为适应这些变化,我们新增了四章,并对大部分现有章节进行了重写。
新增的四章包括一个基础性章节(第4章),以及三个关于并行模式和应用的章节(第8章、第10章和第13章)。我们增加这些章节的初衷如下:
第4章:在之前的版本中,关于架构和调度方面的讨论分布在多个章节中。在这一版中,我们将这些讨论集中在一起,以便感兴趣的读者学习。
第8章:在之前的版本中,模板模式在关于卷积的章节中略有提及,因为这两种模式有相似之处。在这一版中,第8章对模板模式进行了更为全面的介绍,强调其背后的数学原理,突出其与卷积不同的方面,从而为进一步的优化提供了可能。这一章还提供了处理三维网格和数据的示例。
第10章:在之前的版本中,归约模式在关于性能的章节中略有提及。在这一版中,第10章更为全面地呈现了归约模式,采用渐进的方式应用优化方法,并更深入地分析了相关的性能权衡。
第13章:在之前的版本中,归并排序在关于归并模式的章节中略有提及。在这一版中,第13章将基数排序作为一种极其适用于GPU并行化的非比较排序算法进行介绍。第13章采用渐进的方式进行优化,并分析了性能权衡。此外,这一章还对归并排序进行了探讨。
除了新增的章节外,所有章节都经过了修订,部分章节经过了大幅修改。这些章节包括:
第6章:之前在本章中的关于架构的内容已经移到第4章,归约示例部分则移至第10章。对于删改的部分,我们进行了重写以更全面地处理线程粒度问题,更为重要的是,提供一份常见的性能优化策略清单,并讨论了每种策略所解决的性能瓶颈。这份清单在本书的其余部分中被用来优化各种并行模式和应用程序的代码。我们的目标是强调一种用于优化并行程序性能的系统且渐进的方法。
第7章:在之前的版本中,关于卷积模式的章节以一维卷积作为示例,对二维卷积仅进行了简要处理。在这一版中,我们对本章进行了重写,从一开始就更加注重讨论二维卷积。这一变化使我们能够更全面地探讨更高维度平铺的复杂性和细节,并为读者学习卷积神经网络(第16章)提供更好的背景。
第9章:在之前的版本中,关于直方图模式的章节从一开始就应用了线程粗化优化,并将私有化优化与共享内存的使用相结合。在这一版中,我们对本章进行了重写,采用更渐进的方式进行性能优化。现在介绍的初始实现不再应用线程粗化,并将私有化和在私有bin中使用共享内存区分为两种独立的优化方式,前者旨在减少原子操作的争用,后者旨在减少访问延迟。线程粗化在私有化后应用,因为粗化的一个主要优点是减少提交到公共副本的私有副本数量。这种新的章节组织方式更加贴合本书始终遵循的系统化和渐进化的性能优化方法。此外,由于原子操作被用于多块归约和单次扫描核函数中,因此为了更早地引入原
|
|