新書推薦:
《
骨科康复学(第2版)
》
售價:NT$
1140.0
《
笔记启蒙 : 英国皇家学会与科学革命
》
售價:NT$
390.0
《
汉语副词研究论集(第六辑)
》
售價:NT$
490.0
《
干戈之影:商代的战争观念、武装者与武器装备
》
售價:NT$
340.0
《
镶嵌之美:古希腊罗马的马赛克艺术
》
售價:NT$
1390.0
《
后希腊化哲学:从斯多亚学派到奥利金的发展研究
》
售價:NT$
349.0
《
别纠结啦:不被情绪牵着走的通透生活指南(“当代一休”小池龙之介治愈新作!附赠精美书签!)
》
售價:NT$
295.0
《
第二人生:找到重新定义人生的智慧
》
售價:NT$
440.0
|
編輯推薦: |
追随并行计算一线专家的足迹,带你步入MIC的神秘殿堂。
高效能服务器和存储技术国家重点实验室主任、浪潮-Intel中国并行计算联合实验室主任王恩东,英特尔副总裁Rajeeb Hazra,
PhD亲自为本书作序并推荐。
|
內容簡介: |
《MIC高性能计算编程指南》是全球第一本全面介绍MIC软硬件体系架构、应用及编程开发优化的书籍。书中介绍了使用MIC进行通用计算所需要了解的硬件架构、语法、程序优化技巧等知识,是进行MIC高性能与通用计算程序开发的入门教材和参考书。本书共分12章。第1章介绍高性能计算的发展历程;第2章深入介绍MIC
的软硬件架构;第3章介绍MIC编程环境的搭建;第4章引入一个简单的MIC实例;第5章简要介绍与MIC编程相关的PpenMP和MPI相关知识;第6章详细讲解了MIC编程的语法;第7章介绍MIC编程用到的工具软件;第8章介绍MIC可以使用的数学库及其用法;第9章详细讲解如何优化MIC程序,从多个方面系统阐述了MIC优化的方式和方法;第10章通过一个典型的矩阵乘法示例,展示
MIC优化方法的应用;第11章介绍将MIC技术应用于工程中的流程和方法;第
12章引入两个实际工程的例子,讲解如何将MIC技术应用于实际生产过程当中。《MIC高性能计算编程指南》可作为MIC的入门学习和编程参考书,主要面向从事高性能计算的程序员与工程师、MIC加速计算专业领域的科研人员,以及对MIC通用计算感兴趣的程序员,也可作为开设相关课程的高等院校与科研机构的教材。本书由王恩东等编著。
|
關於作者: |
王恩东,浪潮-Intel中国并行计算联合实验室主任,研究员,国务院特殊津贴专家,“863”计划领域专家,高效能服务器和存储技术国家重点实验室主任、浪潮集团高级副总裁,兼任国际信息处理联合会IFIP中国委员会主席、中国计算机学会副理事长等职,获国家科技进步奖3项,并获何梁何利奖,发明专利26项。张清,浪潮-Intel中国并行计算联合实验室首席工程师,浪潮HPc应用技术经理,主要从事高性能计算、并行计算,研究CPU多核、GPU、MIC众核技术,曾在生命科学、石油、气象、金融等HPC领域主持多个异构并行计算项目。沈铂,浪潮-Intel中国并行计算联合实验室应用研发资深工程师,主要从事高性能算法、软件开发与优化等方面的技术研究与应用工作,具有多年的生命科学、石油物探、气象等领域开发调优经验。张广勇,内蒙古大学计算机体系结构专业硕士,现任浪潮-Intel中国并行计算联合实验室研发工程师,主要从事GPU/MIC高性能应用软件的开发优化工作,具有丰富的项目开发经验,并在国内外会议期刊发表多篇优秀论文。卢晓伟,大连理工大学计算机应用技术硕士,浪潮-Intel中国并行计算联合实验室应用研发资深工程师,主要从事多个科学领域的算法移植、优化等工作,具有丰富的高性能异构协同计算开发经验。
|
目錄:
|
序一
序二
前言
第一篇 MIC基础篇
第1章 MIC高性能计算
1.1 多核、众核计算的发展
1.2 MIC技术简介
1.3 为什么要选择MIC
1.3.1 SMP
1.3.2 集群(cluster)
1.3.3 GPGPU
第2章 MIC硬件及软件架构
2.1 MIC硬件架构
2.1.1 术语解析
2.1.2 MIC硬件架构概览
2.1.3 MIC Core
2.1.4 环形互联总线Ring
2.1.5 CLOCK
2.1.6 页表(Page Tables)
2.1.7 系统接口
2.1.8 性能监控单元和事件管理器
2.1.9 电源管理
2.2 MIC软件架构
2.2.1 概述
2.2.2 Bootstrap
2.2.3 Linux加载器
2.2.4 微操作系统(OS)
2.2.5 对称通信接口(SCIF)
2.2.6 主机驱动
2.2.7 sysfs节点
2.2.8 MPI应用的MIC软件栈
2.2.9 应用编程接口(API)
第3章 MIC安装、环境配置
3.1 MIC环境配置
3.1.1 前期准备
3.1.2 安装Host端的Linux操作系统
3.1.3 安装MIC驱动
3.1.4 安装在MIC上编译CC++的编译器
3.2 SDK示例运行
第4章 第一个MIC实例——计算PI
第5章 OpenMP和MPI编程基础
5.1 OpenMP基础
5.1.1 OpenMP简介
5.1.2 OpenMP编程模型
5.1.3 OpenMP语法简要介绍
5.2 MPI基础
5.2.1 启动和终止MPI库
5.2.2 获取信息
5.2.3 发送和接收消息
第6章 MIC编程
6.1 MIC编程模型
6.2 应用模式
6.2.1 CPU原生模式
6.2.2 CPU为主MIC为辅模式
6.2.3 CPU与MIC对等模式
6.2.4 MIC为主CPU为辅模式
6.2.5 MIC原生模式
6.3 MIC基本语法
6.3.1 offload
6.3.2 变量和函数声明
6.3.3 头文件
6.3.4 环境变量
6.3.5 编译选项
6.3.6 其他问题
6.4 MIC上的MPI
6.4.1 MIC上的MPI限制
6.4.2 MIC上MPI编程模型
6.4.3 MIC上的MPI环境配置
6.4.4 编译及使用
6.4.5 MIC上的MPI示例
6.5 SCIF编程
6.5.1 什么是SCIF
6.5.2 SCIF的基本概念介绍
6.5.3 SCIF基本通信过程
6.5.4 SCIF用到的API函数
第7章 MIC软件调试与性能分析工具
7.1 Intel软件工具链对MIC的支持
7.2 MIC软件调试工具IDB
7.2.1 IDB简介
7.2.2 IDB的操作界面
7.2.3 IDB对MIC架构的支持与要求
7.2.4 使用IDB调试MIC程序
7.3 MIC性能分析工具VTune
第8章 Intel MIC MKL库使用方法
8.1 Intel MKL核心函数库介绍
8.2 在MIC卡上使用Intel MKL
8.2.1 编译器辅助offload方式
8.2.2 自动offload方式
8.3 FFT在MIC上的使用
8.3.1 FFT简介
8.3.2 FFT在MIC上的使用方法一
8.3.3 FFT在MIC上的使用方法二
8.4 BLAS在MIC上的使用
8.4.1 BLAS简介
8.4.2 在MIC上调用BLAS库方法
第二篇 性能优化篇
第9章 MIC性能优化
9.1 MIC性能优化策略
9.2 MIC优化方法
9.2.1 并行度优化
9.2.2 内存管理优化
9.2.3 数据传输优化
9.2.4 存储器访问优化
9.2.5 向量化优化
9.2.6 负载均衡优化
9.2.7 MIC线程扩展性优化
第10章 MIC优化示例:矩阵乘法
10.1 矩阵乘法串行算法
10.2 OpenMP多线程矩阵乘法
10.3 MIC多线程矩阵乘法
10.3.1 基本版本
10.3.2 向量化优化
10.3.3 SIMD指令优化
10.3.4 矩阵分块乘法
第三篇 工程开发篇
第11章 基于MIC的HPC应用开发过程
11.1 热点测试
11.1.1 准备工作
11.1.2 热点测试及定位
11.2 程序分析
11.2.1 程序移植模式分析
11.2.2 计算规模分析
11.2.3 特点分析
11.2.4 热点并行性分析
11.2.5 向量化分析
11.2.6 MIC内存分析
11.2.7 程序分析总结
11.3 MIC程序开发过程
11.3.1 基于CPU的OpenMP并行
11.3.2 基于MIC的线程扩展
11.3.3 单节点CPU+MIC协同并行
11.3.4 MIC集群并行
第12章 基于MIC的HPC应用实例
12.1 基于单节点CPU+MIC协同计算电子断层三维重构并行算法
12.1.1 电子断层三维重构技术及SIRT算法介绍
12.1.2 SIRT串行程序分析
12.1.3 基于OpenMP的SIRT并行程序开发
12.1.4 基于MIC平台的SIRT并行程序开发
12.1.5 单节点多卡及CPU+MIC异构协同计算架构设计
12.2 基于多节点CPU+MIC协同计算大涡模拟并行算法
12.2.1 格子-Boltzmann大涡模拟算法介绍
12.2.2 大涡模拟串行程序分析
12.2.3 基于OpenMP的大涡模拟并行算法
12.2.4 基于MIC的大涡模拟并行算法
12.2.5 基于多节点CPU+MIC协同计算平台的大涡模拟并行算法
参考文献
|
內容試閱:
|
高性能计算(HPC),特别是超级计算机这个分支在计算容量和能力上取得了巨大的发展。这些发展可以归功于若干创新。首先,按照用英特尔公司联合创始人Gordon
Moore名字命名的家喻户晓的摩尔定律的预测,大约每两年芯片上的半导体晶体管数目会增加一倍。依从摩尔定律,英特尔公司已经持续地实现了在降低晶体管尺寸和功耗的同时不断增大其性能。在此半导体上开展第二个创新,就是一系列不断增强的并行CPU微架构,以努力在每一代处理器产品上实现单线程性能和并行性能的完美结合。
HPC的发展对社会的贡献是巨大的。尽管人们更容易去关注那些巨大的科学成就突破,例如寻找希格斯玻色子,或宇宙膨胀的宇宙学模型,然而现在每个人所能获得的计算能力同样令人印象深刻。一经启动,现在一台基于英特尔至强E5处理器家族的双路工作站所交付的性能,大约相当于15年前超级计算机Top500的第一名的峰值浮点性能FLOPS。1997年,当时世界上最快的超级计算机是位于美国桑迪亚国家实验室的“ASCI
红”,是世界上首个突破每秒一万亿次(TeraFLOPS)浮点运算的系统,它采用了9298个英特尔奔腾
Pro处理器,成本约每一万亿次55,000,000美元。到2011年,每一万亿次(TeraFLOPS)的拥有成本降到了低于1000美元。高性能计算确确实实已经为所有人触手可及。
然而,要充分利用系统性能方面的增长,应用本身必须开发微处理器所有的并行特性。最大化应用性能绝不仅仅是写出绝妙的代码。现代并行应用使用了一系列复杂嵌套的并行功能,从处理器内核间的消息通讯,到线程,到在线程上表达数据并行的元素。在英特尔,我们看到了非常多的案例,透过并行优化获得超过十倍速的性能增长。
新的Intel Xeon
PhiTM协处理器构建在这些源自英特尔至强处理器的并行编程原则之上。通过集成众多低功耗内核,每一个处理器核具备一个512位的SIMD处理单元和很多新的向量运算指令,Intel
Xeon PhiTM协处理器优化了每瓦性能。超过每秒一万亿次的计算能力,Intel Xeon
PhiTM创造了在一个芯片上的超级计算机。这个崭新的微架构具备突破性的每瓦性能,但也依赖于那些能够充分并行扩展到众多内核、线程和向量的应用程序。英特尔采取了一种崭新的方法来帮助释放这种并行能力。英特尔尽最大可能沿用了我们易于理解的标准编程语言(包括C、C++和Fortran),以及现存并行编程标准。当读者和开发人员通过此书学习如何优化使用这些语言,他们不被强迫采用非标准的或是硬件依赖的编程模式。而且,这种基于标准的方法保证了最大的代码重用,并且通过编写可移植、标准化、面向当前和未来的兼容并行代码获得最大的回报。
2011年,英特尔很高兴同浪潮集团在北京建立了一个并行计算联合实验室。这个新实验室为浪潮集团和一些领先的应用开发人员提供了先期使用Intel
Xeon处理器和Intel Xeon
PhiTM协处理器协同开发并行应用的环境。这个实验室的许多学习经验都体现在这本书里。我们希望本书的内容能有助于开发者产生更多的科学发现和创新,帮助这个世界找到更清洁的能源,更准确的天气预报,治愈疾病,建立更安全的货币体系,或是简单地帮助公司将产品和服务更有效地带入市场。
希望你们喜欢本书。这是第一本反映使用Intel Xeon PhiTM协处理器上编程特点的指南。
Rajeeb Hazra, PhD
副总裁,技术计算集团总经理
英特尔公司
序二:
人类对计算能力的需求永无止境,高性能计算水平成为世界强国比拼实力的竞赛项目,千万亿次的比赛刚刚落幕,百亿亿次的比赛又拉开帷幕。半导体工艺技术约束了处理器频率的无限增长,多核、众核处理器成为提升计算能力的重要选择。当各种类型的众核处理器粉墨登场时,我们很快发现理论计算峰值尽管得到了很大的提升,但应用软件的兼容性变得糟糕了,应用软件的开发变得复杂了。缺少了应用的高性能计算机成为华而不实的摆设。
2012年底,英特尔公司推出了基于集成众核架构的至强融核产品。这个产品具有50个以上的基于x86架构的核心,并集成于一块PCI
Express接口的卡中。它为至强系列中央处理器提供了有力补充,为用户的高度并行的工作负载带来全新性能体验。该产品编程容易,与传统的程序相比并无明显区别,并且针对至强融核产品编写的代码,可以不加修改地应用于传统基于中央处理器的硬件平台,因而可以充分保护用户的软件投资。至强融核产品可以提供数百个同时运行的硬件线程,因而可以带来极高的并行性,可以充分满足现有应用对高并发度的大量需求。
浪潮-Intel中国并行计算联合实验室成立于2011年8月24日,该实验室旨在推动中国“百亿亿次”超算系统架构与应用创新,建立高性能计算产业新技术生态环境,加速中国高性能计算进入“百亿亿次”时代。浪潮-Intel中国并行计算联合实验室的研究创新工作,将对中国未来十年内高性能计算的发展产生积极影响,尤其在全球百亿亿次计算的起步阶段。浪潮-英特尔中国并行计算联合实验室为英特尔至强融核产品的顺利面市做出了很大贡献,并为至强融核产品的普及做出了很大努力。
本书由浪潮-Intel联合实验室的几位成员共同完成。书中介绍了英特尔至强融核产品的相关知识、使用至强融核进行高性能计算的编程方法、优化使用至强融核程序的方法,以及在实际应用中的两个利用至强融核技术提高性能的成功案例。本书结构清晰、通俗易懂,从编程基础到优化到具体工程开发,表述言简意赅,用简单代码实践阐述理论,并配有大量的图、表、程序片段、完整案例帮助读者理解。本书的几位作者都有丰富的项目经验,因此在讲解语法和优化方法的同时,加入了实战的经验总结,使得本书不仅仅是介绍理论,而且能够与实际生产联系得更加紧密。本书也是全球第一本介绍英特尔集成众核架构的书籍,从侧面体现了几位作者的实力,也说明中国在高性能软件研发领域,积累了一定的成绩。为了让这本书与英特尔至强融核产品同步发布,几位作者以及浪潮-Intel联合实验室的其他成员付出了巨大的努力,在此我也谨表谢意。
祝愿诸位读者在阅读本书后能够快速掌握英特尔至强融核的使用方法,并通过使用至强融核产品为各自领域的高性能计算应用做出成绩。浪潮集团愿与英特尔公司一道,为高性能产业奉献自己的一份力量。
王恩东
高效能服务器和存储技术国家重点实验室主任
浪潮-Intel中国并行计算联合实验室主任
|
|