图书介绍

算法与并行计算2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

（美）格巴里著著
出版社：北京：清华大学出版社
ISBN：9787302290094
出版时间：2012
标注页数：248页
文件大小：51MB
文件页数：271页
主题词：计算机算法－教材；并行算法－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：76402a204a40b0ab8a1953e0fe561236

下载说明

算法与并行计算PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章引言1

1.1 概述1

1.2 自动并行编程1

1.3 算法3

1.3.1 算法的有向图3

1.3.2 算法的邻接矩阵A4

1.3.3 基于子任务的依赖关系对算法进行分类5

1.3.4 串行算法6

1.3.5 并行算法6

1.3.6 SPA6

1.3.7 NSPA7

1.3.8 RIA8

1.3.9 并行算法实现8

1.4 设计并行计算系统9

1.5 并行算法和并行体系结构10

1.6 并行算法与并行体系结构相关10

1.7 算法的实现：两个方面的问题11

1.8 衡量并行计算的优势11

1.8.1 加速比11

1.8.2 通信开销12

1.8.3 计算加速比和通信开销12

1.9 针对多处理器系统的Amdahl法则14

1.10 Gustafson-Barsis法则15

1.11并行计算的应用16

1.11.1 气象建模16

1.11.2 CT17

1.11.3 计算机流体力学（CFD）18

1.12 习题18

第2章增强单处理器的性能21

2.1 概述21

2.2 提高处理器的时钟频率21

2.3 ALU的并行化22

2.4 使用分级存储器体系24

2.4.1 内存-高速缓存之间的操作25

2.4.2 高速缓存的设计26

2.4.3 分层高速缓存26

2.4.4 将内存块映射到高速缓存行26

2.4.5 关联映射27

2.4.6 组相关映射28

2.4.7 缓存容量对缓存命中率的影响28

2.5 流水线作业28

估算流水线作业的速度29

2.6 超长指令字（VLIW）处理器32

2.7 指令级并行（ILP）和超标量处理器33

2.7.1 真实数据依赖：写后读（RAW）34

2.7.2 程序的依赖关系35

2.7.3 资源冲突35

2.7.4 输出依赖性：写后写（WAW）35

2.7.5 反依赖：读后写（WAR）36

2.8 多线程处理器36

2.9 习题37

第3章并行计算机39

3.1 概述39

3.2 并行计算39

3.3 共享内存的多处理器（统一内存访问UMA）40

3.4 分布式内存多处理器（非统一内存访问NUMA）41

3.5 SIMD处理器41

3.6 脉动式处理器42

3.7 集群计算44

3.8 网格计算（云计算）44

3.9 多核系统44

3.10 流多处理器46

3.11并行处理器之间的通信48

3.11.1 通信类型48

3.11.2 消息传递（MP）通信机制49

3.12 并行体系结构总结50

3.13 习题50

第4章共享内存多处理器52

4.1 概述52

4.2 高速缓存一致性和内存一致性53

4.2.1 目录协议56

4.2.2 Snoopy协议57

4.3 同步和互斥57

4.3.1 同步：锁机制58

4.3.2 同步：互斥量59

4.3.3 同步：栅栏60

4.3.4 同步原语的对比61

4.4 习题62

第5章互连网络63

5.1 概述63

5.2 逻辑拓扑结构中互连网络的分类63

5.2.1 总线型63

5.2.2 星型64

5.2.3 环型64

5.2.4 网型64

5.2.5 交叉开关网络65

5.2.6 交叉开关网络的连接及仲裁66

5.2.7 多级互连网络66

5.2.8 榕树（Banyan）网络66

5.2.9 树型网络67

5.2.10 随机拓扑网络68

5.3 互联网络交换架构68

5.3.1 输入队列交换器69

5.3.2 输出队列交换器70

5.3.3 共享缓冲区交换器71

5.3.4 多输入队列交换器73

5.3.5 多输出队列交换器73

5.3.6 多输入输出队列交换器74

5.3.7 VRQ交换器75

5.4 习题76

第6章并发平台78

6.1 概述78

6.2 并发平台78

6.3 Cilk++78

6.3.1 Cilk+++并行循环：cilk_for79

6.3.2 数据竞争和程序不确定性80

6.3.3 将串行代码并行化的Cilk+++组件82

6.3.4 使用Cilk+++实现矩阵乘法82

6.4 OpenMP84

6.4.1 OpenMP编译指导语句85

6.4.2 编译指导语句子句86

6.4.3 OpenMP负载分配87

6.4.4 循环指导语句：for87

6.4.5 循环指导语句：sections89

6.4.6 运行时库函数90

6.4.7 环境变量90

6.4.8 OpenMP同步90

6.5 统一计算设备架构（CUDA）91

6.5.1 定义CUDA中的线程、块和网格93

6.5.2 将函数交付内核执行94

6.5.3 主机与CUDA设备间的通信95

6.5.4 CUDA线程的同步与通信95

6.5.5 内核和网格95

6.5.6 块97

6.5.7 线程97

6.5.8 CUDA C语言扩展97

第7章针对并行算法的特别技术98

7.1 概述98

7.2 定义算法变量99

7.3 独立循环调度99

7.4 依赖循环100

7.5 针对简单依赖循环的循环分发方法100

7.6 循环展开101

7.7 问题划分101

7.8 分而治之（递归划分）策略102

7.9 流水线104

7.1 0习题106

第8章非串行-并行算法107

8.1 概述107

8.2 并行化用DAG表示的NSPA算法108

8.3 分析NSPA的形式化方法109

矩阵的幂的意义：矩阵的连通性110

8.4 辨别算法中的环112

8.5 提取串行及并行算法的性能参数113

8.6 相关定理114

8.7 串行和并行算法在并行计算机上的性能116

8.8 习题116

第9章 z-变换分析118

9.1 概述118

9.2 z-变换的定义118

9.3 一维有限脉冲响应滤波器算法119

9.4 z-变换的软件硬件实现119

9.5 设计1：用霍纳法则实现广播输入管道输出120

9.6 设计2：管道输入广播输出121

9.7 设计3：管道输入管道输出122

9.8 习题123

第10章依赖关系图分析124

10.1 概述124

10.2 一维有限冲击响应滤波算法124

10.3 算法的依赖关系图124

10.4 计算算法的依赖关系图125

定义D中的变量125

10.5 一维有限冲击响应滤波的调度函数127

10.5.1 将依赖关系图转换为有向无环图或串行-并行算法127

10.5.2 广播变量128

10.5.3 流水变量128

10.5.4 确定调度函数129

10.5.5 线性线程／任务调度的限制130

10.5.6 非线性调度操作131

10.6 结点投影操作131

10.7 非线性投影操作132

使用并发平台133

10.8 有向无环图分析的软件和硬件实现133

10.8.1 设计方案1：投影方向d1=[1 0]t133

10.8.2 设计方案2：投影方向d2=[0 1]t134

10.9 习题135

第11章计算几何分析136

11.1 概述136

11.2 矩阵乘算法136

11.3 3D依赖图和计算域D136

3D域边界137

11.4 D的面和顶点138

11.5 算法变量的依赖矩阵138

11.6 依赖矩阵的零空间：广播子域B139

A的零空间139

11.7 设计空间的探索：选择广播变量还是流水线变量141

11.7.1 馈送／提取广播变量的点141

11.7.2 变量流水线143

11.8 数据调度143

调度函数对数据时序的影响146

11.9 使用线性投影算子进行投影操作147

11.9.1 投影矩阵P147

11.9.2 投影方向148

11.9.3 投影方向d的选择148

11.9.4 当投影方法d给定时，找出矩阵P149

11.1 0投影操作对数据的影响150

11.1 0.1 输出数据150

11.1 0.2 输入数据M2151

11.1 0.3 输入数据M3151

11.1 1最终的多线程／多处理器体系结构151

11.1 2本章总结152

11.1 3 习题152

第12章实例：一维IIR数字滤波器154

12.1 概述154

12.2 一维IIR数字滤波器算法154

12.3 IIR滤波器的依赖图154

12.3.1 二维依赖图154

12.3.2 一维滤波器的调度函数155

12.3.3 投影方向和投影矩阵的选择157

12.3.4 设计1：投影方向157

12.3.5 设计2：投影方向157

12.4 一维IIR数字滤波器算法的z域分析159

12.4.1 设计3：广播输入和流水线输出159

12.4.2 流水线输入和广播输出159

12.4.3 设计4：流水线输入和输出159

12.5 习题161

第13章案例分析：二维与三维数字滤波器162

13.1 概述162

13.2 行和帧环绕问题162

13.3 二维递归滤波器163

13.3.1 二维IIR设计1：广播XY输入、流水输出163

13.3.2 二维IIR设计2：流水XY输入、广播输出164

13.4 三维数字滤波器165

13.4.1 三维IIR设计1：广播XY输入、流水输出166

13.4.2 三维IIR设计2：流水化X和Y输入、广播输出166

第14章实例分析：多重速率的采样器和插值器168

14.1 概述168

14.2 采样器的架构168

14.3 采样器的依赖关系图169

14.4 采样器时序170

14.5 在s1=[1 0］的情况下，采样器的有向无环图171

14.6 在s2=［1 —1］的情况下，插值器的有向无环图172

14.7 在s3=［1 1］的情况下，插值器的有向无环图174

14.8 多相采样器的实现174

14.9 插值器的架构175

14.1 0插值器的依赖关系图176

14.1 1插值器的调度177

14.1 2在s1=［1 0］的情况下，插值器的有向无环图178

14.1 3在s2=［1 —1］的情况下，插值器的有向无环图179

14.1 4在s3=［1 1］的情况下，插值器的有向无环图180

14.1 5多相插值器的实现181

第15章案例学习：模式匹配182

15.1 概述182

15.2 将算法表达为正则迭代算法（RIA）182

15.3 得到算法依赖图183

15.4 数据调度183

15.5 DAG结点的投影184

15.6 设计方案1：当s=[1 1]t时的设计空间184

15.6.1 设计方案1.a：设s=[1 1]t,da=[0 1]t185

15.6.2 设计方案1.b：设s=[1 1]t,db=[1 0]t186

15.6.3 设计方案1.c：设s=[1 1]t,dc=[1 1]t186

15.7 设计方案2：当s=[1 —1]t时的设计空间搜索187

15.7.1 设计方案2.a：设s=[1 —1]t,da=[1 0］t187

15.7.2 设计方案2.b：设s=[1 —1]t,db=[0 1]t187

15.7.3 设计方案2.c：设s=[1 —1]t,dc=[1 —1]t188

15.8 设计方案3：当s=[1 0]t时的设计空间搜索188

设计方案3.a：设s=[1 0］t,da=[1 0]t188

第16章案例学习：用于视频压缩的运动估计189

16.1 概述189

16.2 FBMA189

16.3 数据缓冲要求190

16.4 FBMA的形式化191

16.5 运动估计的分层形式化191

16.5.1 第3层（最左层）192

16.5.2 第2层192

16.5.3 第1层192

16.5.4 第0层（最右层）192

16.6 层次化结构块的硬件设计193

16.6.1 第3层的硬件设计193

16.6.2 第2层的硬件设计196

16.6.3 第1层的硬件设计197

16.6.4 第0层的硬件设计197

第17章范例分析：2m阶伽罗瓦域乘法198

17.1 概述198

17.2 2m阶伽罗瓦域乘法算法198

17.3 将域乘法表示为RIA200

17.4 域乘法的依赖图200

17.5 数据调度201

17.6 DAG结点投影203

17.7 设计1：使用d1=[1 0]t204

17.8 设计2：使用d2=[1 1]t204

17.9 设计3：使用d3=[1 —1]t205

17.1 0有限域乘法器的应用206

第18章范例分析：2m阶伽罗瓦域的多项式除法207

18.1 概述207

18.2 多项式除法算法207

18.3 LFSR依赖图208

18.4 数据调度209

18.5 DAG结点投影210

18.6 设计1：s1=［1 —1］时的设计空间211

18.7 设计2：s2=［1 0］时的设计空间212

18.8 设计3：s3=［1 —0.5 ］时的设计空间214

18.9 3种设计方案的比较215

第19章快速傅里叶变换217

19.1 概述217

19.2 时分FFT218

19.3 流水线基2时分FFT处理器221

19.4 频分FFT221

19.5 流水线基2频分FFT处理器224

第20章求解线性方程组225

20.1 概述225

20.2 特别矩阵结构225

20.2.1 平面旋转（吉文斯）矩阵226

20.2.2 带状矩阵226

20.2.3 对角矩阵227

20.2.4 上三角矩阵227

20.2.5 下三角矩阵227

20.2.6 三对角矩阵227

20.2.7 上Hessenberg矩阵227

20.2.8 下Hessenberg矩阵228

20.3 前向替代（直接技术）228

20.3.1 前向替代依赖图228

20.3.2 前向替代规划方程和有向无环图（DAG）229

20.3.3 前向替代投影函数230

20.4 回代230

20.5 矩阵三角化算法230

20.5.1 Givens旋转算法232

20.5.2 矩阵三角化调度函数233

20.5.3 矩阵三角化投影方向234

20.6 连续超额松弛（SOR）（迭代法）234

20.6.1 SOR算法235

20.6.2 SOR算法调度算法235

20.6.3 SOR算法的投影方向236

20.7 习题237

第21章使用有限差分法求解偏微分方程238

21.1 概述238

21.2 1-D系统的FDM239

21.2.1 1-D FDM的调度函数240

21.2.2 投影方向242

参考文献243