图书介绍

Hadoop应用架构2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

（美）MARKGROVERTEDMALASKAJONATHANSEIDMANGWENSHAPIRA著；郭文超译著
出版社：北京：人民邮电出版社
ISBN：9787115442437
出版时间：2017
标注页数：282页
文件大小：46MB
文件页数：309页
主题词：数据处理软件

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：7b197aa276c7e6b9ab0eb719daa0aca8

下载说明

Hadoop应用架构PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一部分考虑Hadoop应用的架构设计2

第1章 Hadoop数据建模2

1.1 数据存储选型3

1.1.1 标准文件格式4

1.1.2 Hadoop文件类型5

1.1.3 序列化存储格式7

1.1.4 列式存储格式8

1.1.5 压缩10

1.2 HDFS模式设计12

1.2.1 文件在HDFS中的位置13

1.2.2 高级HDFS模式设计14

1.2.3 HDFS模式设计总结16

1.3 HBase模式设计17

1.3.1 行键17

1.3.2 时间戳19

1.3.3 hop20

1.3.4 表和Region21

1.3.5 使用列22

1.3.6 列簇23

1.3.7 TTL23

1.4 元数据管理24

1.4.1 什么是元数据24

1.4.2 为什么元数据至关重要25

1.4.3 元数据的存储位置25

1.4.4 元数据管理举例26

1.4.5 Hive metastore与HCatalog的局限性26

1.4.6 其他存储元数据的方式27

1.5 结论28

第2章 Hadoop数据移动29

2.1 数据采集考量29

2.1.1 数据采集的时效性30

2.1.2 增量更新31

2.1.3 访问模式32

2.1.4 数据源系统及数据结构33

2.1.5 变换35

2.1.6 网络瓶颈36

2.1.7 网络安全性36

2.1.8 被动推送与主动请求36

2.1.9 错误处理37

2.1.10 复杂度38

2.2 数据采集选择38

2.2.1 文件传输38

2.2.2 文件传输与其他采集方法的考量41

2.2.3 Sqoop：Hadoop与关系数据库的批量传输41

2.2.4 Flume：基于事件的数据收集及处理46

2.2.5 Kafka53

2.3 数据导出57

2.4 小结58

第3章 Hadoop数据处理59

3.1 MapReduce60

3.1.1 MapReduce概述60

3.1.2 MapReduce示例66

3.1.3 MapReduce使用场景71

3.2 Spark72

3.2.1 Spark概述72

3.2.2 Spark组件概述73

3.2.3 Spark基本概念73

3.2.4 Spark的优点76

3.2.5 Spark示例77

3.2.6 Spark使用场景79

3.3 抽象层80

3.3.1 Pig81

3.3.2 Pig示例81

3.3.3 Pig使用场景83

3.4 Crunch84

3.4.1 Crunch示例85

3.4.2 Crunch使用场景88

3.5 Cascading89

3.5.1 Cascading示例89

3.5.2 Cascading使用场景92

3.6 Hive92

3.6.1 Hive概述92

3.6.2 Hive示例93

3.6.3 Hive使用场景97

3.7 Impala98

3.7.1 Impala概述98

3.7.2 面向高速查询的设计99

3.7.3 Impala示例101

3.7.4 Impala使用场景102

3.8 小结102

第4章 Hadoop数据处理通用范式104

4.1 模式一：依主键移除重复记录104

4.1.1 去重示例的测试数据生成105

4.1.2 代码示例：使用Scala实现Spark去重106

4.1.3 代码示例：使用SQL实现去重108

4.2 模式二：数据开窗分析108

4.2.1 生成开窗分析的示例数据109

4.2.2 代码示例：使用Spark分析数据的高峰和低谷110

4.2.3 代码示例：使用SQL分析数据的高峰和低谷113

4.3 模式三：基于时间序列的更新115

4.3.1 利用HBase的版本特性116

4.3.2 以记录主键与开始时间作HBase的行键116

4.3.3 重写HDFS数据更新整个表116

4.3.4 利用HDFS上的分区存储当前记录和历史记录117

4.3.5 生成时间序列的示例数据117

4.3.6 代码示例：使用Spark更新时间序列数据118

4.3.7 代码示例：使用SQL更新时间序列数据120

4.4 小结123

第5章 Hadoop图处理124

5.1 什么是图124

5.2 什么是图处理126

5.3 分布式系统中的图处理127

5.3.1 块同步并行模型127

5.3.2 BSP举例128

5.4 Giraph129

5.4.1 数据的输入和分片130

5.4.2 使用BSP批处理图132

5.4.3 将图回写磁盘136

5.4.4 整体流程控制137

5.4.5 何时选用Giraph138

5.5 GraphX138

5.5.1 另一种RDD138

5.5.2 GrapnX的Pregel接口140

5.5.3 vprog（）142

5.5.4 sendMessage（）142

5.5.5 mergeMessage（）142

5.6 工具选择143

5.7 小结143

第6章协调调度144

6.1 工作流协调调度的必要性144

6.2 脚本的局限性145

6.3 企业级任务调度器及Hadoop146

6.4 Hadoop生态系统中的工作流框架146

6.5 Oozie术语147

6.6 Oozie概述148

6.7 Oozie工作流150

6.8 工作流范式152

6.8.1 点对点式工作流152

6.8.2 扇出式工作流154

6.8.3 分支决策式工作流156

6.9 工作流参数化159

6.10 Classpath定义160

6.11 调度模式161

6.11.1 依频次调度162

6.11.2 时间或数据触发式162

6.12 执行工作流166

6.13 小结166

第7章 Hadoop近实时处理167

7.1 流处理169

7.2 Apache Storm170

7.2.1 Storm高级架构171

7.2.2 Storm拓扑172

7.2.3 元组及数据流173

7.2.4 spout和bolt173

7.2.5 数据流分组174

7.2.6 Storm应用的可靠性175

7.2.7 仅处理一次机制175

7.2.8 容错性176

7.2.9 Storm与HDFS集成176

7.2.10 Storm与HBase集成176

7.2.11 Storm示例：简单移动平均177

7.2.12 Storm评估183

7.3 Trident接口183

7.3.1 Trident示例：简单移动平均184

7.3.2 Trident评估186

7.4 Spark Streaming186

7.4.1 Spark Streaming概述187

7.4.2 Spark Streaming示例：简单求和187

7.4.3 Spark Streaming示例：多路输入188

7.4.4 Spark Streaming示例：状态维护189

7.4.5 Spark Streaming示例：窗口函数191

7.4.6 Spark Streaming示例：Streaming与ETL代码比较191

7.4.7 Spark Streaming评估193

7.5 Flume拦截器193

7.6 工具选择194

7.6.1 低延迟的数据扩充、验证、报警及采集194

7.6.2 NRT技术、滚动平均及迭代处理195

7.6.3 复杂数据流196

7.7 小结197

第二部分案例研究200

第8章点击流分析200

8.1 用例场景定义200

8.2 使用Hadoop进行点击流分析202

8.3 设计概述202

8.4 数据存储203

8.5 数据采集205

8.5.1 客户端层208

8.5.2 收集器层210

8.6 数据处理212

8.6.1 数据去重214

8.6.2 会话生成215

8.7 数据分析217

8.8 协调调度218

8.9 小结221

第9章欺诈检测222

9.1 持续改善222

9.2 开始行动223

9.3 欺诈检测系统架构需求223

9.4 用例介绍223

9.5 架构设计224

9.6 客户端架构226

9.7 画像存储及访问226

9.7.1 缓存227

9.7.2 HBase数据定义228

9.7.3 事务状态更新：通过或否决231

9.8 数据采集232

9.9 近实时处理与探索性分析238

9.10 近实时处理238

9.11 探索性分析239

9.12 其他架构对比240

9.12.1 Flume拦截器240

9.12.2 从Kafka到Storm或Spark Streaming241

9.12.3 扩展的业务规则引擎241

9.13 小结242

第10章数据仓库243

10.1 使用Hadoop构建数据仓库245

10.2 用例场景定义247

10.3 OLTP模式248

10.4 数据仓库：术语介绍249

10.5 数据仓库的Hadoop实践251

10.6 架构设计251

10.6.1 数据建模及存储252

10.6.2 数据采集261

10.6.3 数据处理及访问264

10.6.4 数据聚合268

10.6.5 数据导出269

10.6.6 流程调度270

10.7 小结272

附录A Impala中的关联273

作者简介277

封面介绍278