图书介绍

Hadoop海量数据处理 技术详解与项目实战 大数据云计算ip 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

Hadoop海量数据处理 技术详解与项目实战 大数据云计算ip 第2版
  • 范东来著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115427465
  • 出版时间:2016
  • 标注页数:353页
  • 文件大小:49MB
  • 文件页数:369页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop海量数据处理 技术详解与项目实战 大数据云计算ip 第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

基础篇:Hadoop基础2

第1章 绪论2

1.1 Hadoop和云计算2

1.1.1 Hadoop的电梯演讲2

1.1.2 Hadoop生态圈3

1.1.3 云计算的定义6

1.1.4 云计算的类型7

1.1.5 Hadoop和云计算8

1.2 Hadoop和大数据9

1.2.1 大数据的定义9

1.2.2 大数据的结构类型10

1.2.3 大数据行业应用实例12

1.2.4 Hadoop和大数据13

1.2.5 其他大数据处理平台14

1.3 数据挖掘和商业智能15

1.3.1 数据挖掘的定义15

1.3.2 数据仓库17

1.3.3 操作数据库系统和数据仓库系统的区别18

1.3.4 为什么需要分离的数据仓库19

1.3.5 商业智能19

1.3.6 大数据时代的商业智能20

1.4 小结21

第2章 环境准备22

2.1 Hadoop的发行版本选择22

2.1.1 Apache Hadoop22

2.1.2 CDH22

2.1.3 Hadoop的版本23

2.1.4 如何选择Hadoop的版本25

2.2 Hadoop架构26

2.2.1 Hadoop HDFS架构27

2.2.2 YARN架构28

2.2.3 Hadoop架构28

2.3 安装Hadoop29

2.3.1 安装运行环境30

2.3.2 修改主机名和用户名36

2.3.3 配置静态IP地址36

2.3.4 配置SSH无密码连接37

2.3.5 安装JDK38

2.3.6 配置Hadoop39

2.3.7 格式化HDFS42

2.3.8 启动Hadoop并验证安装42

2.4 安装Hive43

2.4.1 安装元数据库44

2.4.2 修改Hive配置文件44

2.4.3 验证安装45

2.5 安装HBase46

2.5.1 解压文件并修改Zookeeper相关配置46

2.5.2 配置节点46

2.5.3 配置环境变量47

2.5.4 启动并验证47

2.6 安装Sqoop47

2.7 Cloudera Manager48

2.8 小结51

第3章 Hadoop的基石:HDFS52

3.1 认识HDFS52

3.1.1 HDFS的设计理念54

3.1.2 HDFS的架构54

3.1.3 HDFS容错58

3.2 HDFS读取文件和写入文件58

3.2.1 块的分布59

3.2.2 数据读取60

3.2.3 写入数据61

3.2.4 数据完整性62

3.3 如何访问HDFS63

3.3.1 命令行接口63

3.3.2 Java API66

3.3.3 其他常用的接口75

3.3.4 Web UI75

3.4 HDFS中的新特性76

3.4.1 NameNode HA76

3.4.2 NameNodeFederation78

3.4.3 HDFS Snapshots79

3.5 小结79

第4章 YARN:统一资源管理和调度平台80

4.1 YARN是什么80

4.2 统一资源管理和调度平台范型81

4.2.1 集中式调度器81

4.2.2 双层调度器81

4.2.3 状态共享调度器82

4.3 YARN的架构82

4.3.1 ResourceManager83

4.3.2 NodeManager85

4.3.3 ApplicationMaster87

4.3.4 YARN的资源表示模型Container87

4.4 YARN的工作流程88

4.5 YARN的调度器89

4.5.1 YARN的资源管理机制89

4.5.2 FIFO Scheduler90

4.5.3 Capacity Scheduler90

4.5.4 FairScheduler91

4.6 YARN命令行92

4.7 Apache Mesos95

4.8 小结96

第5章 分而治之的智慧:MapReduce97

5.1 认识MapReduce97

5.1.1 MapReduce的编程思想98

5.1.2 MapReduce运行环境100

5.1.3 MapReduce作业和任务102

5.1.4 MapReduce的计算资源划分102

5.1.5 MapReduce的局限性103

5.2 Hello Word Count104

5.2.1 WordCount的设计思路104

5.2.2 编写WordCount105

5.2.3 运行程序107

5.2.4 还能更快吗109

5.3 MapReduce的过程109

5.3.1 从输入到输出109

5.3.2 input110

5.3.3 map及中间结果的输出112

5.3.4 shuffle113

5.3.5 reduce及最后结果的输出115

5.3.6 sort115

5.3.7 作业的进度组成116

5.4 MapReduce的工作机制116

5.4.1 作业提交117

5.4.2 作业初始化118

5.4.3 任务分配118

5.4.4 任务执行118

5.4.5 任务完成118

5.4.6 推测执行119

5.4.7 MapReduce容错119

5.5 MapReduce编程120

5.5.1 Writable类120

5.5.2 编写Writable类123

5.5.3 编写Mapper类124

5.5.4 编写Reducer类125

5.5.5 控制shuffle126

5.5.6 控制sort128

5.5.7 编写main函数129

5.6 MapReduce编程实例:连接130

5.6.1 设计思路131

5.6.2 编写Mapper类131

5.6.3 编写Reducer类132

5.6.4 编写main函数133

5.7 MapReduce编程实例:二次排序134

5.7.1 设计思路134

5.7.2 编写Mapper类135

5.7.3 编写Partitioner类136

5.7.4 编写SortComparator类136

5.7.5 编写Reducer类137

5.7.6 编写main函数137

5.8 MapReduce编程实例:全排序139

5.8.1 设计思路139

5.8.2 编写代码140

5.9 小结141

第6章 SQL on Hadoop:Hive142

6.1 认识Hive142

6.1.1 从MapReduce到SQL143

6.1.2 Hive架构144

6.1.3 Hive与关系型数据库的区别146

6.1.4 Hive命令的使用147

6.2 数据类型和存储格式149

6.2.1 基本数据类型149

6.2.2 复杂数据类型149

6.2.3 存储格式150

6.2.4 数据格式151

6.3 HQL:数据定义152

6.3.1 Hive中的数据库152

6.3.2 Hive中的表154

6.3.3 创建表154

6.3.4 管理表156

6.3.5 外部表156

6.3.6 分区表156

6.3.7 删除表158

6.3.8 修改表158

6.4 HQL:数据操作159

6.4.1 装载数据159

6.4.2 通过查询语句向表中插入数据160

6.4.3 利用动态分区向表中插入数据160

6.4.4 通过CTAS加载数据161

6.4.5 导出数据161

6.5 HQL:数据查询162

6.5.1 SELECT...FROM语句162

6.5.2 WHERE语句163

6.5.3 GROUPBY和HAVING语句164

6.5.4 JOIN语句164

6.5.5 ORDER BY和SORTBY语句166

6.5.6 DISTRIBUTEBY和SORTBY语句167

6.5.7 CLUSTER BY167

6.5.8 分桶和抽样168

6.5.9 UNION ALL168

6.6 Hive函数168

6.6.1 标准函数168

6.6.2 聚合函数168

6.6.3 表生成函数169

6.7 Hive用户自定义函数169

6.7.1 UDF169

6.7.2 UDAF170

6.7.3 UDTF171

6.7.4 运行173

6.8 小结173

第7章 SQL to Hadoop:Sqoop174

7.1 一个Sqoop示例174

7.2 导入过程176

7.3 导出过程178

7.4 Sqoop的使用179

7.4.1 codegen180

7.4.2 create-hive-table180

7.4.3 eval181

7.4.4 export181

7.4.5 help182

7.4.6 import182

7.4.7 import-all-tables183

7.4.8 job184

7.4.9 list-databases184

7.4.10 list-tables184

7.4.11 merge184

7.4.12 metastore185

7.4.13 version186

7.5 小结186

第8章 HBase:HadoopDatabase187

8.1 酸和碱:两种数据库事务方法论187

8.1.1 ACID188

8.1.2 BASE188

8.2 CAP定理188

8.3 NoSQL的架构模式189

8.3.1 键值存储189

8.3.2 图存储190

8.3.3 列族存储191

8.3.4 文档存储192

8.4 HBase的架构模式193

8.4.1 行键、列族、列和单元格193

8.4.2 HMaster194

8.4.3 Region和RegionServer195

8.4.4 WAL195

8.4.5 HFile195

8.4.6 Zookeeper197

8.4.7 HBase架构197

8.5 HBase写入和读取数据198

8.5.1 Region定位198

8.5.2 HBase写入数据199

8.5.3 HBase读取数据199

8.6 HBase基础API200

8.6.1 创建表201

8.6.2 插入202

8.6.3 读取203

8.6.4 扫描204

8.6.5 删除单元格206

8.6.6 删除表207

8.7 HBase高级API207

8.7.1 过滤器208

8.7.2 计数器208

8.7.3 协处理器209

8.8 小结214

第9章 Hadoop性能调优和运维215

9.1 Hadoop客户端215

9.2 Hadoop性能调优216

9.2.1 选择合适的硬件216

9.2.2 操作系统调优218

9.2.3 JVM调优219

9.2.4 Hadoop参数调优219

9.3 Hive性能调优225

9.3.1 JOIN优化226

9.3.2 Reducer的数量226

9.3.3 列裁剪226

9.3.4 分区裁剪226

9.3.5 GROUP BY优化226

9.3.6 合并小文件227

9.3.7 MULTI-GROUPBY和MULTI-INSERT228

9.3.8 利用UNIONALL特性228

9.3.9 并行执行228

9.3.10 全排序228

9.3.11 Top N229

9.4 HBase调优229

9.4.1 通用调优229

9.4.2 客户端调优230

9.4.3 写调优231

9.4.4 读调优231

9.4.5 表设计调优232

9.5 Hadoop运维232

9.5.1 集群节点动态扩容和卸载233

9.5.2 利用SecondaryNameNode恢复NameNode234

9.5.3 常见的运维技巧234

9.5.4 常见的异常处理235

9.6 小结236

应用篇:商业智能系统项目实战238

第10章 在线图书销售商业智能系统238

10.1 项目背景238

10.2 功能需求239

10.3 非功能需求240

10.4 小结240

第11章 系统结构设计241

11.1 系统架构241

11.2 功能设计242

11.3 数据仓库结构243

11.4 系统网络拓扑与硬件选型246

11.4.1 系统网络拓扑246

11.4.2 系统硬件选型248

11.5 技术选型249

11.5.1 平台选型249

11.5.2 系统开发语言选型249

11.6 小结249

第12章 在开发之前250

12.1 新建一个工程250

12.1.1 安装Python250

12.1.2 安装PyDev插件251

12.1.3 新建PyDev项目252

12.2 代码目录结构253

12.3 项目的环境变量253

12.4 如何调试254

12.5 小结254

第13章 实现数据导入导出模块255

13.1 处理流程255

13.2 导入方式256

13.2.1 全量导入256

13.2.2 增量导入256

13.3 读取配置文件257

13.4 SqoopUtil261

13.5 整合262

13.6 导入说明262

13.7 导出模块263

13.8 小结265

第14章 实现数据分析工具模块266

14.1 处理流程266

14.2 读取配置文件266

14.3 HiveUtil268

14.4 整合268

14.5 数据分析和报表269

14.5.1 OLAP和Hive269

14.5.2 OLAP和多维模型270

14.5.3 选MySQL还是选HBase272

14.6 小结273

第15章 实现业务数据的数据清洗模块274

15.1 ETL274

15.1.1 数据抽取274

15.1.2 数据转换274

15.1.3 数据清洗工具275

15.2 处理流程275

15.3 数据去重276

15.3.1 产生原因276

15.3.2 去重方法277

15.3.3 一个很有用的UDF:RowNum277

15.3.4 第二种去重方法279

15.3.5 进行去重279

15.4 小结282

第16章 实现点击流日志的数据清洗模块283

16.1 数据仓库和Web283

16.2 处理流程285

16.3 字段的获取285

16.4 编写MapReduce作业288

16.4.1 编写IP地址解析器288

16.4.2 编写Mapper类291

16.4.3 编写Partitioner类295

16.4.4 编写SortComparator类295

16.4.5 编写Reducer类297

16.4.6 编写main函数298

16.4.7 通过Python调用jar文件299

16.5 还能做什么300

16.5.1 网站分析的指标300

16.5.2 网站分析的决策支持301

16.6 小结301

第17章 实现购书转化率分析模块302

17.1 漏斗模型302

17.2 处理流程303

17.3 读取配置文件303

17.4 提取所需数据304

17.5 编写转化率分析MapReduce作业305

17.5.1 编写Mapper类306

17.5.2 编写Partitioner类308

17.5.3 编写SortComparator类309

17.5.4 编写Reducer类310

17.5.5 编写Driver类312

17.5.6 通过Python模块调用jar文件314

17.6 对中间结果进行汇总得到最终结果314

17.7 整合316

17.8 小结316

第18章 实现购书用户聚类模块317

18.1 物以类聚317

18.2 聚类算法318

18.2.1 k-means算法318

18.2.2 Canopy算法319

18.2.3 数据向量化320

18.2.4 数据归一化321

18.2.5 相似性度量322

18.3 用MapReduce实现聚类算法323

18.3.1 Canopy算法与MapReduce323

18.3.2 k-means算法与MapReduce323

18.3.3 Apache Mahout324

18.4 处理流程324

18.5 提取数据并做归一化325

18.6 维度相关性327

18.6.1 维度的选取327

18.6.2 相关系数与相关系数矩阵328

18.6.3 计算相关系数矩阵328

18.7 使用Mahout完成聚类329

18.7.1 使用Mahout329

18.7.2 解析Mahout的输出332

18.7.3 得到聚类结果334

18.8 得到最终结果335

18.9 评估聚类结果337

18.9.1 一份不适合聚类的数据337

18.9.2 簇间距离和簇内距离337

18.9.3 计算平均簇间距离338

18.10 小结339

第19章 实现调度模块340

19.1 工作流340

19.2 编写代码341

19.3 crontab342

19.4 让数据说话343

19.5 小结344

结束篇:总结和展望346

第20章 总结和展望346

20.1 总结346

20.2 BDAS347

20.3 Dremel系技术348

20.4 Pregel系技术349

20.5 Docker和Kubernetes350

20.6 数据集成工具NiFi350

20.7 小结351

参考文献352

热门推荐