图书介绍

Hadoop大数据技术开发实战2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

Hadoop大数据技术开发实战
  • (中国)张伟洋 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302534020
  • 出版时间:2019
  • 标注页数:462页
  • 文件大小:249MB
  • 文件页数:478页
  • 主题词:数据处理软件-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Hadoop大数据技术开发实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 VMware中安装CentOS 71

1.1 下载CentOS 7镜像文件1

1.2 新建虚拟机5

1.3 安装操作系统9

第2章 CentOS 7集群环境配置16

2.1 系统环境配置16

2.1.1 新建用户17

2.1.2 修改用户权限17

2.1.3 关闭防火墙17

2.1.4 设置固定IP18

2.1.5 修改主机名22

2.1.6 新建资源目录23

2.2 安装JDK23

2.3 克隆虚拟机25

2.4 配置主机IP映射29

第3章 Hadoop31

3.1 Hadoop简介31

3.1.1 Hadoop生态系统架构32

3.1.2 Hadoop 1.x与2.x的架构对比33

3.2 YARN基本架构及组件34

3.3 YARN工作流程37

3.4 配置集群各节点SSH无密钥登录38

3.4.1 无密钥登录原理38

3.4.2 无密钥登录操作步骤39

3.5 搭建Hadoop 2.x分布式集群41

第4章 HDFS48

4.1 HDFS简介48

4.1.1 设计目标49

4.1.2 总体架构49

4.1.3 主要组件50

4.1.4 文件读写53

4.2 HDFS命令行操作54

4.3 HDFS Web界面操作57

4.4 HDFS Java API操作59

4.4.1 读取数据59

4.4.2 创建目录61

4.4.3 创建文件62

4.4.4 删除文件63

4.4.5 遍历文件和目录64

4.4.6 获取文件或目录的元数据65

4.4.7 上传本地文件66

4.4.8 下载文件到本地66

第5章 MapReduce68

5.1 MapReduce简介68

5.1.1 设计思想69

5.1.2 任务流程70

5.1.3 工作原理71

5.2 MapReduce程序编写步骤74

5.3 案例分析:单词计数76

5.4 案例分析:数据去重82

5.5 案例分析:求平均分86

5.6 案例分析:二次排序89

5.7 使用MRUnit测试MapReduce程序97

第6章 ZooKeeper100

6.1 ZooKeeper简介100

6.1.1 应用场景101

6.1.2 架构原理101

6.1.3 数据模型102

6.1.4 节点类型103

6.1.5 Watcher机制103

6.1.6 分布式锁105

6.2 ZooKeeper安装配置106

6.2.1 单机模式106

6.2.2 伪分布模式108

6.2.3 集群模式109

6.3 ZooKeeper命令行操作112

6.4 ZooKeeper Java API操作114

6.4.1 创建Java工程114

6.4.2 创建节点115

6.4.3 修改数据118

6.4.4 获取数据118

6.4.5 删除节点123

6.5 案例分析:监听服务器动态上下线124

第7章 HDFS与YARN HA129

7.1 HDFS HA搭建129

7.1.1 架构原理130

7.1.2 搭建步骤131

7.1.3 结合ZooKeeper进行HDFS自动故障转移137

7.2 YARN HA搭建142

7.2.1 架构原理142

7.2.2 搭建步骤142

第8章 HBase147

8.1 什么是HBase147

8.2 HBase基本结构148

8.3 HBase数据模型149

8.4 HBase集群架构151

8.5 HBase安装配置153

8.5.1 单机模式153

8.5.2 伪分布模式155

8.5.3 集群模式156

8.6 HBase Shell命令操作160

8.7 HBase Java API操作164

8.7.1 创建Java工程164

8.7.2 创建表164

8.7.3 添加数据166

8.7.4 查询数据168

8.7.5 删除数据169

8.8 HBase过滤器170

8.9 案例分析:HBase MapReduce数据转移174

8.9.1 HBase不同表间数据转移174

8.9.2 HDFS数据转移至HBase180

8.10 案例分析:HBase数据备份与恢复183

第9章 Hive185

9.1 什么是Hive185

9.1.1 数据单元186

9.1.2 数据类型187

9.2 Hive架构体系189

9.3 Hive三种运行模式190

9.4 Hive安装配置191

9.4.1 内嵌模式192

9.4.2 本地模式195

9.4.3 远程模式198

9.5 Hive常见属性配置200

9.6 Beeline CLI的使用201

9.7 Hive数据库操作205

9.8 Hive表操作208

9.8.1 内部表209

9.8.2 外部表213

9.8.3 分区表215

9.8.4 分桶表219

9.9 Hive查询223

9.9.1 SELECT子句查询224

9.9.2 JOIN连接查询230

9.10 其他Hive命令233

9.11 Hive元数据表结构分析235

9.12 Hive自定义函数237

9.13 Hive JDBC操作239

9.14 案例分析:Hive与HBase整合242

9.15 案例分析:Hive分析搜狗用户搜索日志246

第10章 Sqoop251

10.1 什么是Sqoop251

10.1.1 Sqoop基本架构252

10.1.2 Sqoop开发流程252

10.2 使用Sqoop253

10.3 数据导入工具254

10.4 数据导出工具259

10.5 Sqoop安装与配置261

10.6 案例分析:将MySQL表数据导入到HDFS中262

10.7 案例分析:将HDFS中的数据导出到MySQL中263

10.8 案例分析:将MySQL表数据导入到HBase中264

第11章 Kafka267

11.1 什么是Kafka267

11.2 Kafka架构268

11.3 主题与分区269

11.4 分区副本271

11.5 消费者组273

11.6 数据存储机制274

11.7 集群环境搭建276

11.8 命令行操作278

11.8.1 创建主题278

11.8.2 查询主题279

11.8.3 创建生产者280

11.8.4 创建消费者280

11.9 Java API操作281

11.9.1 创建Java工程281

11.9.2 创建生产者281

11.9.3 创建消费者283

11.9.4 运行程序285

11.10 案例分析:Kafka生产者拦截器287

第12章 Flume294

12.1 什么是Flume294

12.2 架构原理295

12.2.1 单节点架构295

12.2.2 组件介绍296

12.2.3 多节点架构297

12.3 安装与简单使用299

12.4 案例分析:日志监控(一)302

12.5 案例分析:日志监控(二)304

12.6 拦截器306

12.6.1 内置拦截器307

12.6.2 自定义拦截器310

12.7 选择器313

12.8 案例分析:拦截器和选择器的应用315

12.9 案例分析:Flume与Kafka整合319

第13章 Storm322

13.1 什么是Storm322

13.2 Storm Topology323

13.3 Storm集群架构324

13.4 Storm流分组326

13.5 Storm集群环境搭建329

13.6 案例分析:单词计数332

13.6.1 设计思路332

13.6.2 代码编写333

13.6.3 程序运行339

13.7 案例分析:Storm与Kafka整合341

第14章 Elasticsearch347

14.1 什么是Elasticsearch347

14.2 基本概念348

14.2.1 索引、类型和文档348

14.2.2 分片和副本348

14.2.3 路由349

14.3 集群架构350

14.4 集群环境搭建352

14.5 Kibana安装355

14.6 REST API357

14.6.1 集群状态API357

14.6.2 索引API358

14.6.3 文档API360

14.6.4 搜索API363

14.6.5 Query DSL365

14.7 Head插件安装371

14.8 Java API操作:员工信息375

第15章 Scala379

15.1 什么是Scala379

15.2 安装Scala380

15.2.1 Windows中安装Scala380

15.2.2 CentOS 7中安装Scala381

15.3 Scala基础382

15.3.1 变量声明382

15.3.2 数据类型383

15.3.3 表达式385

15.3.4 循环386

15.3.5 方法与函数388

15.4 集合391

15.4.1 数组391

15.4.2 List393

15.4.3 Map映射394

15.4.4 元组396

15.4.5 Set396

15.5 类和对象398

15.5.1 类的定义398

15.5.2 单例对象399

15.5.3 伴生对象399

15.5.4 get和set方法400

15.5.5 构造器402

15.6 抽象类和特质404

15.6.1 抽象类404

15.6.2 特质406

15.7 使用Eclipse创建Scala项目408

15.7.1 安装Scala for Eclipse IDE408

15.7.2 创建Scala项目409

15.8 使用IntelliJ IDEA创建Scala项目410

15.8.1 IDEA中安装Scala插件410

15.8.2 创建Scala项目414

第16章 Spark416

16.1 Spark概述416

16.2 Spark主要组件417

16.3 Spark运行时架构419

16.3.1 Spark Standalone模式419

16.3.2 Spark On YARN模式421

16.4 Spark集群环境搭建423

16.4.1 Spark Standalone模式423

16.4.2 Spark On YARN模式425

16.5 Spark HA搭建426

16.6 Spark应用程序的提交430

16.7 Spark Shell的使用433

16.8 Spark RDD435

16.8.1 创建RDD435

16.8.2 RDD算子436

16.9 案例分析:使用Spark RDD实现单词计数441

16.10 Spark SQL448

16.10.1 DataFrame和Dataset448

16.10.2 Spark SQL基本使用449

16.11 案例分析:使用Spark SQL实现单词计数452

16.12 案例分析:Spark SQL与Hive整合454

16.13 案例分析:Spark SQL读写MySQL457

热门推荐