图书介绍

大数据技术基础 基于Hadoop与Spark2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

大数据技术基础 基于Hadoop与Spark
  • 罗福强,李瑶,陈虹君编著 著
  • 出版社: 北京:人民邮电出版社
  • ISBN:9787115454102
  • 出版时间:2017
  • 标注页数:292页
  • 文件大小:65MB
  • 文件页数:302页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据技术基础 基于Hadoop与SparkPDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 大数据技术概述1

1.1大数据技术的发展背景1

1.1.1大数据技术的发展过程2

1.1.2大数据技术的影响3

1.1.3大数据发展的重大事件5

1.2大数据的概念、特征及意义7

1.2.1什么是大数据7

1.2.2大数据的特征8

1.2.3大数据来自哪儿9

1.2.4大数据的挑战10

1.2.5研究大数据的意义12

1.3大数据的存储与计算模式13

1.3.1大数据的存储模式13

1.3.2大数据的计算模式16

1.4大数据的典型应用18

1.4.1智慧医疗的应用19

1.4.2智慧农业的应用20

1.4.3金融行业的应用21

1.4.4零售行业的应用24

1.4.5电子商务行业的应用24

1.4.6电子政务的应用24

1.5初识Hadoop大数据平台26

1.5.1 Hadoop的发展过程26

1.5.2 Hadoop的优势27

1.5.3 Hadoop的生态系统28

1.5.4 Hadoop的版本29

1.6习题32

第2章Hadoop平台的安装与配置33

2.1安装准备33

2.1.1硬件要求33

2.1.2安装Linux34

2.1.3安装Java36

2.2 Hadoop的集群安装38

2.2.1 Hadoop的运行模式38

2.2.2 Linux系统设置39

2.2.3 SSH的安装41

2.2.4 Hadoop的安装42

2.2.5 Hadoop的配置42

2.2.6 Hadoop的测试49

2.3 Hadoop开发平台的安装51

2.3.1 Eclipse的安装51

2.3.2下载hadoop-eclipse-plugin插件53

2.3.3在Eclipse中配置Hadoop53

2.4习题55

2.5实训55

第3章Hadoop分布式文件系统57

3.1 HDFS概述57

3.1.1 HDFS简介57

3.1.2 HDFS的基本概念58

3.1.3 HDFS的特点59

3.2 HDFS的体系结构61

3.2.1 HDFS设计目标61

3.2.2 HDFS的结构模型61

3.2.3 HDFS文件的读写63

3.2.4 HDFS的数据组织机制63

3.2.5 HDFS的高可用性机制66

3.3 HDFS Shell操作68

3.3.1 Shell命令介绍68

3.3.2 HDFS Shell帮助68

3.3.3文件操作命令69

3.3.4跨文件系统的交互操作命令73

3.3.5权限管理操作74

3.4习题76

3.5实训77

第4章HDFS API编程78

4.1 HDFS API概述78

4.1.1 HDFS API简介78

4.1.2 HDFS Java API的一般用法82

4.2 HDFS Java API客户端编程85

4.2.1目录与文件的创建85

4.2.2文件上传与下载87

4.2.3数据流与文件读写操作89

4.2.4目录与文件的重命名93

4.2.5目录和文件的删除94

4.2.6文件系统的状态信息显示95

4.3 HDFS应用举例——云盘系统的实现99

4.3.1云盘系统分析99

4.3.2云盘系统设计99

4.3.3云盘系统实现100

4.4习题104

4.5实训104

第5章Hadoop分布式计算框架106

5.1 MapReduce概述106

5.1.1为什么需要MapReduce106

5.1.2 MapReduce的优势110

5.1.3 MapReduce的基本概念111

5.1.4 MapReduce框架112

5.1.5 MapReduce发展114

5.2 YARN运行机制118

5.2.1 YARN组成结构118

5.2.2 YARN通信协议120

5.2.3 YARN工作流程121

5.3数据的混洗处理123

5.3.1 map端124

5.3.2 reduce端125

5.4作业的调度125

5.4.1 FIFO调度器126

5.4.2 Capacity调度器126

5.4.3 Fair调度器127

5.4.4调度器的比较128

5.5任务的执行129

5.5.1推测执行129

5.5.2 JVM重用130

5.5.3跳过坏记录130

5.6失败处理机制130

5.6.1任务运行失败130

5.6.2 ApplicationMaster运行失败131

5.6.3 NodeManager运行失败131

5.6.4 ResourceManager运行失败132

5.6.5日志文件133

5.7 MapReduce示例演示——WordCount133

5.8习题136

第6章MapReduce API编程137

6.1 MapReduce API概述137

6.1.1 MapReduce API简介137

6.1.2 MapReduce API编程思路140

6.2 MapReduce的数据类型146

6.2.1序列化146

6.2.2 Writable接口146

6.2.3 Writable类148

6.3 MapReduce的输入153

6.3.1输入分片153

6.3.2文件输入154

6.3.3文本输入156

6.3.4二进制输入157

6.3.5多个输入158

6.3.6数据库输入159

6.4 MapReduce的输出159

6.4.1文本输出160

6.4.2二进制输出160

6.4.3多个输出160

6.4.4延迟输出161

6.4.5数据库输出161

6.5 MapReduce的任务161

6.5.1 map任务162

6.5.2 combine任务163

6.5.3 partition任务164

6.5.4 reduce任务164

6.5.5任务的配置与执行165

6.6 MapReduce应用举例——倒排索引168

6.6.1功能介绍168

6.6.2准备数据169

6.6.3分析与设计170

6.6.4 MapReduce编码实现171

6.6.5测试结果173

6.7习题174

6.8实训175

第7章MapReduce高级编程177

7.1自定义数据类型177

7.2自定义输入/输出183

7.2.1 RecordReader与RecordWriter183

7.2.2自定义输入188

7.2.3自定义输出192

7.3自定义Combiner/Partitioner194

7.3.1自定义Combiner194

7.3.2自定义Partitioner197

7.4组合式计算作业200

7.4.1迭代式计算200

7.4.2依赖关系组合式计算201

7.4.3链式计算202

7.5 MapReduce的特性203

7.5.1计数器203

7.5.2连接210

7.6 MapReduce应用举例——成绩分析系统的实现215

7.6.1成绩分析系统解析215

7.6.2成绩分析系统功能设计216

7.6.3成绩分析系统实现216

7.7习题225

7.8实训225

第8章Spark概述226

8.1环境搭建226

8.1.1 Scala的下载和安装227

8.1.2 Spark的下载与安装228

8.2 Spark简介231

8.2.1 Spark的发展231

8.2.2 Spark的特点232

8.2.3 Spark与Hadoop的关系233

8.2.4 Spark的企业应用234

8.3 Spark大数据技术框架235

8.3.1 Spark技术体系235

8.3.2四大组件概述237

8.4 Spark 2.0使用体验238

8.4.1 Spark入口238

8.4.2第一个Spark程序239

8.5 Spark的数据模型242

8.5.1 RDD介绍242

8.5.2 RDD的处理过程243

8.5.3 Transformation算子与使用243

8.5.4 Action算子与使用251

8.5.5 RDD分区253

8.5.6 RDD的依赖关系253

8.5.7 RDD的容错支持254

8.6 Spark任务调度255

8.6.1 Spark应用程序部署255

8.6.2 Spark任务的调度机制255

8.7习题256

8.8实训257

第9章Spark Streaming编程258

9.1 Spark Streaming介绍258

9.2 Spark Streaming工作机制259

9.3 Spark的DStream流262

9.3.1 DStream转换262

9.3.2 Window操作263

9.3.3 DStream输出264

9.3.4持久化与序列化265

9.3.5设置检测点266

9.4 Spark Streaming案例267

9.5集群处理与性能270

9.6习题272

9.7实训272

第10章Spark SQL编程273

10.1 Spark SQL概述273

10.2 DataFrame275

10.2.1 DataSet与DataFrame275

10.2.2反射机制获取RDD内的Schema276

10.2.3编程接口指定Schema277

10.3数据源278

10.3.1一般load/save方法278

10.3.2 Parquet数据集279

10.3.3 JSON数据集280

10.3.4 JDBC数据集281

10.3.5 DataFrame的案例282

10.4 Spark Streaming与Spark SQL综合案例285

10.5习题290

10.6实训291

参考文献292

热门推荐