图书介绍

Spark IN ACTION实战2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

Spark IN ACTION实战
  • 郑美珠,田华,王佐兵译;(美国)彼得·泽斯维奇,马可·波纳奇 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111617488
  • 出版时间:2019
  • 标注页数:372页
  • 文件大小:192MB
  • 文件页数:392页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark IN ACTION实战PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1部分 第1步3

第1章 Apache Spark简介3

1.1 什么是Spark4

1.1.1 Spark革命4

1.1.2 MapReduce的缺点5

1.1.3 Spark带来了什么有价值的东西5

1.2 Spark组件7

1.2.1 Spark Core7

1.2.2 Spark SQL8

1.2.3 Spark Streaming9

1.2.4 Spark MLlib9

1.2.5 Spark GraphX9

1.3 Spark程序流程9

1.4 Spark生态系统12

1.5 设置spark-in-action VM13

1.5.1 下载和启动虚拟机13

1.5.2 关闭虚拟机14

1.6 总结15

第2章 Spark基础16

2.1 使用spark-in-action VM17

2.1.1 复制Spark in Action GitHub存储库17

2.1.2 找到Java17

2.1.3 使用虚拟机的Hadoop安装18

2.1.4 检查虚拟机的Spark安装19

2.2 用Spark shell编写第一个Spark程序20

2.2.1 启动Spark shell20

2.2.2 第一个Spark代码示例22

2.2.3 弹性分布式数据集的概念24

2.3 基本RDD行动和转换操作24

2.3.1 使用map转换25

2.3.2 使用distinct和flatMap转换27

2.3.3 使用sample、 take和takeSample操作获取RDD的元素30

2.4 Double RDD函数32

2.4.1 Double RDD函数基础统计33

2.4.2 使用直方图可视化数据分布34

2.4.3 近似总和与平均34

2.5 总结35

第3章 编写Spark应用程序36

3.1 在Eclipse中生成一个新的Spark项目36

3.2 开发应用程序41

3.2.1 准备GitHub归档数据集41

3.2.2 加载JSON43

3.2.3 使用Eclipse运行应用程序45

3.2.4 数据汇总47

3.2.5 排除非公司员工48

3.2.6 广播变量49

3.2.7 使用整个数据集52

3.3 提交应用程序53

3.3.1 构建uberjar53

3.3.2 调整应用程序54

3.3.3 使用spark-submit56

3.4 总结58

第4章 深入Spark API60

4.1 使用键值对RDD60

4.1.1 创建键值对RDD61

4.1.2 键值对RDD的基本功能61

4.2 了解数据分区和减少数据混排66

4.2.1 使用Spark数据分区器67

4.2.2 了解和避免不必要的混排68

4.2.3 RDD重新分区71

4.2.4 在分区中映射数据72

4.3 连接、排序、分组数据73

4.3.1 连接数据74

4.3.2 数据排序79

4.3.3 数据分组82

4.4 理解RDD依赖84

4.4.1 RDD依赖和Spark执行84

4.4.2 Spark阶段和任务86

4.4.3 使用检查节点保存Spark谱系87

4.5 使用累加器和广播变量与Spark执行器进行通信87

4.5.1 使用累加器从执行器获取数据87

4.5.2 使用广播变量将数据发送到执行器89

4.6 总结90

第2部分 认识Spark家族95

第5章 使用Spark SQL执行Spark查询95

5.1 使用DataFrame96

5.1.1 从RDD创建DataFrame98

5.1.2 DataFrame API基础知识105

5.1.3 使用SQL函数执行数据计算107

5.1.4 使用缺失值112

5.1.5 将DataFrame转换为RDD113

5.1.6 分组和连接数据113

5.1.7 执行连接117

5.2 超越DataFrame:引入DataSet118

5.3 使用SQL命令119

5.3.1 表目录和Hive metastore119

5.3.2 执行SQL查询122

5.3.3 通过Thrift服务器连接到Spark SQL123

5.4 保存并加载DataFrame数据125

5.4.1 内置数据源126

5.4.2 保存数据126

5.4.3 加载数据128

5.5 Catalyst优化器129

5.6 Tungsten的性能改进131

5.7 总结132

第6章 使用Spark Streaming提取数据133

6.1 编写Spark Streaming应用程序134

6.1.1 介绍示例应用程序134

6.1.2 创建流上下文135

6.1.3 创建离散流136

6.1.4 使用离散流137

6.1.5 将结果保存到文件138

6.1.6 启动和停止流计算139

6.1.7 随时保存计算状态140

6.1.8 使用窗口操作进行限时计算146

6.1.9 检查其他内置输入流148

6.2 使用外部数据源149

6.2.1 设置Kafka149

6.2.2 使用Kafka更改流应用程序150

6.3 Spark Streaming作业的性能156

6.3.1 获得良好的性能157

6.3.2 实现容错158

6.4 结构化流159

6.4.1 创建流式DataFrame160

6.4.2 输出流数据160

6.4.3 检查流执行161

6.4.4 结构化流的未来方向161

6.5 总结162

第7章 使用MLlib变得更智能163

7.1 机器学习简介164

7.1.1 机器学习的定义166

7.1.2 机器学习算法的分类166

7.1.3 使用Spark进行机器学习168

7.2 Spark中的线性代数169

7.2.1 本地向量和矩阵实现169

7.2.2 分布式矩阵173

7.3 线性回归174

7.3.1 关于线性回归174

7.3.2 简单线性回归174

7.3.3 将模型扩展到多元线性回归176

7.4 分析和准备数据178

7.4.1 分析数据分布178

7.4.2 分析列余弦相似性179

7.4.3 计算协方差矩阵179

7.4.4 转换为标记点180

7.4.5 拆分数据180

7.4.6 特征缩放和均值归一化181

7.5 拟合和使用线性回归模型181

7.5.1 预测目标值182

7.5.2 评估模型的性能182

7.5.3 解释模型参数183

7.5.4 加载和保存模型183

7.6 调整算法184

7.6.1 找到正确的步长和迭代次数184

7.6.2 添加高阶多项式186

7.6.3 偏差-方差权衡和模型复杂度187

7.6.4 绘制残差图189

7.6.5 使用正则化避免过度拟合190

7.6.6 k折交叉验证191

7.7 优化线性回归192

7.7.1 小批量随机梯度下降192

7.7.2 LBFGS优化器193

7.8 总结194

第8章 ML:分类和聚类195

8.1 Spark ML库196

8.1.1 估计器、转换器和评估器196

8.1.2 ML参数196

8.1.3 ML管道197

8.2 逻辑回归197

8.2.1 二元逻辑回归模型198

8.2.2 准备数据以使用Spark中的逻辑回归199

8.2.3 训练模型204

8.2.4 评估分类模型205

8.2.5 执行k折交叉验证208

8.2.6 多类逻辑回归210

8.3 决策树和随机森林212

8.3.1 决策树213

8.3.2 随机森林217

8.4 使用k-均值聚类219

8.4.1 k-均值聚类220

8.5 总结224

第9章 使用GraphX连接点226

9.1 Spark图形处理226

9.1.1 使用GraphX API构建图227

9.1.2 转换图228

9.2 图算法233

9.2.1 数据集的介绍234

9.2.2 最短路径算法235

9.2.3 页面排名236

9.2.4 连通分量236

9.2.5 强连通分量237

9.3 实现A*搜索算法239

9.3.1 了解A*算法239

9.3.2 实现A*算法241

9.3.3 测试的实施248

9.4 总结249

第3部分 Spark ops253

第10章 运行Spark253

10.1 Spark运行时体系结构概述253

10.1.1 Spark运行时组件254

10.1.2 Spark集群类型256

10.2 作业和资源调度257

10.2.1 集群资源调度257

10.2.2 Spark作业调度257

10.2.3 数据局部性的考虑259

10.2.4 Spark内存调度260

10.3 配置Spark261

10.3.1 Spark配置文件261

10.3.2 命令行参数261

10.3.3 系统环境变量262

10.3.4 以编程方式设置配置262

10.3.5 master参数262

10.3.6 查看所有已配置的参数263

10.4 Spark Web UI263

10.4.1 Jobs(作业)页面264

10.4.2 Stages(阶段)页面264

10.4.3 Storage(存储)页面267

10.4.4 Environment(环境)页面267

10.4.5 Executors(执行器)页面268

10.5 在本地机器上运行Spark269

10.5.1 本地模式269

10.5.2 本地集群模式270

10.6 总结270

第11章 在Spark standalone集群上运行272

11.1 Spark standalone集群组件272

11.2 启动standalone集群274

11.2.1 使用shell脚本启动集群274

11.2.2 手动启动集群276

11.2.3 查看Spark进程277

11.2.4 Standalone master高可用性和恢复性277

11.3 Standalone集群Web UI279

11.4 在standalone集群中运行应用程序281

11.4.1 驱动器的位置281

11.4.2 指定执行器的数量282

11.4.3 指定额外的类路径和文件282

11.4.4 终止应用程序284

11.4.5 应用程序自动重启284

11.5 Spark历史服务器和事件日志记录284

11.6 在Amazon EC2上运行285

11.6.1 先决条件286

11.6.2 创建一个EC2 standalone集群287

11.6.3 使用EC2集群289

11.6.4 销毁集群291

11.7 总结292

第12章 在YARN和Mesos上运行293

12.1 在YARN上运行Spark293

12.1.1 YARN架构294

12.1.2 安装配置启动YARN294

12.1.3 YARN中的资源调度296

12.1.4 向YARN提交Spark应用程序297

12.1.5 在YARN上配置Spark299

12.1.6 为Spark工作配置资源300

12.1.7 YARN UI301

12.1.8 在YARN上寻找日志303

12.1.9 安全注意事项304

12.1.10 动态资源分配304

12.2 在Mesos上运行Spark305

12.2.1 Mesos架构306

12.2.2 安装配置Mesos309

12.2.3 Mesos Web UI310

12.2.4 Mesos资源调度312

12.2.5 向Mesos提交Spark应用程序313

12.2.6 使用 Docker运行Spark314

12.3 总结317

第4部分 协同使用321

第13章 实例学习:实时仪表盘321

13.1 了解用例321

13.1.1 概况321

13.1.2 了解应用程序组件323

13.2 运行应用程序324

13.2.1 在spark-in-action VM中运行应用程序325

13.2.2 手动启动程序328

13.3 理解源代码330

13.3.1 KafkaLogsSimulator项目330

13.3.2 StreamingLogAnalyzer项目331

13.3.3 WebStatsDashboard项目337

13.3.4 构建项目337

13.4 总结338

第14章 用H2O深入学习Spark339

14.1 什么是深度学习339

14.2 在Spark中使用H2O341

14.2.1 什么是H2O341

14.2.2 在Spark中启动Sparkling Water342

14.2.3 启动H2O集群344

14.2.4 访问Flow UI344

14.3 使用H2O的深度学习进行回归346

14.3.1 将数据加载到 H2O框架346

14.3.2 使用Flow UI构建和评估深度学习模型349

14.3.3 使用Sparkling Water API构建和评估深度学习模型352

14.4 使用H2O的深度学习进行分类357

14.4.1 加载和拆分数据357

14.4.2 通过Flow UI构建模型358

14.4.3 使用Sparkling Water API构建模型361

14.4.4 停止H2O集群362

14.5 总结362

附录363

附录A 安装Apache Spark363

附录B 了解MapReduce368

附录C 线性代数入门370

热门推荐