图书介绍
Spark实时大数据分析 基于Spark Streaming框架2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (美)祖贝尔·纳比著;王胜夏,景玉译 著
- 出版社: 北京:清华大学出版社
- ISBN:7302511878
- 出版时间:2018
- 标注页数:241页
- 文件大小:113MB
- 文件页数:257页
- 主题词:
PDF下载
下载说明
Spark实时大数据分析 基于Spark Streaming框架PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据漫游指南1
1.1 Spark前传1
1.1.1 Web 2.0时代2
1.1.2 无处不在的传感器7
1.2 Spark Streaming:MapReduce和CEP的交集9
第2章 Spark简介10
2.1 安装11
2.2 执行12
2.2.1 独立集群模式(Standalone Cluster)12
2.2.2 YARN模式13
2.3 第一个应用程序13
2.3.1 构建16
2.3.2 执行17
2.4 SparkContext19
2.4.1 RDDs创建19
2.4.2 处理依赖关系20
2.4.3 创建共享变量21
2.4.4 作业执行22
2.5 RDD22
2.5.1 持久化23
2.5.2 转换24
2.5.3 行动(Action)28
小结29
第3章 实时RDD:DStream30
3.1 从连续流到离散流30
3.2 第一个Spark Streaming应用程序31
3.2.1 构建和执行34
3.2.2 Streaming Context34
3.3 DStreams36
3.3.1 Spark Streaming应用程序剖析38
3.3.2 转换42
小结52
第4章 高速流:并行化及其他54
4.1 流数据的一大飞跃54
4.2 并行化56
4.2.1 Worker56
4.2.2 执行器(Executor)57
4.2.3 任务(Task)59
4.3 批处理间隔62
4.4 调度64
4.4.1 应用程序间调度64
4.4.2 批处理调度64
4.4.3 作业间调度65
4.4.4 一个行动,一个作业65
4.5 内存66
4.5.1 序列化67
4.5.2 压缩(Compression)70
4.5.3 垃圾收集70
4.6 Shuffle70
4.6.1 早期投影和过滤70
4.6.2 经常使用组合器70
4.6.3 大量运用平行化70
4.6.4 文件合并(File Consolidation)71
4.6.5 更多内存71
小结71
第5章 链接外部数据源72
5.1 智慧城市,智慧地球,一切更智慧72
5.2 ReceiverInputDStream74
5.3 套接字76
5.4 MQTT85
5.5 Flume89
5.5.1 基于推模式的Flume数据摄取91
5.5.2 基于拉模式的Flume数据摄取92
5.6 Kafka92
5.6.1 基于接收器的Kafka消费者95
5.6.2 直接Kafka消费者98
5.7 Twitter99
5.8 块间隔100
5.9 自定义接收器100
小结104
第6章 边界效应106
6.1 盘点股市106
6.2 foreachRDD108
6.2.1 为每条记录创建一个连接110
6.2.2 为每个分区创建一个连接111
6.2.3 静态连接112
6.2.4 惰性静态连接113
6.2.5 静态连接池114
6.3 可扩展流存储116
6.3.1 HBase117
6.3.2 股市控制台(Dashboard)118
6.3.3 SparkOnHBase120
6.3.4 Cassandra122
6.3.5 Spark Cassandra连接器124
6.4 全局状态(Global State)126
6.4.1 静态变量126
6.4.2 updateStateByKey()128
6.4.3 累加器129
6.4.4 外部解决方案131
小结133
第7章 充分准备134
7.1 每个点击都异乎重要134
7.2 Tachyon (Alluxio)135
7.3 Spark Web UI138
7.3.1 历史分析151
7.3.2 RESTful度量152
7.4 日志记录153
7.5 外部度量154
7.6 系统度量156
7.7 监控和报警157
小结159
第8章 实时ETL和分析技术160
8.1 交易数据记录的强大功能160
8.2 第一个流式Spark SQL应用程序162
8.3 SQLContext165
8.3.1 创建数据框165
8.3.2 执行SQL168
8.3.3 配置169
8.3.4 用户自定义函数169
8.3.5 Catalyst:查询执行和优化171
8.3.6 HiveContext171
8.4 数据框(Data Frame)173
8.4.1 类型173
8.4.2 查询转换173
8.4.3 行动180
8.4.4 RDD操作182
8.4.5 持久化182
8.4.6 最佳做法183
8.5 SparkR183
8.6 第一个SparkR应用程序184
8.6.1 执行185
8.6.2 流式SparkR185
小结188
第9章 大规模机器学习189
9.1 传感器数据风暴189
9.2 流式MLlib应用程序191
9.3 MLlib194
9.3.1 数据类型194
9.3.2 统计分析197
9.3.3 预处理198
9.4 特征选择和提取199
9.4.1 卡方选择199
9.4.2 主成分分析200
9.5 学习算法201
9.5.1 分类202
9.5.2 聚类202
9.5.3 推荐系统204
9.5.4 频繁模式挖掘207
9.6 流式ML管道应用程序208
9.7 ML211
9.8 管道交叉验证212
小结213
第10章 云、Lambda及Python215
10.1 一条好评胜过一千个广告216
10.2 Google Dataproc217
10.3 基于Dataproc应用程序创建的第一个Spark220
10.4 PySpark227
10.5 Lambda架构229
10.6 流式图分析238
总结241
热门推荐
- 1107477.html
- 2314774.html
- 1051880.html
- 1612516.html
- 3790630.html
- 2516080.html
- 1778385.html
- 1418737.html
- 254729.html
- 2722345.html
- http://www.ickdjs.cc/book_147210.html
- http://www.ickdjs.cc/book_49356.html
- http://www.ickdjs.cc/book_2757691.html
- http://www.ickdjs.cc/book_1477168.html
- http://www.ickdjs.cc/book_2856081.html
- http://www.ickdjs.cc/book_2873331.html
- http://www.ickdjs.cc/book_323856.html
- http://www.ickdjs.cc/book_3504445.html
- http://www.ickdjs.cc/book_1074658.html
- http://www.ickdjs.cc/book_1299484.html