图书介绍

Spark全栈数据分析2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

Spark全栈数据分析
  • (美)RussellJurney著;王道远译 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121351662
  • 出版时间:2018
  • 标注页数:323页
  • 文件大小:81MB
  • 文件页数:344页
  • 主题词:数据处理软件

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

Spark全栈数据分析PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第Ⅰ部分 准备工作3

第1章 理论3

导论3

定义5

方法学5

敏捷数据科学宣言6

瀑布模型的问题10

研究与应用开发11

敏捷软件开发的问题14

最终质量:偿还技术债14

瀑布模型的拉力15

数据科学过程16

设置预期17

数据科学团队的角色18

认清机遇与挑战19

适应变化21

过程中的注意事项23

代码审核与结对编程25

敏捷开发的环境:提高生产效率25

用大幅打印实现想法27

第2章 敏捷工具29

可伸缩性=易用性30

敏捷数据科学之数据处理30

搭建本地环境32

配置要求33

配置Vagrant33

下载数据33

搭建EC2环境34

下载数据38

下载并运行代码38

下载代码38

运行代码38

Jupyter笔记本39

工具集概览39

敏捷开发工具栈的要求39

Python 339

使用JSON行和Parquet序列化事件42

收集数据45

使用Spark进行数据处理45

使用MongoDB发布数据48

使用Elasticsearch搜索数据50

使用Apache Kafka分发流数据54

使用PySpark Streaming处理流数据57

使用scikit-learn与Spark MLlib进行机器学习58

使用Apache Airflow(孵化项目)进行调度59

反思我们的工作流程70

轻量级网络应用70

展示数据73

本章小结75

第3章 数据77

飞行航班数据77

航班准点情况数据78

OpenFlights数据库79

天气数据80

敏捷数据科学中的数据处理81

结构化数据vs.半结构化数据81

SQL vs.NoSQL82

SQL83

NoSQL与数据流编程83

Spark:SQL+NoSQL84

NoSQL中的表结构84

数据序列化85

动态结构表的特征提取与呈现85

本章小结86

第Ⅱ部分 攀登金字塔89

第4章 记录收集与展示89

整体使用90

航班数据收集与序列化91

航班记录处理与发布94

把航班记录发布到MongoDB95

在浏览器中展示航班记录96

使用Flask和pymongo提供航班信息97

使用Jinja2渲染HTML5页面98

敏捷开发检查站102

列出航班记录103

使用MongoDB列出航班记录103

数据分页106

搜索航班数据112

创建索引112

发布航班数据到Elasticsearch113

通过网页搜索航班数据114

本章小结117

第5章 使用图表进行数据可视化119

图表质量:迭代至关重要120

用发布/装饰模型伸缩数据库120

一阶形式121

二阶形式122

三阶形式123

选择一种形式123

探究时令性124

查询并展示航班总数124

提取“金属”(飞机(实体))132

提取机尾编号132

评估飞机记录139

数据完善140

网页表单逆向工程140

收集机尾编号142

自动化表单提交143

从HTML中提取数据144

评价完善后的数据147

本章小结148

第6章 通过报表探索数据149

提取航空公司为实体150

使用PySpark把航空公司定义为飞机的分组150

在MongoDB中查询航空公司数据151

在Flask中构建航空公司页面151

添加回到航空公司页面的链接152

创建一个包括所有航空公司的主页153

整理半结构化数据的本体关系154

改进航空公司页面155

给航空公司代码加上名称156

整合维基百科内容158

把扩充过的航空公司表发布到MongoDB159

在网页上扩充航空公司信息160

调查飞机(实体)162

SQL嵌套查询vs.数据流编程164

不使用嵌套查询的数据流编程164

Spark SQL中的子查询165

创建飞机主页166

在飞机页面上添加搜索167

创建飞机制造商的条形图172

对飞机制造商条形图进行迭代174

实体解析:新一轮图表迭代177

本章小结183

第7章 进行预测185

预测的作用186

预测什么186

预测分析导论187

进行预测187

探索航班延误189

使用PySpark提取特征193

使用scikit-learn构建回归模型198

读取数据198

数据采样199

向量化处理结果200

准备训练数据201

向量化处理特征201

稀疏矩阵与稠密矩阵203

准备实验204

训练模型204

测试模型205

小结207

使用Spark MLlib构建分类器208

使用专用结构加载训练数据208

处理空值210

用Route(路线)替代FlightNum(航班号)210

对连续变量分桶以用于分类211

使用pyspark.ml.feature向量化处理特征219

用Spark ML做分类221

本章小结223

第8章 部署预测系统225

把scikit-learn应用部署为网络服务225

scikit-learn模型的保存与读取226

提供预测模型的准备工作227

为航班延误回归分析创建API228

测试API232

在产品中使用API232

使用Airflow部署批处理模式Spark ML应用234

在生产环境中收集训练数据235

Spark ML模型的训练、存储与加载237

在MongoDB中创建预测请求239

从MongoDB中获取预测请求245

使用Spark ML以批处理模式进行预测248

用MongoDB保存预测结果252

在网络应用中展示批处理预测结果253

用Apache Airflow(孵化项目)自动化工作流256

小结264

用Spark Streaming部署流式计算模式Spark ML应用264

在生产环境中收集训练数据265

Spark ML模型的训练、存储、读取265

发送预测请求到Kafka266

用Spark Streaming进行预测277

测试整个系统283

本章小结285

第9章 改进预测结果287

解决预测的问题287

什么时候需要改进预测288

改进预测表现288

黏附试验法:找出黏性好的288

为试验建立严格的指标289

把当日时间作为特征298

纳入飞机数据302

提取飞机特征302

在分类器模型中纳入飞机特征305

纳入飞行时间310

本章小结313

附录A 安装手册315

安装Hadoop315

安装Spark316

安装MongoDB317

安装MongoDB的Java驱动317

安装mongo-hadoop318

编译mongo-hadoop318

安装pymongo_spark318

安装Elasticsearch318

安装Elasticsearch的Hadoop支持库319

配置我们的Spark环境320

安装Kafka320

安装scikit-learn320

安装Zeppelin321

热门推荐