图书介绍
Spark全栈数据分析2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- (美)RussellJurney著;王道远译 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121351662
- 出版时间:2018
- 标注页数:323页
- 文件大小:81MB
- 文件页数:344页
- 主题词:数据处理软件
PDF下载
下载说明
Spark全栈数据分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第Ⅰ部分 准备工作3
第1章 理论3
导论3
定义5
方法学5
敏捷数据科学宣言6
瀑布模型的问题10
研究与应用开发11
敏捷软件开发的问题14
最终质量:偿还技术债14
瀑布模型的拉力15
数据科学过程16
设置预期17
数据科学团队的角色18
认清机遇与挑战19
适应变化21
过程中的注意事项23
代码审核与结对编程25
敏捷开发的环境:提高生产效率25
用大幅打印实现想法27
第2章 敏捷工具29
可伸缩性=易用性30
敏捷数据科学之数据处理30
搭建本地环境32
配置要求33
配置Vagrant33
下载数据33
搭建EC2环境34
下载数据38
下载并运行代码38
下载代码38
运行代码38
Jupyter笔记本39
工具集概览39
敏捷开发工具栈的要求39
Python 339
使用JSON行和Parquet序列化事件42
收集数据45
使用Spark进行数据处理45
使用MongoDB发布数据48
使用Elasticsearch搜索数据50
使用Apache Kafka分发流数据54
使用PySpark Streaming处理流数据57
使用scikit-learn与Spark MLlib进行机器学习58
使用Apache Airflow(孵化项目)进行调度59
反思我们的工作流程70
轻量级网络应用70
展示数据73
本章小结75
第3章 数据77
飞行航班数据77
航班准点情况数据78
OpenFlights数据库79
天气数据80
敏捷数据科学中的数据处理81
结构化数据vs.半结构化数据81
SQL vs.NoSQL82
SQL83
NoSQL与数据流编程83
Spark:SQL+NoSQL84
NoSQL中的表结构84
数据序列化85
动态结构表的特征提取与呈现85
本章小结86
第Ⅱ部分 攀登金字塔89
第4章 记录收集与展示89
整体使用90
航班数据收集与序列化91
航班记录处理与发布94
把航班记录发布到MongoDB95
在浏览器中展示航班记录96
使用Flask和pymongo提供航班信息97
使用Jinja2渲染HTML5页面98
敏捷开发检查站102
列出航班记录103
使用MongoDB列出航班记录103
数据分页106
搜索航班数据112
创建索引112
发布航班数据到Elasticsearch113
通过网页搜索航班数据114
本章小结117
第5章 使用图表进行数据可视化119
图表质量:迭代至关重要120
用发布/装饰模型伸缩数据库120
一阶形式121
二阶形式122
三阶形式123
选择一种形式123
探究时令性124
查询并展示航班总数124
提取“金属”(飞机(实体))132
提取机尾编号132
评估飞机记录139
数据完善140
网页表单逆向工程140
收集机尾编号142
自动化表单提交143
从HTML中提取数据144
评价完善后的数据147
本章小结148
第6章 通过报表探索数据149
提取航空公司为实体150
使用PySpark把航空公司定义为飞机的分组150
在MongoDB中查询航空公司数据151
在Flask中构建航空公司页面151
添加回到航空公司页面的链接152
创建一个包括所有航空公司的主页153
整理半结构化数据的本体关系154
改进航空公司页面155
给航空公司代码加上名称156
整合维基百科内容158
把扩充过的航空公司表发布到MongoDB159
在网页上扩充航空公司信息160
调查飞机(实体)162
SQL嵌套查询vs.数据流编程164
不使用嵌套查询的数据流编程164
Spark SQL中的子查询165
创建飞机主页166
在飞机页面上添加搜索167
创建飞机制造商的条形图172
对飞机制造商条形图进行迭代174
实体解析:新一轮图表迭代177
本章小结183
第7章 进行预测185
预测的作用186
预测什么186
预测分析导论187
进行预测187
探索航班延误189
使用PySpark提取特征193
使用scikit-learn构建回归模型198
读取数据198
数据采样199
向量化处理结果200
准备训练数据201
向量化处理特征201
稀疏矩阵与稠密矩阵203
准备实验204
训练模型204
测试模型205
小结207
使用Spark MLlib构建分类器208
使用专用结构加载训练数据208
处理空值210
用Route(路线)替代FlightNum(航班号)210
对连续变量分桶以用于分类211
使用pyspark.ml.feature向量化处理特征219
用Spark ML做分类221
本章小结223
第8章 部署预测系统225
把scikit-learn应用部署为网络服务225
scikit-learn模型的保存与读取226
提供预测模型的准备工作227
为航班延误回归分析创建API228
测试API232
在产品中使用API232
使用Airflow部署批处理模式Spark ML应用234
在生产环境中收集训练数据235
Spark ML模型的训练、存储与加载237
在MongoDB中创建预测请求239
从MongoDB中获取预测请求245
使用Spark ML以批处理模式进行预测248
用MongoDB保存预测结果252
在网络应用中展示批处理预测结果253
用Apache Airflow(孵化项目)自动化工作流256
小结264
用Spark Streaming部署流式计算模式Spark ML应用264
在生产环境中收集训练数据265
Spark ML模型的训练、存储、读取265
发送预测请求到Kafka266
用Spark Streaming进行预测277
测试整个系统283
本章小结285
第9章 改进预测结果287
解决预测的问题287
什么时候需要改进预测288
改进预测表现288
黏附试验法:找出黏性好的288
为试验建立严格的指标289
把当日时间作为特征298
纳入飞机数据302
提取飞机特征302
在分类器模型中纳入飞机特征305
纳入飞行时间310
本章小结313
附录A 安装手册315
安装Hadoop315
安装Spark316
安装MongoDB317
安装MongoDB的Java驱动317
安装mongo-hadoop318
编译mongo-hadoop318
安装pymongo_spark318
安装Elasticsearch318
安装Elasticsearch的Hadoop支持库319
配置我们的Spark环境320
安装Kafka320
安装scikit-learn320
安装Zeppelin321
热门推荐
- 554903.html
- 1131746.html
- 246896.html
- 1280121.html
- 3039773.html
- 1750062.html
- 2937185.html
- 2812143.html
- 3526136.html
- 774854.html
- http://www.ickdjs.cc/book_924442.html
- http://www.ickdjs.cc/book_2099584.html
- http://www.ickdjs.cc/book_1836581.html
- http://www.ickdjs.cc/book_3545367.html
- http://www.ickdjs.cc/book_2160941.html
- http://www.ickdjs.cc/book_3561095.html
- http://www.ickdjs.cc/book_1516029.html
- http://www.ickdjs.cc/book_3800920.html
- http://www.ickdjs.cc/book_2740926.html
- http://www.ickdjs.cc/book_3154796.html