图书介绍
大数据分析与挖掘2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 石胜飞编著 著
- 出版社: 北京:人民邮电出版社
- ISBN:9787115483058
- 出版时间:2018
- 标注页数:265页
- 文件大小:53MB
- 文件页数:279页
- 主题词:数据处理-教材
PDF下载
下载说明
大数据分析与挖掘PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 绪论1
1.1 大数据分析与挖掘简介1
1.2 大数据应用及挑战2
1.3 大数据分析与挖掘主要技术3
1.4 大数据分析与挖掘工具4
1.4.1 Sklearn4
1.4.2 Spark ML5
1.4.3 华为云的机器学习服务5
第2章 数据特征分析与预处理15
2.1 数据类型15
2.1.1 数据集类型15
2.1.2 数据属性的类型17
2.2 数据的描述性特征20
2.2.1 描述数据集中趋势的度量20
2.2.2 描述数据离中趋势的度量22
2.2.3 数据分布形态的度量24
2.2.4 数据分布特征的可视化27
2.3 数据的相关分析30
2.3.1 相关分析31
2.3.2 卡方(X2)检验32
2.4 数据预处理34
2.4.1 数据变换、离散化与编码35
2.4.2 数据抽样技术40
2.4.3 主成分分析42
2.4.4 数据清洗49
2.5 Spark数据预处理功能简介52
2.5.1 二值化52
2.5.2 分箱器52
2.5.3 哈达玛积变换53
2.5.4 最大绝对值标准化53
2.5.5 最小—最大变换54
2.5.6 正则化54
2.5.7 多项式扩展55
2.5.8 标准化55
2.5.9 特征向量合并56
2.5.10 类别特征索引57
习题57
第3章 关联规则挖掘59
3.1 基本概念59
3.2 基于候选项产生—测试策略的频繁模式挖掘算法61
3.2.1 Apriori算法61
3.2.2 基于划分的算法64
3.2.3 事务数据的存储65
3.3 不需要产生候选项集的频繁模式挖掘法66
3.3.1 FP-Growth算法66
3.3.2 Spark上FP-Growth算法实践71
3.4 结合相关性分析的关联规则72
3.5 多层关联规则挖掘算法74
3.6 序列模式挖掘77
3.6.1 序列模式的定义77
3.6.2 PrefixSpan算法78
3.6.3 与其他序列模式挖掘算法的比较和分析80
3.7 其他类型关联规则简介81
3.7.1 量化关联规则82
3.7.2 时态关联规则82
3.7.3 局部化的关联规则82
3.7.4 优化的关联规则82
习题83
第4章 分类与回归算法85
4.1 决策树算法85
4.1.1 决策树简介85
4.1.2 决策树的类型86
4.1.3 决策树的构造过程86
4.1.4 信息论的有关概念87
4.1.5 ID3算法87
4.1.6 信息论在ID3算法中的应用90
4.1.7 C4.5 算法91
4.1.8 CART算法91
4.1.9 过拟合与决策树剪枝93
4.1.10 决策树后剪枝策略95
4.1.11 决策树的生成与可视化103
4.1.12 几种属性选择度量的对比106
4.2 贝叶斯分类器106
4.2.1 贝叶斯决策理论106
4.2.2 极大似然估计107
4.2.3 朴素贝叶斯分类器108
4.2.4 贝叶斯网络基础110
4.2.5 通过贝叶斯网络判断条件独立111
4.2.6 贝叶斯网络推理实例112
4.3 基于实例的分类算法115
4.3.1 K N N分类器115
4.3.2 局部加权回归121
4.3.3 基于案例的推理123
4.4 组合分类算法130
4.4.1 Adaboost算法130
4.4.2 Bagging算法135
4.4.3 随机森林140
4.5 分类器算法的评估142
4.6 回归分析146
4.6.1 线性回归146
4.6.2 岭回归149
4.6.3 多项式回归149
4.6.4 逻辑回归151
4.6.5 决策树回归152
4.6.6 梯度提升决策树155
习题160
第5章 聚类算法165
5.1 聚类分析概述165
5.2 聚类算法的分类166
5.3 距离度量166
5.3.1 幂距离166
5.3.2 欧式距离167
5.3.3 曼哈顿距离167
5.3.4 切比雪夫距离168
5.3.5 余弦相似度168
5.3.6 兰氏距离169
5.3.7 马氏距离169
5.3.8 斜交空间距离170
5.3.9 杰卡德距离170
5.3.10 汉明距离171
5.4 基于划分的聚类算法172
5.4.1 K均值算法172
5.4.2 二分K均值聚类算法174
5.4.3 小批量K均值算法175
5.4.4 K均值++算法179
5.4.5 K中心点算法180
5.4.6 数据流K均值算法181
5.5 基于密度的聚类算法182
5.5.1 DBSCAN算法182
5.5.2 OPTICS算法185
5.6 基于模型的聚类算法:高斯混合模型算法189
5.6.1 算法原理189
5.6.2 GMM算法的参数估计190
5.6.3 GMM算法实践191
5.7 层次聚类193
5.7.1 凝聚的层次聚类算法193
5.7.2 聚类之间距离的度量方法193
5.7.3 层次聚类算法的性质204
5.7.4 BIRCH算法207
5.8 基于网格的聚类算法211
5.8.1 STING算法211
5.8.2 CLIQUE算法213
5.9 Mean Shift聚类算法218
5.9.1 基本概念218
5.9.2 Mean Shift算法聚类过程219
5.9.3 Mean Shift聚类算法实践222
5.9.4 改进的Mean Shift算法223
5.10 聚类算法评价指标224
5.10.1 调整兰德指数224
5.10.2 互信息评分225
5.10.3 同质性、完整性以及调和平均226
5.10.4 Fowlkes-Mallows评分228
5.10.5 轮廓系数229
5.10.6 Calinski-Harabz指数229
习题230
第6章 数据挖掘综合应用:异常检测232
6.1 预备知识232
6.1.1 相关统计学概念232
6.1.2 异常检测评价指标234
6.1.3 异常检测问题的特点234
6.1.4 异常检测算法分类234
6.2 基于隔离森林的异常检测算法235
6.2.1 隔离与隔离树iTree236
6.2.2 隔离森林的特点238
6.2.3 隔离森林算法239
6.2.4 应用实例240
6.3 局部异常因子算法242
6.3.1 基本定义242
6.3.2 异常检测243
6.3.3 应用实例244
6.4 基于One-Class SVM的异常检测算法245
6.4.1 基本原理245
6.4.2 应用实例246
6.5 基于主成分分析的异常检测算法247
6.6 基于集成学习的异常检测算法249
6.6.1 基本原理249
6.6.2 应用实例250
6.7 其他有监督学习类型的检测算法253
6.7.1 罕见类别检测254
6.7.2 基于有监督学习的异常检测实例256
6.7.3 异常检测应用实例——时空异常检测257
6.7.4 Spark异常值检测实例259
6.8 习题261
附录《大数据分析与挖掘》配套实验课程方案简介263
参考文献264
热门推荐
- 3405397.html
- 3448306.html
- 679950.html
- 143429.html
- 103048.html
- 1494614.html
- 792675.html
- 3000824.html
- 3198803.html
- 2924894.html
- http://www.ickdjs.cc/book_2993794.html
- http://www.ickdjs.cc/book_2349942.html
- http://www.ickdjs.cc/book_3329127.html
- http://www.ickdjs.cc/book_3424200.html
- http://www.ickdjs.cc/book_3780198.html
- http://www.ickdjs.cc/book_2637574.html
- http://www.ickdjs.cc/book_365295.html
- http://www.ickdjs.cc/book_2864687.html
- http://www.ickdjs.cc/book_1427788.html
- http://www.ickdjs.cc/book_525792.html