图书介绍

数据挖掘2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

王朝霞著著
出版社：北京：电子工业出版社
ISBN：9787121335310
出版时间：2018
标注页数：330页
文件大小：127MB
文件页数：346页
主题词：数据采集

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：a913e7709a2082773c08ef23ee379195

下载说明

数据挖掘PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章绪论1

1.1数据挖掘概述1

1.1.1数据挖掘的概念1

1.1.2大数据环境下的数据挖掘2

1.1.3数据挖掘的特性3

1.1.4数据挖掘的过程3

1.2数据挖掘起源及发展历史4

1.3数据挖掘常用工具7

1.3.1商用工具7

1.3.2开源工具8

1.4数据挖掘应用场景10

习题12

参考文献13

第2章数据预处理与相似性14

2.1数据类型14

2.1.1属性与度量14

2.1.2数据集的类型15

2.2数据预处理16

2.2.1数据清理16

2.2.2数据集成18

2.2.3数据规范化19

2.2.4数据约简20

2.2.5数据离散化22

2.3数据的相似性23

2.3.1数值属性的相似性度量23

2.3.2标称属性的相似性度量26

2.3.3组合异种属性的相似性度量27

2.3.4文档相似性度量28

2.3.5离散序列相似性度量30

习题31

参考文献32

第3章分类33

3.1分类的基本概念、分类过程及分类器性能的评估33

3.1.1分类的基本概念33

3.1.2分类的过程33

3.1.3分类器性能的评估方法34

3.2决策树35

3.2.1决策树概述35

3.2.2决策树的用途和特性35

3.2.3决策树工作原理36

3.2.4决策树构建步骤37

3.2.5决策树算法原理38

3.3贝叶斯分类47

3.3.1贝叶斯定理47

3.3.2朴素贝叶斯分类原理与流程48

3.3.3贝叶斯分析51

3.3.4贝叶斯决策52

3.4支持向量机52

3.4.1支持向量机主要思想53

3.4.2支持向量机基础理论53

3.4.3支持向量机原理58

3.5实战：决策树算法在Weka中的实现62

3.5.1 Weka探索者图形用户界面62

3.5.2决策树算法在Weka中的具体实现62

3.5.3使用中的具体实例65

习题66

参考文献67

第4章回归69

4.1回归概述69

4.1.1回归分析的定义69

4.1.2回归分析步骤70

4.1.3回归分析要注意的问题70

4.2一元回归分析71

4.2.1一元回归分析的模型设定71

4.2.2一元线性回归模型的参数估计73

4.2.3基本假设下OLS估计的统计性质74

4.2.4误差方差估计75

4.2.5回归系数检验（t检验）76

4.2.6拟合优度和模型检验（F检验）77

4.3多元线性回归分析78

4.3.1多元线性回归模型78

4.3.2多元线性回归模型的假定79

4.3.3多元线性回归模型的参数估计80

4.3.4显著性检验82

4.3.5回归变量的选择与逐步回归84

4.4逻辑回归分析86

4.4.1逻辑回归模型86

4.4.2 logit变换87

4.4.3 Logistic分布88

4.4.4列联表的Logistic回归模型88

4.5其他回归分析89

4.5.1多项式回归89

4.5.2逐步回归90

4.5.3岭回归90

4.5.4套索回归91

4.5.5弹性网络92

4.6实战：用回归分析方法给自己的房子定价92

4.6.1为Weka构建数据集92

4.6.2将数据载入Weka93

4.6.3用Weka创建一个回归模型94

4.6.4结果分析95

习题96

参考文献97

第5章聚类98

5.1聚类概述98

5.2划分方法100

5.2.1 k均值算法101

5.2.2 k中心点算法103

5.3层次方法106

5.3.1层次方法的分类106

5.3.2 BIRCH算法109

5.4基于密度的方法112

5.5实战：聚类分析115

5.5.1背景与聚类目的115

5.5.2聚类过程116

5.5.3聚类结果分析120

习题122

参考文献123

第6章关联规则124

6.1概述124

6.1.1购物篮分析：啤酒与尿布的经典案例124

6.1.2关联规则的概念124

6.1.3频繁项集的产生128

6.2 Apriori算法：通过限制候选项集产生发现频繁项集128

6.2.1 Apriori算法的频繁项集产生128

6.2.2 Apriori算法描述131

6.3 FP-growth算法134

6.3.1构造FP树134

6.3.2挖掘FP树136

6.3.3 FP-Tree算法138

6.4其他关联规则算法139

6.4.1约束性关联规则算法139

6.4.2增量式关联规则算法140

6.4.3多层关联规则算法141

6.5实战：个人信用关联规则挖掘143

6.5.1背景与挖掘目标143

6.5.2分析方法与过程144

6.5.3总结148

习题148

参考文献149

第7章常用大数据挖掘算法优化改进151

7.1分类算法151

7.1.1分类算法的并行化151

7.1.2并行化的决策树算法优化154

7.1.3一种新的朴素贝叶斯改进方法158

7.1.4支持向量机并行优化改进160

7.2聚类算法161

7.2.1聚类分析研究的主要内容及算法应用162

7.2.2并行聚类相关技术及算法体系结构和模型163

7.2.3 k-means聚类算法的一种改进方法164

7.2.4基于Spark的k-means算法并行化设计与实现166

7.2.5基于Spark的k-means改进算法的并行化168

7.2.6基于MapReduce的聚类算法并行化170

7.2.7谱聚类算法并行化方法171

7.3关联规则173

7.3.1 Apriori算法的一种改进方法173

7.3.2 Apriori算法基于Spark的分布式实现176

7.3.3并行FP-growth关联规则算法研究177

7.3.4基于Spark的FP-growth算法的并行化实现179

习题183

参考文献183

第8章推荐系统186

8.1推荐系统概述186

8.1.1基本概念186

8.1.2发展历史187

8.1.3推荐系统评测指标188

8.2基于内容的推荐192

8.2.1物品表示193

8.2.2物品相似度196

8.2.3用户对物品的评分197

8.2.4基于向量空间模型的推荐198

8.3协同过滤201

8.3.1协同过滤基本概念201

8.3.2基于用户的协同过滤205

8.3.3基于物品的协同过滤207

8.3.4隐语义模型和矩阵因子分解模型209

8.4其他推荐技术217

8.5实战：基于协同过滤算法推荐电影220

8.5.1数据准备与导入221

8.5.2建立矩阵因子分解模型223

8.5.3推荐预测及验证225

习题227

参考文献228

第9章互联网数据挖掘232

9.1链接分析与网页排序232

9.1.1 PageRank232

9.1.2 PageRank的快速计算238

9.1.3面向主题的PageRank239

9.1.4时间序列分析239

9.2互联网信息抽取241

9.2.1概述241

9.2.2典型应用模型构建242

9.2.3挖掘、存储与网络技术分析243

9.2.4数据采集管理243

9.2.5信息抽取方法与知识发现244

9.2.6行业案例研究247

9.3日志挖掘与查询分析248

9.3.1概述248

9.3.2挖掘分析常用方法与工具比较249

9.3.3海量数据挖掘过程展现与分析250

9.3.4行业应用举例251

习题252

参考文献253

附录A数据挖掘工具Weka255

A.1 Weka简介255

A.1.1概述255

A.1.2 Weka数据格式256

A.2 Explorer界面259

A.2.1数据准备260

A.2.2数据载入260

A.2.3训练与模型评估261

A.2.4属性选择或过滤264

A.2.5可视化271

A.3 Knowledge Flow界面273

A.3.1界面组件分析273

A.3.2组件的配置与连接273

A.3.3知识流界面实例274

A.4 Experimenter界面276

A.4.1实验者界面实例276

A.4.2简单设置278

A.4.3高级设置280

A.4.4实验结果分析281

习题283

参考文献284

附录B Spark机器学习库MLlib285

B.1 Spark简介285

B.1.1 Spark生态系统285

B.1.2 Spark集群架构287

B.1.3 Spark作业调度287

B.2 Spark RDD288

B.2.1 RDD设计思想289

B.2.2 RDD编程接口290

B.2.3 RDD操作292

B.3 Spark MLlib简介294

B.4 Spark MLlib数据类型295

B.4.1本地向量295

B.4.2标注点296

B.4.3本地矩阵297

B.5 Spark MLlib算法库298

B.5.1机器学习管道298

B.5.2特征提取与转换303

B.5.3分类与回归309

B.5.4聚类312

B.5.5协同过滤314

B.5.6模型选择与调优316

习题318

参考文献319

附录C大数据和人工智能实验环境320