图书介绍

数据挖掘 实用机器学习工具与技术 原书第4版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

数据挖掘 实用机器学习工具与技术 原书第4版
  • (新西兰)伊恩H.威腾,埃贝·弗兰克,马克A.霍尔著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:9787111589167
  • 出版时间:2018
  • 标注页数:418页
  • 文件大小:71MB
  • 文件页数:436页
  • 主题词:数据采集

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据挖掘 实用机器学习工具与技术 原书第4版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 数据挖掘基础2

第1章 绪论2

1.1数据挖掘和机器学习2

1.1.1描述结构模式3

1.1.2机器学习5

1.1.3数据挖掘6

1.2简单的例子:天气问题和其他问题6

1.2.1天气问题6

1.2.2隐形眼镜:一个理想化的问题8

1.2.3鸢尾花:一个经典的数值型数据集9

1.2.4 CPU性能:引入数值预测10

1.2.5劳资协商:一个更真实的例子11

1.2.6大豆分类:一个经典的机器学习的成功例子12

1.3应用领域14

1.3.1 Web挖掘14

1.3.2包含判断的决策15

1.3.3图像筛选15

1.3.4负载预测16

1.3.5诊断17

1.3.6市场和销售17

1.3.7其他应用18

1.4数据挖掘过程19

1.5机器学习和统计学20

1.6将泛化看作搜索21

1.6.1枚举概念空间22

1.6.2偏差22

1.7数据挖掘和道德问题24

1.7.1再识别24

1.7.2使用个人信息25

1.7.3其他问题26

1.8拓展阅读及参考文献26

第2章 输入:概念、实例和属性29

2.1概念29

2.2实例31

2.2.1关系31

2.2.2其他实例类型34

2.3属性35

2.4输入准备36

2.4.1数据收集37

2.4.2 ARFF格式37

2.4.3稀疏数据39

2.4.4属性类型40

2.4.5缺失值41

2.4.6不正确的值42

2.4.7非均衡数据42

2.4.8了解数据43

2.5拓展阅读及参考文献43

第3章 输出:知识表达44

3.1表44

3.2线性模型44

3.3树46

3.4规则49

3.4.1分类规则49

3.4.2关联规则52

3.4.3包含例外的规则53

3.4.4表达能力更强的规则54

3.5基于实例的表达56

3.6聚类58

3.7拓展阅读及参考文献59

第4章 算法:基本方法60

4.1推断基本规则60

4.2简单概率模型63

4.2.1缺失值和数值属性65

4.2.2用于文档分类的朴素贝叶斯67

4.2.3讨论68

4.3分治法:创建决策树69

4.3.1计算信息量71

4.3.2高度分支属性73

4.4覆盖算法:建立规则74

4.4.1规则与树75

4.4.2一个简单的覆盖算法76

4.4.3规则与决策列表79

4.5关联规则挖掘79

4.5.1项集80

4.5.2关联规则81

4.5.3高效地生成规则84

4.6线性模型86

4.6.1数值预测:线性回归86

4.6.2线性分类:logistic回归87

4.6.3使用感知机的线性分类89

4.6.4使用Winnow的线性分类90

4.7基于实例的学习91

4.7.1 距离函数92

4.7.2高效寻找最近邻92

4.7.3讨论96

4.8聚类96

4.8.1基于距离的迭代聚类97

4.8.2更快的距离计算98

4.8.3选择簇的个数99

4.8.4层次聚类100

4.8.5层次聚类示例101

4.8.6增量聚类102

4.8.7分类效用104

4.8.8讨论106

4.9多实例学习107

4.9.1聚集输入107

4.9.2聚集输出107

4.10拓展阅读及参考文献108

4.11 Weka实现109

第5章 可信度:评估学习结果111

5.1训练和测试111

5.2预测性能113

5.3交叉验证115

5.4其他评估方法116

5.4.1留一交叉验证法116

5.4.2自助法116

5.5超参数选择117

5.6数据挖掘方法比较118

5.7预测概率121

5.7.1二次损失函数121

5.7.2信息损失函数122

5.7.3讨论123

5.8计算成本123

5.8.1成本敏感分类125

5.8.2成本敏感学习126

5.8.3提升图126

5.8.4 ROC曲线129

5.8.5召回率-精确率曲线130

5.8.6讨论131

5.8.7成本曲线132

5.9评估数值预测134

5.10最小描述长度原理136

5.11将MDL原理应用于聚类138

5.12使用验证集进行模型选择138

5.13拓展阅读及参考文献139

第二部分 高级机器学习方案144

第6章 树和规则144

6.1决策树144

6.1.1数值属性144

6.1.2缺失值145

6.1.3剪枝146

6.1.4估计误差率147

6.1.5决策树归纳法的复杂度149

6.1.6从决策树到规则150

6.1.7 C4.5:选择和选项150

6.1.8成本-复杂度剪枝151

6.1.9讨论151

6.2分类规则152

6.2.1选择测试的标准152

6.2.2缺失值和数值属性153

6.2.3生成好的规则153

6.2.4使用全局优化155

6.2.5从局部决策树中获得规则157

6.2.6包含例外的规则158

6.2.7讨论160

6.3关联规则161

6.3.1建立频繁模式树161

6.3.2寻找大项集163

6.3.3讨论166

6.4 Weka实现167

第7章 基于实例的学习和线性模型的扩展168

7.1基于实例的学习168

7.1.1减少样本集的数量168

7.1.2对噪声样本集剪枝169

7.1.3属性加权170

7.1.4泛化样本集170

7.1.5用于泛化样本集的距离函数171

7.1.6泛化的距离函数172

7.1.7讨论172

7.2扩展线性模型173

7.2.1最大间隔超平面173

7.2.2非线性类边界174

7.2.3支持向量回归176

7.2.4核岭回归177

7.2.5核感知机178

7.2.6多层感知机179

7.2.7径向基函数网络184

7.2.8随机梯度下降185

7.2.9讨论186

7.3局部线性模型用于数值预测187

7.3.1模型树187

7.3.2构建树188

7.3.3对树剪枝188

7.3.4名目属性189

7.3.5缺失值189

7.3.6模型树归纳的伪代码190

7.3.7从模型树到规则192

7.3.8局部加权线性回归192

7.3.9讨论193

7.4 Weka实现194

第8章 数据转换195

8.1属性选择196

8.1.1独立于方案的选择197

8.1.2搜索属性空间199

8.1.3具体方案相关的选择200

8.2离散化数值属性201

8.2.1无监督离散化202

8.2.2基于熵的离散化203

8.2.3其他离散化方法205

8.2.4基于熵和基于误差的离散化205

8.2.5将离散属性转换成数值属性206

8.3投影207

8.3.1主成分分析207

8.3.2随机投影209

8.3.3偏最小二乘回归209

8.3.4独立成分分析210

8.3.5线性判别分析211

8.3.6二次判别分析211

8.3.7 Fisher线性判别分析211

8.3.8从文本到属性向量212

8.3.9时间序列213

8.4抽样214

8.5数据清洗215

8.5.1改进决策树215

8.5.2稳健回归215

8.5.3检测异常216

8.5.4一分类学习217

8.5.5离群点检测217

8.5.6生成人工数据218

8.6将多分类问题转换成二分类问题219

8.6.1简单方法219

8.6.2误差校正输出编码220

8.6.3集成嵌套二分法221

8.7校准类概率223

8.8拓展阅读及参考文献224

8.9 Weka实现226

第9章 概率方法228

9.1基础228

9.1.1最大似然估计229

9.1.2最大后验参数估计230

9.2贝叶斯网络230

9.2.1预测231

9.2.2学习贝叶斯网络233

9.2.3具体算法235

9.2.4用于快速学习的数据结构237

9.3聚类和概率密度估计239

9.3.1用于高斯混合模型的期望最大化算法239

9.3.2扩展混合模型242

9.3.3使用先验分布聚类243

9.3.4相关属性聚类244

9.3.5核密度估计245

9.3.6比较用于分类的参数、半参数和无参数的密度模型245

9.4隐藏变量模型246

9.4.1对数似然和梯度的期望246

9.4.2期望最大化算法247

9.4.3将期望最大化算法应用于贝叶斯网络248

9.5贝叶斯估计与预测249

9.6图模型和因子图251

9.6.1图模型和盘子表示法251

9.6.2概率主成分分析252

9.6.3隐含语义分析254

9.6.4使用主成分分析来降维255

9.6.5概率LSA256

9.6.6隐含狄利克雷分布257

9.6.7因子图258

9.6.8马尔可夫随机场260

9.6.9使用sum-product算法和max-product算法进行计算261

9.7条件概率模型265

9.7.1概率模型的线性和多项式回归265

9.7.2使用先验参数266

9.7.3多分类logistic回归268

9.7.4梯度下降和二阶方法271

9.7.5广义线性模型271

9.7.6有序类的预测272

9.7.7使用核函数的条件概率模型273

9.8时序模型273

9.8.1马尔可夫模型和N元法273

9.8.2隐马尔可夫模型274

9.8.3条件随机场275

9.9拓展阅读及参考文献278

9.10 Weka实现282

第10章 深度学习283

10.1深度前馈网络284

10.1.1 MNIST评估284

10.1.2损失和正则化285

10.1.3深层网络体系结构286

10.1.4激活函数287

10.1.5重新审视反向传播288

10.1.6计算图以及复杂的网络结构290

10.1.7验证反向传播算法的实现291

10.2训练和评估深度网络292

10.2.1早停292

10.2.2验证、交叉验证以及超参数调整292

10.2.3小批量随机梯度下降293

10.2.4小批量随机梯度下降的伪代码294

10.2.5学习率和计划294

10.2.6先验参数的正则化295

10.2.7丢弃法295

10.2.8批规范化295

10.2.9参数初始化295

10.2.10无监督的预训练296

10.2.11数据扩充和合成转换296

10.3卷积神经网络296

10.3.1 ImageNet评估和深度卷积神经网络297

10.3.2从图像滤波到可学习的卷积层297

10.3.3卷积层和梯度300

10.3.4池化层二次抽样层以及梯度300

10.3.5实现301

10.4自编码器301

10.4.1使用RBM预训练深度自编码器302

10.4.2降噪自编码器和分层训练304

10.4.3重构和判别式学习的结合304

10.5随机深度网络304

10.5.1玻尔兹曼机304

10.5.2受限玻尔兹曼机306

10.5.3对比分歧306

10.5.4分类变量和连续变量306

10.5.5深度玻尔兹曼机307

10.5.6深度信念网络308

10.6递归神经网络309

10.6.1梯度爆炸与梯度消失310

10.6.2其他递归网络结构311

10.7拓展阅读及参考文献312

10.8深度学习软件以及网络实现315

10.8.1 Theano315

10.8.2 Tensor Flow315

10.8.3 Torch315

10.8.4 CNTK315

10.8.5 Caffe315

10.8.6 DeepLearning4j316

10.8.7其他包:Lasagne、Keras以及cuDNN316

10.9 Weka实现316

第11章 有监督和无监督学习317

11.1半监督学习317

11.1.1用以分类的聚类317

11.1.2协同训练318

11.1.3 EM和协同训练319

11.1.4神经网络方法319

11.2多实例学习320

11.2.1转换为单实例学习320

11.2.2升级学习算法321

11.2.3专用多实例方法322

11.3拓展阅读及参考文献323

11.4 Weka实现323

第12章 集成学习325

12.1组合多种模型325

12.2装袋326

12.2.1偏差-方差分解326

12.2.2考虑成本的装袋327

12.3随机化328

12.3.1随机化与装袋328

12.3.2旋转森林329

12.4提升329

12.4.1 AdaBoost算法330

12.4.2提升算法的威力331

12.5累加回归332

12.5.1数值预测332

12.5.2累加logistic回归333

12.6可解释的集成器334

12.6.1选择树334

12.6.2 logistic模型树336

12.7堆栈336

12.8拓展阅读及参考文献338

12.9 Weka实现339

第13章 扩展和应用340

13.1应用机器学习340

13.2从大型的数据集学习342

13.3数据流学习344

13.4融合领域知识346

13.5文本挖掘347

13.5.1文档分类与聚类348

13.5.2信息提取349

13.5.3自然语言处理350

13.6 Web挖掘350

13.6.1包装器归纳351

13.6.2网页分级351

13.7图像和语音353

13.7.1图像353

13.7.2语音354

13.8对抗情形354

13.9无处不在的数据挖掘355

13.10拓展阅读及参考文献357

13.11 Weka实现359

附录A 理论基础360

附录B Weka工作平台375

索引388

热门推荐