图书介绍

数据挖掘技术 应用于市场营销销售与客户关系管理2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

数据挖掘技术 应用于市场营销销售与客户关系管理
  • (美)林那夫,(美)贝里著;巢文涵,张小明,王芳译 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302310143
  • 出版时间:2013
  • 标注页数:620页
  • 文件大小:179MB
  • 文件页数:641页
  • 主题词:数据采集

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据挖掘技术 应用于市场营销销售与客户关系管理PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 什么是数据挖掘以及为什么要进行数据挖掘1

1.1 什么是数据挖掘2

1.1.1 数据挖掘是一项业务流程2

1.1.2 大量的数据2

1.1.3 有意义的模式和规则3

1.1.4 数据挖掘和客户关系管理3

1.2 为什么是现在4

1.2.1 数据正在产生5

1.2.2 数据正存在于数据仓库中5

1.2.3 计算能力能够承受5

1.2.4 对客户关系管理的兴趣非常强烈5

1.2.5 商业的数据挖掘软件产品变得可用6

1.3 数据挖掘人员的技能7

1.4 数据挖掘的良性循环7

1.5 业务数据挖掘的案例研究8

1.5.1 识别美国银行的业务挑战9

1.5.2 应用数据挖掘9

1.5.3 对结果采取行动10

1.5.4 度量数据挖掘的影响11

1.6 良性循环的步骤11

1.6.1 识别业务机会12

1.6.2 将数据转换为信息13

1.6.3 根据信息采取行动14

1.6.4 度量结果15

1.7 良性循环上下文中的数据挖掘17

1.8 经验教训19

第2章 数据挖掘在营销和客户关系管理中的应用21

2.1 两个客户生存周期21

2.1.1 客户个人生存周期21

2.1.2 客户关系生存周期22

2.1.3 基于订阅的关系和基于事件的关系23

2.2 围绕客户生存周期组织业务流程25

2.2.1 客户获取25

2.2.2 客户激活27

2.2.3 客户关系管理29

2.2.4 赢回29

2.3 数据挖掘应用于客户获取30

2.3.1 识别好的潜在客户30

2.3.2 选择通信渠道30

2.3.3 挑选适当的信息31

2.4 数据挖掘示例:选择合适的地方做广告31

2.4.1 谁符合剖析31

2.4.2 度量读者群的适应度33

2.5 数据挖掘改进直接营销活动34

2.5.1 响应建模35

2.5.2 优化固定预算的响应35

2.5.3 优化活动收益率37

2.5.4 抵达最受信息影响的人40

2.6 通过当前客户了解潜在客户41

2.6.1 在客户成为“客户”以前开始跟踪他们41

2.6.2 收集新的客户信息41

2.6.3 获取时间变量可以预测将来的结果42

2.7 数据挖掘应用于客户关系管理42

2.7.1 匹配客户的活动42

2.7.2 减少信用风险43

2.7.3 确定客户价值44

2.7.4 交叉销售、追加销售和推荐44

2.8 保留45

2.8.1 识别流失45

2.8.2 为什么流失是问题46

2.8.3 不同类型的流失46

2.8.4 不同种类的流失模型47

2.9 超越客户生存周期48

2.1 0经验教训48

第3章 数据挖掘过程51

3.1 会出什么问题51

3.1.1 学习的东西不真实52

3.1.2 学习的东西真实但是无用55

3.2 数据挖掘类型56

3.2.1 假设检验56

3.2.2 有指导数据挖掘60

3.2.3 无指导数据挖掘61

3.3 目标、任务和技术61

3.3.1 数据挖掘业务目标62

3.3.2 数据挖掘任务62

3.3.3 数据挖掘技术66

3.4 制定数据挖掘问题:从目标到任务再到技术66

3.4.1 选择广告的最佳位置66

3.4.2 确定向客户提供的最佳产品67

3.4.3 发现分支或商店的最佳位置68

3.4.4 根据未来利润划分客户68

3.4.5 减少暴露于违约的风险69

3.4.6 提高客户保留69

3.4.7 检测欺诈性索赔70

3.5 不同技术对应的任务71

3.5.1 有一个或多个目标72

3.5.2 目标数据是什么72

3.5.3 输入数据是什么72

3.5.4 易于使用的重要性72

3.5.5 模型可解释性的重要性72

3.6 经验教训73

第4章 统计学入门:关于数据,你该了解些什么75

4.1 奥卡姆(Occam)剃刀76

4.1.1 怀疑论和辛普森悖论77

4.1.2 零假设(Null Hypothesis)77

4.1.3 p-值78

4.2 观察和度量数据79

4.2.1 类别值79

4.2.2 数值变量87

4.2.3 更多的统计思想89

4.3 度量响应90

4.3.1 比例标准误差90

4.3.2 使用置信区间比较结果91

4.3.3 利用比例差异比较结果92

4.3.4 样本大小93

4.3.5 置信区间的真正含义是什么94

4.3.6 实验中检验和对照的大小95

4.4 多重比较96

4.4.1 多重比较的置信水平96

4.4.2 Bonferroni修正96

4.5 卡方检验97

4.5.1 期望值97

4.5.2 卡方值98

4.5.3 卡方值与比例差异的比较100

4.6 示例:区域和开局卡方101

4.7 案例研究:利用A/B检验比较两种推荐系统103

4.7.1 第一个指标:参与会话104

4.7.2 第二个指标:每个会话的日收益104

4.7.3 第三个指标:每天谁取胜106

4.7.4 第四个指标:每个会话的平均收益106

4.7.5 第五个指标:每个客户的增量收益107

4.8 数据挖掘与统计107

4.8.1 基本数据中没有度量误差108

4.8.2 大量的数据108

4.8.3 无处不在的时间依赖性109

4.8.4 实验非常困难109

4.8.5 数据被删截109

4.9 经验教训110

第5章 描述和预测:剖析与预测建模113

5.1 有指导数据挖掘模型113

5.1.1 定义模型结构和目标114

5.1.2 增量响应建模115

5.1.3 模型稳定性116

5.1.4 模型集中的时间帧117

5.2 有指导数据挖掘方法119

5.3 步骤1:把业务问题转化为数据挖掘问题120

5.3.1 如何使用结果122

5.3.2 如何交付结果122

5.3.3 领域专家和信息技术的角色123

5.4 步骤2:选择合适的数据123

5.4.1 什么数据可用124

5.4.2 多少数据才足够125

5.4.3 需要多久的历史125

5.4.4 多少变量126

5.4.5 数据必须包含什么126

5.5 步骤3:认识数据126

5.5.1 检查分布127

5.5.2 值与描述的比较127

5.5.3 验证假设127

5.5.4 询问大量问题128

5.6 步骤4:创建模型集128

5.6.1 聚合客户签名128

5.6.2 创建一个平衡的样本129

5.6.3 包括多个时间帧130

5.6.4 创建一个预测模型集130

5.6.5 创建一个剖析模型集131

5.6.6 划分模型集132

5.7 步骤5:修复问题数据132

5.7.1 分类变量的值太多133

5.7.2 包含偏态分布和离群点的数值变量133

5.7.3 缺失值133

5.7.4 含义随时间而变化的值134

5.7.5 不一致的数据编码134

5.8 步骤6:转换数据以揭露信息134

5.9 步骤7:构建模型134

5.10 步骤8:评估模型135

5.10.1 评估二元响应模型和分类器135

5.10.2 利用提升评估二元响应模型136

5.10.3 利用提升图评估二元响应模型分数137

5.10.4 利用剖析模型评估二元响应模型得分139

5.10.5 使用ROC图表评估二元响应模型139

5.10.6 评估估计模型141

5.10.7 利用分数排名评估估计模型141

5.11 步骤9:部署模型142

5.11.1 模型部署中的实际问题142

5.11.2 优化模型以进行部署143

5.12 步骤10:评估结果143

5.13 步骤11:重新开始144

5.14 经验教训144

第6章 使用经典统计技术的数据挖掘147

6.1 相似度模型147

6.1.1 相似度和距离148

6.1.2 示例:产品普及率的相似度模型148

6.2 表查询模型153

6.2.1 选择维度153

6.2.2 维度的划分154

6.2.3 从训练数据到得分154

6.2.4 通过删除维度处理稀疏和缺失数据155

6.3 RFM:一种广泛使用的查询模型155

6.3.1 RFM单元格迁移156

6.3.2 RFM与测试和度量(T7est-and-Measure)方法论156

6.3.3 RFM和增量响应建模157

6.4 朴素贝叶斯模型158

6.4.1 概率论的一些思想158

6.4.2 朴素贝叶斯计算160

6.4.3 与表查询模型的比较160

6.5 线性回归161

6.5.1 最佳拟合曲线162

6.5.2 拟合的优点164

6.5.3 全局效应166

6.6 多元回归166

6.6.1 等式166

6.6.2 目标变量的范围166

6.6.3 解释线性回归方程的系数167

6.6.4 用线性回归捕捉局部影响168

6.6.5 使用多元回归的其他注意事项169

6.6.6 多元回归的变量选择170

6.7 逻辑回归分析171

6.7.1 建模二元输出171

6.7.2 逻辑函数172

6.8 固定效应和分层效应174

6.8.1 分层效应175

6.8.2 内部效应与之间效应175

6.8.3 固定效应175

6.9 经验教训177

第7章 决策树179

7.1 决策树是什么以及如何使用180

7.1.1 一棵典型的决策树180

7.1.2 使用决策树学习客户流失181

7.1.3 使用决策树来了解数据和选择变量182

7.1.4 使用决策树生成排名183

7.1.5 使用决策树估计类别概率183

7.1.6 使用决策树分类记录184

7.1.7 使用决策树估计数值184

7.2 决策树是局部模型184

7.3 决策树的生长187

7.3.1 发现初始划分187

7.3.2 生成整棵决策树189

7.4 寻找最佳划分190

7.4.1 Gini(总体多样性)作为划分标准191

7.4.2 熵减少或信息增益作为划分标准192

7.4.3 信息增益率193

7.4.4 卡方检验作为划分标准194

7.4.5 增量响应作为划分标准195

7.4.6 减小方差作为数值型目标的划分标准196

7.4.7 F检验198

7.5 剪枝198

7.5.1 CART剪枝算法198

7.5.2 悲观修剪:C5.0剪枝算法202

7.5.3 基于稳定性的修剪202

7.6 从决策树中提取规则203

7.7 决策树变种204

7.7.1 多路划分204

7.7.2 一次在多个字段上进行划分205

7.7.3 创建非矩形框205

7.8 评估决策树的质量209

7.9 什么时候使用决策树才合适209

7.10 案例研究:咖啡烘焙厂的过程控制210

7.10.1 模拟器的目标210

7.10.2 构建烘焙机模拟器210

7.10.3 评价烘焙机模拟器211

7.11 经验教训211

第8章 人工神经网络213

8.1 历史回顾214

8.2 生物学模型215

8.2.1 生物神经元216

8.2.2 生物输入层217

8.2.3 生物输出层217

8.2.4 神经网络与人工智能217

8.3 人工神经网络218

8.3.1 人工神经元218

8.3.2 多层感知器220

8.3.3 神经网络的一个例子221

8.3.4 神经网络拓扑结构223

8.4 应用实例:房地产估价224

8.5 神经网络的训练227

8.5.1 神经网络如何使用反向传播算法学习227

8.5.2 神经网络的修剪228

8.6 径向基函数网络230

8.6.1 RBF神经网络概述230

8.6.2 选择径向基函数的位置231

8.6.3 万能逼近器232

8.7 神经网络的应用233

8.8 选择训练集235

8.8.1 覆盖特征的所有值235

8.8.2 特征数235

8.8.3 训练集大小235

8.8.4 输出的数目和值域235

8.8.5 使用MLP的经验规则235

8.9 数据准备236

8.10 神经网络输出结果的解释238

8.11 时间序列神经网络239

8.11.1 时间序列建模239

8.11.2 时间序列神经网络的示例240

8.12 神经网络模型是否能解释241

8.12.1 灵敏度分析241

8.12.2 使用规则来描述得分242

8.13经验教训242

第9章 最近邻方法:基于记忆的推理和协同过滤245

9.1 基于记忆的推理246

9.1.1 类众模型247

9.1.2 实例:使用MBR估计纽约州Tuxedo镇的房租价格248

9.2 MBR面临的挑战250

9.2.1 选择一个平衡的历史记录集250

9.2.2 训练数据表示250

9.2.3 确定距离函数、组合函数和邻居数253

93案例研究:使用MBR分类乳房X线照片异常253

9.3.1 业务问题:识别X射线异常253

9.3.2 使用MBR应对这一问题253

9.3.3 总体解决方案255

9.4 距离和相似度计算255

9.4.1 距离函数是什么256

9.4.2 “一次一个字段”地建立距离函数257

9.4.3 其他数据类型的距离函数259

9.4.4 当存在一个距离度量指标时260

9.5 组合函数:向邻居征求建议260

9.5.1 最简单的方法:一个邻居260

9.5.2 针对类别目标的基本方法:民主261

9.5.3 针对类别目标的加权投票262

9.5.4 数值目标262

9.6 案例研究:Shazam——发现音频文件的最近邻居263

9.6.1 为何这一技能存在挑战264

9.6.2 音频签名264

9.6.3 相似度计算265

9.7 协同过滤:一种用于推荐的最近邻方法267

9.7.1 构建个人信息268

9.7.2 比较个人信息268

9.7.3 预测269

9.8 经验教训270

第10章 了解何时应担忧:使用生存分析了解客户271

10.1 客户生存273

10.1.1 生存曲线揭示的含义273

10.1.2 从生存曲线中寻找平均持续期274

10.1.3 使用生存分析保留客户276

10.1.4 将生存视为衰变277

10.2 风险概率279

10.2.1 基本思想279

10.2.2 风险函数例子280

10.2.3 删截282

10.2.4 风险计算283

10.2.5 其他类型的删截284

10.3 从风险到生存285

10.3.1 保留285

10.3.2 生存286

10.3.3 比较保留和生存287

10.4 比例风险288

10.4.1 比例风险的示例288

10.4.2 分层:度量生存的初始影响289

10.4.3 Cox比例风险290

10.5 生存分析实践292

10.5.1 处理不同的客户流失类型292

10.5.2 客户何时还会返回293

10.5.3 理解客户价值295

10.5.4 预测297

10.5.5 风险随时间变化298

10.6 经验教训299

第11章 遗传算法与群体智能301

11.1 优化302

11.1.1 优化问题是什么302

11.1.2 蚁群世界的优化问题302

11.1.3 合众为一(E Pluribus Unum)303

11.1.4 聪明的蚂蚁304

11.2 遗传算法306

11.2.1 一点历史306

11.2.2 计算机中的遗传学306

11.2.3 基因组的表示312

11.2.4 模式:遗传算法的构造模块313

11.2.5 超越简单算法315

11.3 旅行商问题316

11.3.1 穷举搜索316

11.3.2 简单的贪婪算法317

11.3.3 遗传算法的方法317

11.3.4 群体智慧的方法317

11.4 案例研究:使用遗传算法优化资源319

11.5 案例研究:进化出分类投诉的解320

11.5.1 业务上下文320

11.5.2 数据321

11.5.3 评论签名321

11.5.4 基因组322

11.5.5 适应度函数323

11.5.6 结果323

11.6 经验教训323

第12章 一些新知识:模式识别与数据挖掘325

12.1 无指导技术和无指导数据挖掘326

12.1.1 无指导技术与有指导技术的对比326

12.1.2 无指导数据挖掘与有指导数据挖掘的对比327

12.1.3 案例研究:使用有指导技术的无指导数据挖掘327

12.2 什么是无指导数据挖掘329

12.2.1 数据探索329

12.2.2 划分和聚类330

12.2.3 当目标不明确时目标变量的定义332

12.2.4 模拟、预测和基于智能体的建模335

12.3 无指导数据挖掘的方法论344

12.3.1 不存在方法论345

12.3.2 需要谨记的事情345

12.4 经验教训345

第13章 发现相似的岛屿:自动群集检测347

13.1 搜索简化的岛屿348

13.2 客户细分和聚类349

13.2.1 相似性聚类350

13.2.2 基于群集划分的跟踪活动351

13.2.3 聚类揭示被忽视的细分市场352

13.2.4 适应军队需求353

13.3 K-均值聚类算法353

13.3.1 K-均值算法的两个步骤354

13.3.2 Voronoi图和K-均值群集355

13.3.3 选择群集种子点357

13.3.4 选择K值357

13.3.5 使用K-均值检测离群点358

13.3.6 半指导聚类359

13.4 解释群集359

13.4.1 使用质心表征群集359

13.4.2 使用群集之间的差异表征群集360

13.4.3 使用决策树描述群集361

13.5 评价聚类362

13.5.1 群集的度量和术语362

13.5.2 群集轮廓363

13.5.3 为打分限制群集直径365

13.6 案例研究:城镇聚类366

13.6.1 创建城镇签名366

13.6.2 创建群集367

13.6.3 确定合适的群集数目367

13.6.4 评价群集368

13.6.5 使用人口统计学群集调整区域边界370

13.6.6 商业成功370

13.7 K-均值算法的变种算法371

13.7.1 K-中位数、K-中心点和K-众数371

13.7.2 K-均值的软层面374

13.8 聚类的数据准备375

13.8.1 一致性缩放375

13.8.2 使用权重编码外部信息375

13.8.3 选择聚类变量376

13.9 经验教训376

第14章 其他的群集检测方法379

14.1 K-均值聚类的缺点379

14.1.1 合理性380

14.1.2 一个直观的例子380

14.1.3 通过改变度量范围来修正问题382

14.1.4 这在实际中意味着什么383

14.2 混合高斯模型383

14.2.1 把高斯过程引入K-均值聚类384

14.2.2 回到混合高斯模型386

14.2.3 混合高斯模型的打分388

14.2.4 混合高斯模型的应用388

14.3 分裂聚类389

14.3.1 一种类决策树的聚类算法390

14.3.2 分裂聚类的打分391

14.3.3 群集和树391

14.4 凝聚(层次化)聚类392

14.4.1 凝聚聚类方法的综述392

14.4.2 凝聚聚类算法395

14.4.3 为凝聚群集打分397

14.4.4 凝聚聚类的局限性398

14.4.5 凝聚聚类的实际应用399

14.5 自组织映射400

14.5.1 什么是自组织映射401

14.5.2 SOM的训练403

14.5.3 SOM的打分404

14.6 继续搜索简化的岛屿404

14.7 经验教训405

第15章 购物篮分析和关联规则407

15.1 购物篮分析的定义408

15.1.1 购物篮数据的四个级别408

15.1.2 购物篮分析的基础:基本度量409

15.1.3 订单特征410

15.1.4 项目(产品)人气411

15.1.5 跟踪市场干预412

15.2 案例研究:西班牙语或英语413

15.2.1 业务问题413

15.2.2 数据414

15.2.3 “西班牙裔城市”偏好的定义414

15.2.4 解决方案415

15.3 关联分析416

15.3.1 规则不是万能的416

15.3.2 关联规则中的项目集418

15.3.3 关联规则的益处420

15.4 构建关联规则421

15.4.1 选择正确的项目集422

15.4.2 从所有这些数据中生成规则426

15.4.3 克服实际限制429

15.4.4 大数据问题432

15.5 思想扩展432

15.5.1 左右两侧包含不同的项目432

15.5.2 利用关联规则比较商店433

15.6 关联规则和交叉销售434

15.6.1 一个经典的交叉销售模型435

15.6.2 更可信的倾向度产生方法435

15.6.3 使用置信度所产生的结果436

15.7 序列模式分析436

15.7.1 序列的发现436

15.7.2 序列关联规则439

15.7.3 利用其他数据挖掘技术的序列分析440

15.8 经验教训440

第16章 链接分析443

16.1 图论基础444

16.1.1 图是什么444

16.1.2 有向图445

16.1.3 加权图446

16.1.4 哥尼斯堡的七桥问题447

16.1.5 图中的回路检测449

16.1.6 旅行商问题的反思449

16.2 社交网络分析452

16.2.1 六度分割理论453

16.2.2 你朋友说了关于你的什么事情454

16.2.3 发现托儿福利欺诈454

16.2.4 交友网站中谁响应了谁455

16.2.5 社会营销456

16.3 呼叫图挖掘456

16.4 案例研究:追踪领袖458

16.4.1 业务目标458

16.4.2 数据处理面临的挑战459

16.4.3 发现呼叫数据中的社交网络459

16.4.4 这些结果如何用于营销460

16.4.5 估计客户年龄460

16.5 案例研究:谁正在家里使用传真机460

16.5.1 寻找传真机为何有用461

16.5.2 传真机的行为如何461

16.5.3 图着色算法462

16.5.4 对图进行着色以识别传真机462

16.6 Google如何成为世界的统治者463

16.6.1 中心和权威464

16.6.2 算法细节465

16.6.3 实践中的中心和权威466

16.7 经验教训466

第17章 数据仓库、OLAP、分析沙箱和数据挖掘469

17.1 数据体系结构470

17.1.1 事务数据:基础层471

17.1.2 操作汇总数据472

17.1.3 决策支持汇总数据472

17.1.4 数据库模式数据模型473

17.1.5 元数据476

17.1.6 业务规则476

17.2 数据仓库的通用体系结构477

17.2.1 源系统477

17.2.2 提取、转换和加载479

17.2.3 中央存储库479

17.2.4 元数据存储库481

17.2.5 数据集市482

17.2.6 操作反馈482

17.2.7 用户和桌面工具482

17.3 分析沙箱484

17.3.1 为什么需要分析沙箱484

17.3.2 支持分析沙箱的技术486

17.4 OLAP的适用时机488

17.4.1 立方体中是什么490

17.4.2 星型模式494

17.4.3 OLAP和数据挖掘495

17.5 数据挖掘与数据仓库如何匹配496

17.5.1 大量的数据497

17.5.2 一致的、干净的数据497

17.5.3 假设检验和度量498

17.5.4 可扩展的硬件和RDBMS支持498

17.6 经验教训499

第18章 构建客户签名501

18.1 在数据中寻找客户502

18.1.1 客户是什么502

18.1.2 账户、客户与家庭503

18.1.3 匿名事务503

18.1.4 链接到卡的事务503

18.1.5 链接到cookie的事务504

18.1.6 链接到账户的事务504

18.1.7 链接到客户的事务505

18.2 设计签名505

18.2.1 客户签名是否有必要509

18.2.2 每一行代表什么509

18.2.3 签名对预测建模有用吗512

18.2.4 目标已经被定义了吗513

18.2.5 是否应用了由特定的数据挖掘技术所强加的约束513

18.2.6 将会引入哪些客户513

18.2.7 可能想了解客户的哪些情况514

18.3 签名看起来像什么514

18.4 创建签名的过程517

18.4.1 有些数据已处于正确的粒度517

18.4.2 旋转到规则时间序列517

18.4.3 聚集时间戳事务519

18.5 处理缺失值520

18.5.1 源数据中的缺失值520

18.5.2 未知或不存在521

18.5.3 什么不该做521

18.5.4 需要考虑的事情523

18.6 经验教训524

第19章 派生变量:使数据的含义更丰富527

19.1 基于手机流失率的流失预测527

19.2 单变量转换529

19.2.1 标准化数字变量529

19.2.2 转换数值为百分位数530

19.2.3 把数量转为比率530

19.2.4 相对度量531

19.2.5 把类别变量替换为数值532

19.3 变量组合536

19.3.1 经典组合536

19.3.2 组合高度相关的变量539

19.4 从时间序列中提取特征545

19.4.1 趋势545

19.4.2 季节性546

19.5 从地理位置中提取特征547

19.5.1 地理编码547

19.5.2 映射548

19.5.3 利用地理位置创建相对度量549

19.5.4 使用目标变量的历史值549

19.6 使用模型分数作为输入550

19.7 稀疏数据的处理550

19.7.1 账户集模式550

19.7.2 分箱稀疏值551

19.8 从事务中捕获客户行为551

19.8.1 拓宽窄数据552

19.8.2 影响范围作为良好客户的预测552

19.8.3 示例:对评分者剖析的评分553

19.8.4 评分者签名中的样本字段553

19.8.5 评分签名与派生变量555

19.9 经验教训555

第20章 减少变量数量的技术557

20.1 变量太多存在的问题558

20.1.1 输入变量之间彼此相关的风险558

20.1.2 过拟合风险559

20.2 数据稀疏问题560

20.2.1 稀疏性的可视化560

20.2.2 独立性561

20.2.3 穷举法特征选择563

20.3 变量约简技术的类型564

20.3.1 使用目标564

20.3.2 原始变量与新变量564

20.4 特征的顺序选择565

20.4.1 传统的前向选择方法565

20.4.2 使用验证集的前向选择566

20.4.3 逐步选择567

20.4.4 使用非回归的前向选择技术567

20.4.5 后向选择567

20.4.6 无指导的前向选择568

20.5 其他有指导的变量选择方法568

20.5.1 利用决策树来选择变量568

20.5.2 使用神经网络来约简变量571

20.6 主成分571

20.6.1 主成分是什么571

20.6.2 主成分分析的例子575

20.6.3 主成分分析578

20.6.4 因子分析581

20.7 变量聚类582

20.7.1 变量群集的例子582

20.7.2 使用变量群集583

20.7.3 层次变量聚类583

20.7.4 分裂变量聚类585

20.8 经验教训586

第21章 仔细聆听客户所述:文本挖掘587

21.1 什么是文本挖掘588

21.1.1 文本挖掘用于派生列588

21.1.2 派生特征之外588

21.1.3 文本分析应用589

21.2 处理文本数据591

21.2.1 文本源591

21.2.2 语言影响592

21.2.3 表示文档的基本方法593

21.2.4 实践中的文档表示594

21.2.5 文档和语料库595

21.3 案例研究:特设文本挖掘595

21.3.1 抵制行动596

21.3.2 照常营业596

21.3.3 结合文本挖掘和假设检验596

21.3.4 结果597

21.4 使用MBR分类新闻报道598

21.4.1 什么是编码598

21.4.2 应用MBR599

21.4.3 结果601

21.5 从文本到数字601

21.5.1 以“词袋”开始602

21.5.2 词-文档矩阵603

21.5.3 语料库影响604

21.5.4 奇异值分解(SVD)604

21.6 文本挖掘和朴素贝叶斯模型606

21.6.1 文本世界中的朴素贝叶斯607

21.6.2 使用朴素贝叶斯识别垃圾邮件607

21.6.3 情感分析611

21.7 DIRECTV:客户服务案例研究613

21.7.1 背景613

21.7.2 应用文本挖掘614

21.7.3 采取技术手段616

21.7.4 持续受益619

21.8 经验教训620

热门推荐