图书介绍
世界著名计算机教材精选 Web数据挖掘 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 刘兵著;俞勇等译 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302298700
- 出版时间:2013
- 标注页数:434页
- 文件大小:120MB
- 文件页数:450页
- 主题词:数据采集-教材
PDF下载
下载说明
世界著名计算机教材精选 Web数据挖掘 第2版PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 概述1
1.1 什么是万维网1
1.2 万维网和互联网的历史简述2
1.3 Web数据挖掘3
1.3.1 什么是数据挖掘4
1.3.2 什么是Web数据挖掘5
1.4 各章概要6
1.5 如何阅读本书8
文献评注9
参考文献9
第1部分 数据挖掘基础13
第2章 关联规则和序列模式13
2.1 关联规则的基本概念13
2.2 Apriori算法15
2.2.1 频繁项目集生成15
2.2.2 关联规则生成18
2.3 关联规则挖掘的数据格式20
2.4 多最小支持度的关联规则挖掘21
2.4.1 扩展模型22
2.4.2 挖掘算法23
2.4.3 规则生成27
2.5 分类关联规则挖掘28
2.5.1 问题描述28
2.5.2 挖掘算法29
2.5.3 多最小支持度分类关联规则挖掘31
2.6 序列模式的基本概念32
2.7 基于GSP挖掘序列模式34
2.7.1 GSP算法34
2.7.2 多最小支持度挖掘35
2.8 基于PrefixSpan算法的序列模式挖掘38
2.8.1 PrefixSpan算法39
2.8.2 多最小支持度挖掘40
2.9 从序列模式中产生规则42
2.9.1 序列规则42
2.9.2 标签序列规则42
2.9.3 分类序列规则43
文献评注43
参考文献45
第3章 监督学习49
3.1 基本概念49
3.2 决策树归纳52
3.2.1 学习算法53
3.2.2 混杂度函数54
3.2.3 处理连续属性57
3.2.4 其他一些问题58
3.3 评估分类器60
3.3.1 评估方法61
3.3.2 查准率、查全率、F-score和平衡点(Breakeven Point)62
3.3.3 受试者工作特征曲线63
3.3.4 提升曲线65
3.4 规则归纳66
3.4.1 顺序化覆盖66
3.4.2 规则学习:Learn-One-Rule函数68
3.4.3 讨论70
3.5 基于关联规则的分类71
3.5.1 使用类关联规则进行分类71
3.5.2 使用类关联规则作为分类属性74
3.5.3 使用古典的关联规则分类74
3.6 朴素贝叶斯分类75
3.7 朴素贝叶斯文本分类78
3.7.1 概率框架78
3.7.2 朴素贝叶斯模型79
3.7.3 讨论81
3.8 支持向量机81
3.8.1 线性支持向量机:可分的情况82
3.8.2 线性支持向量机:数据不可分的情况86
3.8.3 非线性支持向量机:核方法88
总结90
3.9 k-近邻学习91
3.10 分类器的集成92
3.10.1 Bagging92
3.10.2 Boosting92
文献评注93
参考文献94
第4章 无监督学习98
4.1 基本概念98
4.2 k-均值聚类100
4.2.1 k-均值算法100
4.2.2 k-均值算法的硬盘版本102
4.2.3 优势和劣势102
4.3 聚类的表示105
4.3.1 聚类的一般表示方法106
4.3.2 任意形状的聚类106
4.4 层次聚类107
4.4.1 单连结方法108
4.4.2 全连结方法108
4.4.3 平均连结方法109
4.4.4 优势和劣势109
4.5 距离函数110
4.5.1 数字属性110
4.5.2 布尔属性和名词性属性110
4.5.3 文本文档112
4.6 数据标准化112
4.7 混合属性的处理114
4.8 采用哪种聚类算法115
4.9 聚类的评估115
4.10 发现数据区域和数据空洞118
文献评注119
参考文献121
第5章 部分监督学习124
5.1 从已标注数据和无标注数据中学习124
5.1.1 使用朴素贝叶斯分类器的EM算法125
5.1.2 Co-Training128
5.1.3 自学习129
5.1.4 直推式支持向量机130
5.1.5 基于图的方法131
5.1.6 讨论133
5.2 从正例和无标注数据中学习133
5.2.1 PU学习的应用134
5.2.2 理论基础135
5.2.3 建立分类器:两步方法137
5.2.4 建立分类器:偏置SVM142
5.2.5 建立分类器:概率估计144
5.2.6 讨论145
附录:朴素贝叶斯EM算法的推导145
文献评注147
参考文献148
第2部分 Web挖掘153
第6章 信息检索与Web搜索153
6.1 信息检索中的基本概念154
6.2 信息检索模型156
6.2.1 布尔模型156
6.2.2 向量空间模型157
6.2.3 统计语言模型159
6.3 关联性反馈160
6.4 评估标准162
6.5 文本和网页的预处理164
6.5.1 无用词移除165
6.5.2 词干提取165
6.5.3 其他文本预处理步骤165
6.5.4 网页预处理步骤166
6.5.5 副本探测167
6.6 倒排索引及其压缩168
6.6.1 倒排索引168
6.6.2 使用倒排索引搜索169
6.6.3 索引的建立170
6.6.4 索引的压缩171
6.7 隐式语义索引175
6.7.1 奇异值分解(singular value decomposition)176
6.7.2 查询和检索177
6.7.3 实例178
6.7.4 讨论181
6.8 Web搜索181
6.9 元搜索引擎和组合多种排序183
6.9.1 使用相似度分数的合并184
6.9.2 使用排名位置的合并184
6.10 网络作弊186
6.10.1 内容作弊187
6.10.2 链接作弊187
6.10.3 隐藏技术188
6.10.4 抵制作弊189
文献评注190
参考文献191
第7章 社会网络分析195
7.1 社会网络分析196
7.1.1 中心性196
7.1.2 权威198
7.2 同引分析和引文耦合199
7.2.1 同引分析200
7.2.2 引文耦合200
7.3 PageRank201
7.3.1 PageRank算法201
7.3.2 PageRank算法的优点和缺点207
7.3.3 Timed PageRank和Recency Search207
7.4 HITS208
7.4.1 HITS算法209
7.4.2 寻找其他的特征向量211
7.4.3 同引分析和引文耦合的关系211
7.4.4 HITS算法的优点和缺点212
7.5 社区发现213
7.5.1 问题定义213
7.5.2 二分核心社区215
7.5.3 最大流社区216
7.5.4 基于中介性的电子邮件社区218
7.5.5 命名实体的重叠社区219
文献评注220
参考文献220
第8章 Web爬取225
8.1 一个简单爬虫算法225
8.1.1 宽度优先爬虫227
8.1.2 带偏好的爬虫227
8.2 实现议题228
8.2.1 网页获取228
8.2.2 网页解析228
8.2.3 删除无用词并提取词干230
8.2.4 链接提取和规范化230
8.2.5 爬虫陷阱232
8.2.6 网页库232
8.2.7 并发性233
8.3 通用爬虫234
8.3.1 可扩展性234
8.3.2 覆盖度、新鲜度和重要度235
8.4 限定爬虫236
8.5 主题爬虫238
8.5.1 主题本地性和线索240
8.5.2 最优优先变种243
8.5.3 自适应246
8.6 评价标准249
8.7 爬虫道德和冲突253
8.8 最新进展255
文献评注256
参考文献257
第9章 结构化数据抽取:包装器生成261
9.1 预备知识261
9.1.1 两种富含数据的网页262
9.1.2 数据模型263
9.1.3 数据实例的HTML标记编码265
9.2 包装器归纳266
9.2.1 从一张网页抽取267
9.2.2 学习抽取规则269
9.2.3 识别提供信息的样例272
9.2.4 包装器维护273
9.3 基于实例的包装器学习273
9.4 自动包装器生成中的一些问题276
9.4.1 两个抽取问题276
9.4.2 作为正则表达式的模式277
9.5 字符串匹配和树匹配277
9.5.1 字符串编辑距离278
9.5.2 树匹配279
9.6 多重对齐282
9.6.1 中星方法283
9.6.2 部分树对齐284
9.7 构建DOM树287
9.8 基于列表页的抽取:平坦数据记录288
9.8.1 有关数据记录的两个观察结果289
9.8.2 挖掘数据区域290
9.8.3 从数据区域中识别数据记录294
9.8.4 数据项对齐与抽取294
9.8.5 利用视觉信息295
9.8.6 一些其他技术295
9.9基于列表页的抽取:嵌套数据记录296
9.10 基于多张网页的抽取301
9.10.1 采用前几节中的技术301
9.10.2 RoadRunner算法301
9.11 一些其他问题303
9.11.1 从其他网页中抽取303
9.11.2 析取还是可选303
9.11.3 集合类型还是元组类型304
9.11.4 标注与整合304
9.11.5 领域相关的抽取305
9.12 讨论305
文献评注305
参考文献306
第10章 信息集成310
10.1 什么是模式匹配310
10.2 模式匹配的预处理工作312
10.3 模式层的匹配313
10.3.1 基于语言学的算法313
10.3.2 基于模式约束的算法314
10.4 基于域和实例层的匹配315
10.5 综合多种相似度317
10.6 1:m匹配317
10.7 一些其他问题318
10.7.1 重用已有的匹配结果318
10.7.2 大量模式的匹配319
10.7.3 模式匹配的结果319
10.7.4 用户交互320
10.8 Web查询界面的集成320
10.8.1 一个基于聚类的方法322
10.8.2 基于相互关系的方法324
10.8.3 基于实例的方法326
10.9 构建一个统一的全局查询界面328
10.9.1 结构恰当和合并算法328
10.9.2 词汇恰当330
10.9.3 实例恰当331
文献评注331
参考文献331
第11章 观点挖掘与情感分析335
11.1 观点挖掘问题335
11.1.1 问题定义336
11.1.2 基于方面的观点摘要340
11.2 文本情感分类341
11.2.1 基于监督学习的分类342
11.2.2 基于无监督学习的分类343
11.3 句子主观性与情感分类345
11.4 观点词汇扩展347
11.5 基于方面的观点挖掘349
11.5.1 基于方面的情感分类349
11.5.2 观点的基本规则351
11.5.3 方面抽取353
11.5.4 同时扩展观点词汇和抽取方面355
11.6 比较性观点挖掘358
11.6.1 问题定义358
11.6.2 等级比较性语句的识别360
11.6.3 偏好实体识别360
11.7 其他的一些问题362
11.8 观点搜索365
11.9 观点欺诈检测367
11.9.1 观点欺诈的目标和行为367
11.9.2 隐藏技巧368
11.9.3 基于监督学习的欺诈检测369
11.9.4 基于异常行为的欺诈检测370
11.9.5 群组欺诈检测372
11.10 评论的效用372
文献评注373
参考文献374
第12章 Web使用挖掘384
12.1 数据收集和预处理385
12.1.1 数据的来源和类型385
12.1.2 Web使用记录数据预处理的关键元素388
12.2 Web使用挖掘的数据建模392
12.3 Web使用模式的发现和分析395
12.3.1 会话和访问者分析395
12.3.2 聚类分析和访问者分割396
12.3.3 关联及相关度分析399
12.3.4 序列和导航模式分析399
12.3.5 基于Web用户事务的分类和预测402
12.4 推荐系统和协同过滤402
12.4.1 推荐问题402
12.4.2 基于内容的推荐403
12.4.3 协同过滤:k-近邻(kNN)404
12.4.4 协同过滤:使用关联规则406
12.4.5 协同过滤:矩阵分解408
12.5 查询日志挖掘412
12.5.1 数据源、特征和挑战413
12.5.2 查询日志数据准备414
12.5.3 查询日志数据模型416
12.5.4 查询日志特征提取419
12.5.5 查询日志挖掘应用419
12.5.6 查询日志挖掘方法421
12.6 计算广告学423
12.7 讨论和展望426
文献评注426
参考文献427
热门推荐
- 1908970.html
- 2802594.html
- 2523173.html
- 3503124.html
- 2009765.html
- 3129743.html
- 1861286.html
- 1393801.html
- 861955.html
- 68255.html
- http://www.ickdjs.cc/book_318395.html
- http://www.ickdjs.cc/book_2437690.html
- http://www.ickdjs.cc/book_1796186.html
- http://www.ickdjs.cc/book_1924176.html
- http://www.ickdjs.cc/book_3803154.html
- http://www.ickdjs.cc/book_1980678.html
- http://www.ickdjs.cc/book_427847.html
- http://www.ickdjs.cc/book_3215411.html
- http://www.ickdjs.cc/book_181034.html
- http://www.ickdjs.cc/book_3818391.html