图书介绍

高性能数据挖掘 快速项集挖掘算法及性能研究2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

高性能数据挖掘 快速项集挖掘算法及性能研究
  • 屈俊峰著 著
  • 出版社: 北京:中国水利水电出版社
  • ISBN:9787517066910
  • 出版时间:2018
  • 标注页数:161页
  • 文件大小:56MB
  • 文件页数:171页
  • 主题词:数据采集-研究

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

高性能数据挖掘 快速项集挖掘算法及性能研究PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 概述1

1.1 项集:数据挖掘研究领域的焦点之一3

1.2 频繁项集挖掘问题的研究历史5

1.3 高可用项集挖掘问题的研究历史7

1.4 本书的主要内容9

第2章 频繁项集挖掘问题11

2.1 概述12

2.1.1 问题形式化定义12

2.1.2 搜索空间与方法13

2.2 基础频繁项集挖掘算法介绍14

2.2.1 经典的候选生成Apriori算法15

2.2.2 以垂直视角处理数据库的Eclat算法16

2.2.3 基于前缀树结构的FP-growth算法17

2.3 性能测试的软硬件环境19

2.3.1 数据库描述19

2.3.2 参照算法介绍20

2.3.3 其他软硬件设施22

2.4 实验一:三种基础算法的性能测试23

2.4.1 实验结果23

2.4.2 性能评价24

第3章 BFP-growth:快速模式增长算法27

3.1 经典模式增长算法的性能分析28

3.1.1 影响 FP-growth性能的三个因素28

3.1.2 ICDM最佳算法:FPgrowth28

3.2 批量模式增长算法:BFP-growth30

3.2.1 性能提升的途径30

3.2.2 核心步骤:两次前缀树遍历31

3.2.3 算法伪代码34

3.3 BFP-growth算法的性能分析35

3.3.1 更少的遍历花费35

3.3.2 FP-array技术应该集成在BFP-growth中吗36

3.3.3 无修饰的前缀树结构37

3.4 实验二:BFP-growth的性能测试及讨论38

3.4.1 BFP-growth 及FPgrowth*与基础算法的对比38

3.4.2 实验结果讨论38

3.5 小结40

第4章 基于结点集合结构的NS算法41

4.1 Eclat及FP-growth算法的优缺点42

4.2 结点集合结构(Node-set)43

4.2.1 条件结点44

4.2.2 结点拓扑序号45

4.2.3 使用结点集合结构表示前缀树46

4.3 NS算法47

4.3.1 映射前缀树到结点集合结构47

4.3.2 从结点集合结构中挖掘频繁项集48

4.3.3 一个例子50

4.3.4 NS算法的原子操作51

4.4 实验三:NS算法与其他快速挖掘算法的性能对比51

4.4.1 实验结果52

4.4.2 结果讨论:NS算法的性能优势53

4.5 小结54

第5章 用Patricia结构挖掘频繁项集55

5.1 研究动机56

5.2 Patricia*结构57

5.2.1 单孩子结点58

5.2.2 构造Patricia*结构59

5.3 用Patricia*结构挖掘频繁项集60

5.3.1 先前的挖掘流程60

5.3.2 改进的挖掘流程61

5.3.3 PatriciaMine*算法62

5.4 实验结果63

5.4.1 结点数量统计64

5.4.2 性能对比65

5.5 小结66

第6章 频繁项集挖掘算法的内存耗费68

6.1 BFP-growth算法内存使用情况分析69

6.2 NS算法内存使用情况分析69

6.3 实验四:快速挖掘算法的内存耗费70

6.4 SP算法71

6.4.1 研究动机71

6.4.2 基础知识72

6.4.3 挖掘频繁项集76

6.4.4 实验结果与结论79

第7章 高可用项集挖掘问题80

7.1 从频繁项集到高可用项集81

7.2 问题的形式化定义82

7.3 已有挖掘算法概述83

第8章 非候选生成高可用项集挖掘算法87

8.1 项集有用性列表结构88

8.1.1 初始有用性列表88

8.1.2 2-项集的有用性列表90

8.1.3 k-项集有用性列表(k≥3)91

8.2 HUI-Miner算法92

8.2.1 剪枝策略93

8.2.2 算法伪代码94

8.3 HUI-Miner算法的实现细节95

8.3.1 有用性列表表头95

8.3.2 重新标注tid95

8.3.3 交易权重有用性增加的顺序96

8.4 实验五:HUI-Miner性能测试97

8.4.1 实验设置97

8.4.2 HUI-Miner及对比算法的运行时间98

8.4.3 HUI-Miner 及对比算法的内存耗费99

8.4.4 项处理顺序对HUI-Miner性能的影响100

8.4.5 可扩展性101

8.4.6 实验结果讨论102

8.5 小结103

第9章 快速识别高可用项集105

9.1 先前算法的性能瓶颈106

9.2 基本识别算法(BIA)107

9.3 基于候选树的快速识别算法(FIA)110

9.3.1 候选树结构110

9.3.2 快速识别算法111

9.4 算法分析:BIA与FIA114

9.5 实验六:BIA与FIA的性能对比115

9.5.1 高可用项集识别时间116

9.5.2 候选项集生成时间117

9.5.3 内存耗费117

9.5.4 实验结果分析117

9.6 实验七:FIA-UP-Growth+和 HUI-Miner的性能对比118

9.6.1 运行时间&内存耗费118

9.6.2 实验结果分析119

9.7 小结120

第10章 最大频繁项集挖掘122

10.1 介绍122

10.2 基本概念124

10.3 MAFIA算法125

10.3.1 深度优先遍历125

10.3.2 搜索空间剪枝126

10.3.3 有效的MFI超集检查130

10.4 挖掘非最大频繁项集131

10.4.1 挖掘所有的频繁项集132

10.4.2 挖掘所有的频繁闭项集132

10.5 实施细节133

10.6 结论134

第11章 频繁闭项集挖掘135

11.1 介绍135

11.2 频繁项集挖掘137

11.2.1 基本定义137

11.2.2 先前的解决方案138

11.3 项集—记录标识符集合搜索树与等价类139

11.4 CHARM算法设计与实现141

11.4.1 快速的闭项集子集合检查144

11.4.2 使用差异集合快速进行频繁计数145

11.4.3 其他优化及正确性147

11.5 实验结果148

11.6 结论149

参考文献150

热门推荐