图书介绍

数据质量导论2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

数据质量导论
  • 曹建军,刁兴春著 著
  • 出版社: 北京:国防工业出版社
  • ISBN:9787118114058
  • 出版时间:2017
  • 标注页数:302页
  • 文件大小:50MB
  • 文件页数:326页
  • 主题词:数据处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据质量导论PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 绪论1

1.1 引言1

1.2 数据工程建设概述2

1.2.1 数据处理与应用的发展简况2

1.2.2 信息系统建设中的数据工程3

1.2.3 我国数据工程建设面临的问题9

1.3 数据质量概述10

1.3.1 数据质量的含义10

1.3.2 数据全生命周期质量管理12

1.3.3 数据质量问题的来源13

1.3.4 数据质量研究发展简况14

1.4 本书内容结构安排16

参考文献18

第2章 数据质量研究和数据清洗系统框架20

2.1 引言20

2.2 数据质量研究框架20

2.2.1 典型的数据质量框架20

2.2.2 数据质量的研究主题25

2.2.3 数据质量的研究方法30

2.3 对数据质量管理的思考33

2.3.1 数据质量管理的发展模式33

2.3.2 数据质量管理问题剖析35

2.4 典型数据质量控制的框架38

2.4.1 层次结构数据质量控制框架38

2.4.2 层次结构数据质量控制所涉及的关键问题40

2.4.3 数据清洗技术简介42

2.4.4 数据清洗的概念辨析42

2.4.5 数据清洗的一般性系统框架45

2.5 本章小结47

参考文献48

第3章 典型数据清洗技术的发展动态51

3.1 引言51

3.2 实体分辨技术的发展动态51

3.2.1 数据分块算法52

3.2.2 记录比较算法54

3.2.3 匹配决策模型55

3.2.4 基于关系的实体分辨57

3.2.5 实体分辨中的训练和测试数据集59

3.2.6 实体分辨面临的挑战61

3.3 不完整数据清洗技术的发展动态63

3.3.1 数据完整性及其评价方法63

3.3.2 不完整数据的分类64

3.3.3 不完整数据清洗技术65

3.4 不一致数据清洗技术的发展动态66

3.4.1 针对一致性的数据依赖理论67

3.4.2 典型数据依赖(规则)挖掘方法72

3.4.3 基于数据依赖的数据一致性保证75

3.5 本章小结79

参考文献80

第4章 实体分辨中的数据分块方法86

4.1 引言86

4.2 基于冗余的数据分块86

4.3 基于倒排索引消除冗余记录对87

4.3.1 数据块排序索引88

4.3.2 记录倒排索引89

4.3.3 冗余记录对识别89

4.3.4 实验分析90

4.4 基于空间映射的数据块约减94

4.4.1 数据块映射95

4.4.2 数据块约减96

4.4.3 实验分析98

4.5 基于Canopy聚类的数据分块101

4.5.1 整体流程102

4.5.2 ID指定102

4.5.3 BK生成103

4.5.4 Canopy聚类103

4.5.5 候选对象获取105

4.5.6 复杂性分析105

4.5.7 实验分析105

4.6 本章小结108

参考文献109

第5章 实体分辨中的相似度计算方法111

5.1 引言111

5.2 基于多编辑距离融合的相似度计算111

5.2.1 相似特征定义及其标准化112

5.2.2 编辑距离113

5.2.3 中西文混合字符串的编辑距离114

5.2.4 多编辑距离字符串相似度融合116

5.2.5 实验分析117

5.3 属性相似度与函数依赖的关系119

5.4 基于函数依赖的属性相似度调整122

5.4.1 属性相似度划分122

5.4.2 属性相似度调整123

5.4.3 算法描述126

5.4.4 实验分析127

5.5 本章小结133

参考文献134

第6章 基于关系的实体分辨136

6.1 引言136

6.2 基于云模型的实体分辨记录对划分137

6.2.1 云模型简介137

6.2.2 记录相似度的分布138

6.2.3 记录相似度的云模型表示139

6.2.4 划分方法140

6.2.5 结果分析142

6.3 基于邻域粗糙集的实体分辨记录对划分143

6.3.1 邻域粗糙集144

6.3.2 基于邻域粗糙集的记录对划分145

6.3.3 实验分析146

6.4 基于关系类型的自适应实体分辨150

6.4.1 路径权重150

6.4.2 路径概率151

6.4.3 连接强度152

6.4.4 自适应关系类型权重学习153

6.4.5 实验分析154

6.5 本章小结159

参考文献159

第7章 不完整数据的分类与检测161

7.1 引言161

7.2 基于位运算的不完整数据分类与检测162

7.2.1 不完整数据及其分类162

7.2.2 记录的二进制表示164

7.2.3 不完整记录的位运算分类检测方法164

7.2.4 应用实例166

7.3 基于统计关系的不完整数据分类167

7.3.1 数据缺失模式分类167

7.3.2 数据缺失机制分类169

7.4 本章小结171

参考文献171

第8章 不完整数据的估计与填充173

8.1 引言173

8.2 基于统计关系学习的缺失数据估计与填充173

8.2.1 统计关系学习概述174

8.2.2 基于马尔可夫模型的缺失值估计方法178

8.2.3 基于关系马尔可夫模型的缺失值估计181

8.3 基于机器学习的缺失数据估计与填充192

8.3.1 基于k-近邻的填补算法192

8.3.2 局部敏感哈希技术193

8.3.3 LSH_KNN数据填补算法193

8.3.4 实验验证197

8.4 函数依赖一致性数据生成200

8.4.1 函数依赖一致性200

8.4.2 单函数依赖一致性数据生成算法201

8.4.3 基于有向无环图的多函数依赖一致性数据生成203

8.4.4 属性集划分和数据生成流水线206

8.5 本章小结209

参考文献209

第9章 条件函数依赖挖掘及其优化方法211

9.1 引言211

9.2 条件函数依赖挖掘及其常用算法211

9.2.1 条件函数依赖及其挖掘问题212

9.2.2 函数依赖挖掘215

9.2.3 CTANE算法217

9.2.4 CFDMiner算法219

9.3 基于开项集剪枝的常量条件函数依赖挖掘算法221

9.3.1 剪枝与优化策略221

9.3.2 优化前后复杂度对比225

9.3.3 实验验证与结果分析226

9.4 本章小结228

参考文献229

第10章 基于规则的不一致数据检测与修复方法231

10.1 引言231

10.2 基于Fellegi-Holt方法的不一致数据检测232

10.2.1 Fellegi-Holt方法232

10.2.2 检测流程及策略236

10.2.3 实验及分析238

10.3 基于Evidence-Rules模型的不一致数据修复242

10.3.1 确定问题记录中待修改属性集243

10.3.2 基于函数依赖规则的属性值修复244

10.3.3 Evidence-Rules模型与问题数据修复246

10.3.4 实验及分析253

10.4 本章小结256

参考文献257

第11章 数据质量工具259

11.1 引言259

11.2 数据质量工具发展概况259

11.2.1 Gartner分析报告259

11.2.2 数据质量管理工具分析261

11.3 基于表达式树的数据质量工具设计265

11.3.1 数据质量规则的分类与表达265

11.3.2 数据质量规则的存储与识别271

11.4 基于流程的数据质量工具设计276

11.4.1 数据模型277

11.4.2 作业模型278

11.4.3 执行方案模型280

11.5 本章小结281

参考文献282

第12章 大数据与大数据质量问题283

12.1 引言283

12.2 大数据时代的特征283

12.2.1 大数据的含义284

12.2.2 大数据的特征284

12.2.3 进入大数据时代的必要条件285

12.2.4 大数据时代的革命性转变287

12.2.5 大数据时代的核心任务288

12.3 大数据质量面临的挑战290

12.3.1 数据安全问题290

12.3.2 大数据的偏见和盲区291

12.3.3 非结构化数据的质量控制292

12.3.4 结构化数据内缺少结构性292

12.3.5 分布式数据清洗293

12.3.6 数据化程度不够293

12.3.7 数据稀缺294

12.3.8 数据冗余294

12.3.9 数据对实际需求的适用性294

12.3.10 人为选择导致的信息失真295

12.4 数据治理295

12.4.1 数据治理的出发点295

12.4.2 数据治理的一般流程296

12.4.3 数据治理的系统框架297

12.5 本章小结300

参考文献300

基金资助目录302

热门推荐