图书介绍

大数据技术丛书 企业数据湖2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

大数据技术丛书 企业数据湖
  • (印度)汤姆斯·约翰,(印度)潘卡·米斯拉著 著
  • 出版社: 北京:机械工业出版社
  • ISBN:7111615538
  • 出版时间:2019
  • 标注页数:369页
  • 文件大小:38MB
  • 文件页数:392页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

大数据技术丛书 企业数据湖PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一部分 概述2

第1章 数据导论2

1.1探索数据3

1.2什么是企业数据4

1.3企业数据管理5

1.4大数据相关概念6

1.5数据与企业的相关性8

1.6数据质量9

1.7企业中数据如何存放10

1.7.1内联网(企业内部)10

1.7.2互联网(企业外部)10

1.7.3数据持久化存储(RDBMS或者NoSQL)12

1.7.4传统的数据仓库13

1.7.5文件存储13

1.8企业现状14

1.9企业数字化转型15

1.10数据湖用例启示16

1.11总结17

第2章 数据湖概念概览18

2.1什么是数据湖18

2.2数据湖如何帮助企业19

2.3数据湖是如何工作的20

2.4数据湖与数据仓库的区别21

2.5数据湖的构建方法22

2.6 Lambda架构驱动的数据湖22

2.6.1数据摄取层——摄取数据用于处理和存储23

2.6.2批处理层——批量处理已提取数据23

2.6.3快速处理层——近实时数据处理24

2.6.4数据存储层——存储所有数据24

2.6.5服务层——数据交付与导出25

2.6.6数据获取层——从源系统获取数据25

2.6.7消息层——数据传输的保障26

2.6.8探索数据摄取层27

2.6.9探索Lambda层28

2.7总结35

第3章 Lambda架构:一种数据湖实现模式36

3.1什么是Lambda架构36

3.2 Lambda架构简史37

3.3 Lambda架构的原则37

3.3.1容错原则38

3.3.2不可变数据原则38

3.3.3重新计算原则38

3.4 Lambda架构的组件38

3.4.1批处理层39

3.4.2快速处理层41

3.4.3服务层43

3.5 Lambda架构的完整工作原理44

3.6 Lambda架构的优势45

3.7 Lambda架构的劣势46

3.8 Lambda架构技术概览46

3.9应用Lambda47

3.9.1企业级日志分析47

3.9.2获取和分析传感器数据47

3.9.3电子邮件平台实时统计48

3.9.4实时赛事分析48

3.9.5推荐引擎48

3.9.6安全威胁分析48

3.9.7多渠道用户行为分析48

3.10 Lambda架构运行范例48

3.11 Kappa架构49

3.12总结50

第4章 数据湖中的Lambda应用51

4.1 Hadoop发行版本介绍51

4.2影响企业大数据技术栈选择的因素53

4.2.1技术能力53

4.2.2是否易于部署和维护53

4.2.3集成准备53

4.3批处理层与数据处理53

4.3.1 NameNode服务器54

4.3.2 Secondary NameNode 服务器55

4.3.3 YARN55

4.3.4数据存储节点55

4.3.5 快速处理层56

4.3.6 Flume用于数据获取57

4.3.7 Spark Streaming58

4.4服务层62

4.4.1数据存储层62

4.4.2数据访问层63

4.5总结64

第二部分 数据湖的技术组件68

第5章 基于Apache Sqoop的批量数据获取68

5.1数据湖背景中的数据获取68

5.1.1数据获取层68

5.1.2批量数据获取——技术路线图69

5.2为什么使用Apache Sqoop70

5.2.1 Sqoop简史71

5.2.2 Sqoop的优势71

5.2.3 Sqoop的劣势72

5.3 Sqoop的功能72

5.3.1 Sqoop 2的架构74

5.3.2 Sqoop 1与Sqoop 275

5.3.3 Sqoop的功能77

5.3.4使用Sqoop导入数据77

5.3.5使用Sqoop导出数据78

5.4 Sqoop connector79

5.5 Sqoop对HDFS的支持81

5.6 Sqoop运行范例81

5.6.1安装与配置81

5.6.2数据源配置90

5.6.3 Sqoop配置(数据库驱动)91

5.6.4将HDFS配置为目的地91

5.6.5 Sqoop数据导入91

5.6.6 Sqoop数据导出97

5.6.7 Sqoop job98

5.6.8 Sqoop 299

5.6.9 SCV用例视角中的Sqoop102

5.7适合使用Sqoop的场景103

5.8不适合使用Sqoop的场景104

5.9实时Sqooping是否可行104

5.10其他选项104

5.10.1原生大数据connector105

5.10.2 Talend106

5.10.3 Pentaho Kettle (PDI——Pentaho数据集成)106

5.11总结106

第6章 基于Apache Flume的流式数据获取108

6.1数据获取108

6.1.1什么是流式数据109

6.1.2批量数据和流式数据110

6.1.3流式数据获取——技术路线图110

6.1.4什么是Flume111

6.1.5 Sqoop和Flume112

6.2为什么使用Flume113

6.2.1 Flume简史113

6.2.2 Flume的优势113

6.2.3 Flume的劣势114

6.3 Flume的架构原则114

6.4 Flume架构115

6.4.1 Flume架构之一:分布式数据流水线116

6.4.2 Flume架构之二:扇出117

6.4.3 Flume架构之三:扇入117

6.4.4 Flume架构中的3层设计118

6.4.5高级Flume架构118

6.4.6 Flume的可靠性级别120

6.5 Flume事件——流式数据120

6.6 Flume Agent120

6.7 Flume Source122

6.8 Flume Channel123

6.9 Flume Sink125

6.10 Flume配置126

6.11 Flume事务管理127

6.12 Flume的其他组件128

6.12.1 Channel Processor128

6.12.2 Interceptor129

6.12.3 Channel Selector129

6.12.4 Sink Group130

6.12.5事件序列化131

6.13上下文路由131

6.14 Flume运行范例132

6.14.1安装和配置132

6.14.2 SCV用例中的Flume133

6.15 适合使用Flume的场景145

6.16不适合使用Flume的场景145

6.17其他选项146

6.17.1 Apache Flink146

6.17.2Apache NiFi146

6.18总结147

第7章 使用Apache Kafka构建消息层148

7.1数据湖背景中的消息层148

7.1.1消息层148

7.1.2消息层——技术路线图149

7.1.3什么是Apache Kafka150

7.2为什么使用Apache Kafka150

7.2.1 Kafka简史151

7.2.2 Kafka的优势152

7.2.3 Kafka的劣势153

7.3 Kafka的架构153

7.3.1 Kafka架构的核心原则153

7.3.2数据流的生命周期154

7.3.3 Kafka的工作原理155

7.3.4 Kafka的消息156

7.3.5 Kafka生产者157

7.3.6 Kafka topic中的数据持久化157

7.3.7 Kafka中topic的划分:partition158

7.3.8 Kafka中的消息broker159

7.3.9 Kafka的消费者160

7.4其他Kafka组件161

7.4.1 ZooKeeper161

7.4.2 MirrorMaker161

7.5 Kafka编程接口162

7.5.1 Kafka核心API162

7.5.2 Kafka REST接口162

7.6生产者和消费者的可靠性162

7.7 Kafka的安全性163

7.8 Kafka作为面向消息的中间件164

7.9 Kafka与水平可扩展架构165

7.10 Kafka连接165

7.11 Kafka运行范例166

7.11.1安装166

7.11.2生产者:向Kafka写入数据167

7.11.3消费者:从Kafka获取数据171

7.11.4设置多broker集群173

7.11.5 SCV用例中的Kafka应用176

7.12适合使用Kafka的场景176

7.13不合适使用Kafka的场景177

7.14其他选项177

7.14.1 RabbitMQ177

7.14.2 ZeroMQ179

7.14.3 Apache ActiveMQ179

7.15 总结180

第8章 使用Apache Flink处理数据181

8.1数据湖背景中的数据摄取层181

8.1.1数据摄取层182

8.1.2数据摄取层——技术路线图183

8.1.3什么是Apache Flink184

8.2为什么使用Apache Flink184

8.2.1 Flink简史185

8.2.2 Flink的优势186

8.2.3 Flink的劣势187

8.3 Flink的工作原理187

8.3.1 Flink架构187

8.3.2 Flink架构的核心原则192

8.3.3 Flink组件栈192

8.3.4 Flink中的Checkpointing192

8.3.5 Flink中的Savepoint194

8.3.6 Flink中的流窗口选项195

8.3.7内存管理197

8.4 Flink的API197

8.4.1 DataStream API198

8.4.2 DataSet API200

8.4.3 Flink领域相关库202

8.5 Flink运行范例203

8.5.1安装204

8.5.2范例——使用Flink处理数据205

8.5.3 SCV用例中的Flink212

8.6适合使用Flink的场景217

8.7不适合使用Flink的场景218

8.8其他选项218

8.8.1 Apache Spark218

8.8.2 Apache Storm219

8.8.3 Apache Tez219

8.9总结220

第9章 使用Apache Hadoop存储数据221

9.1数据湖背景中的数据存储和Lambda批处理层221

9.1.1数据存储和Lambda批处理层222

9.1.2数据存储和Lambda批处理层——技术路线图223

9.1.3什么是Apache Hadoop224

9.2为什么使用Hadoop224

9.2.1 Hadoop简史225

9.2.2 Hadoop的优势225

9.2.3 Hadoop的劣势226

9.3 Hadoop的工作原理227

9.3.1 Hadoop架构的核心原则227

9.3.2 Hadoop架构228

9.3.3 Hadoop架构组件231

9.3.4 Hadoop架构细节233

9.4 Hadoop生态系统234

9.4.1数据访问/处理组件235

9.4.2数据存储组件236

9.4.3监控、管理和协调组件237

9.4.4数据集成组件239

9.5 Hadoop发行版240

9.6 HDFS和数据格式241

9.7 Hadoop用于近实时应用242

9.8 Hadoop部署模式243

9.9 Hadoop运行范例243

9.9.1安装244

9.9.2数据准备244

9.9.3安装Hive244

9.9.4范例——批量数据加载247

9.9.5范例——MapReduce数据处理248

9.9.6 SCV用例中的Hadoop254

9.10不适合使用Hadoop的场景262

9.11其他选项263

9.12总结263

第10章 使用Elasticsearch存储全文索引264

10.1数据湖背景中的数据存储层与Lambda快速处理层264

10.1.1数据存储层与Lambda快速处理层265

10.1.2数据存储层与Lambda快速处理层——技术路线图265

10.2什么是Elasticsearch266

10.3为什么使用Elasticsearch266

10.3.1 Elasticsearch简史267

10.3.2 Elasticsearch的优势268

10.3.3 Elasticsearch的劣势269

10.4 Elasticsearch的工作原理269

10.4.1 Elasticsearch架构的核心原则269

10.4.2 Elasticsearch术语270

10.5 Elastic Stack273

10.5.1 Kibana273

10.5.2 Elasticsearch275

10.5.3 Logstash276

10.5.4 Beats277

10.6 Elastic Cloud279

10.7 Elasticsearch DSL281

10.8 Elasticsearch中的节点283

10.8.1 Master节点283

10.8.2 Data节点283

10.8.3 Client节点284

10.9 Elasticsearch与关系数据库284

10.10 Elasticsearch生态系统285

10.10.1 Elasticsearch分析器285

10.10.2 Elasticsearch插件286

10.11 Elasticsearch部署选项287

10.12 Elasticsearch Client287

10.13 Elasticsearch用于快速流式处理288

10.14 Elasticsearch作为数据源289

10.15 Elasticsearch用于内容索引289

10.16 Elasticsearch与Hadoop289

10.17 Elasticsearch运行范例290

10.17.1安装291

10.17.2创建和删除索引293

10.17.3对文档进行索引294

10.17.4获取被索引的文档296

10.17.5搜索文档296

10.17.6更新文档299

10.17.7删除文档299

10.17.8 SCV用例中的Elasticsearch300

10.18适合使用Elasticsearch的场景317

10.19不适合使用Elasticsearch的场景317

10.20其他选项318

10.21总结319

第三部分 将所有技术整合在一起322

第11章 数据湖组件集成322

11.1数据湖的学习进程322

11.2数据湖架构的核心原则324

11.3企业数据湖面临的挑战324

11.4企业对数据湖的期望326

11.5数据湖的其他用途326

11.6了解更多关于数据存储的信息327

11.6.1数据存储区域327

11.6.2数据模式和模型329

11.6.3存储选项329

11.6.4压缩方法331

11.6.5 数据分区332

11.7更多关于数据处理的知识333

11.7.1数据校验和清洗333

11.7.2机器学习334

11.7.3调度器/工作流334

11.7.4 Apache Oozie335

11.7.5复杂事件处理340

11.8数据安全341

11.8.1 Apache Knox342

11.8.2 Apache Ranger342

11.8.3 Apache Sentry344

11.9数据加密345

11.10元数据管理和治理346

11.10.1元数据346

11.10.2数据治理347

11.10.3数据世系347

11.10.4如何实现348

11.11数据审计350

11.12数据可追溯性350

11.13了解更多服务层细节351

11.13.1服务层构建原则351

11.13.2服务类型351

11.13.3服务层组件353

11.13.4数据导出355

11.13.5混合数据访问355

11.13.6范例——服务层355

11.14总结360

第12章 数据湖用例建议361

12.1在企业中推行网络安全实践361

12.2深入了解企业的客户362

12.3提升仓储管理效率363

12.4品牌创建与企业营销364

12.5为客户提供更个性化的服务366

12.6让物联网数据触手可及367

12.7更实用的数据归档367

12.8现有的数据仓库基础设施368

12.9实现电信安全和法规遵从368

12.10总结369

热门推荐