图书介绍
大数据采集与预处理技术2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 刘丽敏,廖志芳,周韵编著 著
- 出版社: 长沙:中南大学出版社
- ISBN:9787548734116
- 出版时间:2018
- 标注页数:176页
- 文件大小:72MB
- 文件页数:190页
- 主题词:数据采集;数据处理
PDF下载
下载说明
大数据采集与预处理技术PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 大数据概述1
1.1 大数据的概念1
1.2 大数据关键技术3
1.3 大数据采集与数据预处理技术6
1.3.1 大数据采集技术7
1.3.2 数据预处理技术8
1.4 小结9
习 题9
第2章 数据采集基础10
2.1 传统数据采集技术10
2.1.1 数据采集概述10
2.1.2 数据采集系统架构11
2.1.3 数据采集关键技术14
2.2 大数据采集基础18
2.2.1 数据的发展18
2.2.2 大数据来源21
2.2.3 大数据采集技术26
2.3 小结32
习题33
第3章 大数据采集架构34
3.1 概述34
3.2 Chukwa数据采集35
3.3 Flume数据采集37
3.4 Scribe数据采集40
3.5 Kafka数据采集41
3.7 小结45
习题46
第4章 大数据迁移技术47
4.1 数据迁移概念47
4.2 数据迁移相关技术48
4.2.1 基于主机的迁移方式48
4.2.2 基于存储的迁移方式48
4.2.3 备份恢复的方式50
4.2.4 基于主机逻辑卷的数据迁移51
4.2.5 基于数据库的迁移技术52
4.2.6 服务器虚拟化的迁移53
4.2.7 其他数据迁移技术55
4.3 数据迁移工具56
4.3.1 Apache Sqoop56
4.3.2 ETL58
4.4 Kettle数据迁移实例59
4.5 小结65
习题65
第5章 互联网数据抓取与处理技术66
5.1 网络爬虫概述66
5.1.1 网络爬虫的概念66
5.1.2 网络爬虫的抓取策略67
5.1.3 网页更新策略68
5.2 常用网络爬虫方法69
5.2.1 批量型爬虫70
5.2.2 增量型爬虫70
5.2.3 垂直型爬虫70
5.2.4 通用网络爬虫70
5.2.5 聚焦网络爬虫71
5.2.6 深层网络爬虫72
5.2.7 分布式网络爬虫73
5.3 网络爬虫工具75
5.3.1 Googlebot75
5.3.2 百度蜘蛛76
5.3.3 ApacheNutch76
5.3.4 火车采集器77
5.3.5 集搜客77
5.3.6 八爪鱼采集器78
5.4 Python爬虫技术81
5.4.1 Python概述81
5.4.2 Python爬虫基础83
5.4.3 Python安装88
5.4.4 Python爬虫实例91
5.5 文本数据处理94
5.5.1 文本分词概述94
5.5.2 中文分词算法96
5.5.3 MMSEG分词算法97
5.5.4 常用中文分词工具100
5.5.5 网页分析算法101
5.6 小结103
习题103
第6章 数据预处理技术104
6.1 数据的描述104
6.1.1 数据对象与属性类型104
6.1.2 数据的统计描述106
6.1.3 数据相似性和相异性的度量方法109
6.2 数据预处理概述113
6.2.1 数据质量113
6.2.2 数据预处理的主要任务114
6.3 数据清洗115
6.3.1 缺失值处理115
6.3.2 光滑噪声数据处理116
6.3.3 检测偏差与纠正偏差117
6.4 数据集成118
6.4.1 模式识别和对象匹配118
6.4.2 冗余问题119
6.4.3 元组重复121
6.4.4 数据值冲突的检测与处理121
6.5 数据归约122
6.5.1 小波变换122
6.5.2 主成分分析123
6.5.3 属性子集选择123
6.5.4 回归和对数线性模型124
6.5.5 直方图125
6.5.6 聚类126
6.5.7 抽样126
6.5.8 数据立方体聚集127
6.6 数据变换128
6.6.1 通过规范化变换数据129
6.6.2 通过离散化变换数据130
6.6.3 标称数据的概念分层变换131
6.7 小结132
习题132
第7章 大数据分析实例134
7.1 Hadoop相关理论知识134
7.1.1 Hadoop生态系统135
7.1.2 HDFS139
7.1.3 MapReduce143
7.1.4 HBase149
7.1.5 Hive152
7.1.6 Yarn156
7.1.7 ZooKeeper和Sqoop159
7.2 实验内容161
7.2.1 技术方案与实验环境161
7.2.2 实验环境搭建161
7.2.3 实验过程167
7.3 小结173
习题174
参考文献175
热门推荐
- 2863384.html
- 976410.html
- 666732.html
- 2368777.html
- 1119892.html
- 2066509.html
- 2311560.html
- 1989315.html
- 3556792.html
- 3858982.html
- http://www.ickdjs.cc/book_3841789.html
- http://www.ickdjs.cc/book_2444565.html
- http://www.ickdjs.cc/book_1521190.html
- http://www.ickdjs.cc/book_326520.html
- http://www.ickdjs.cc/book_2294399.html
- http://www.ickdjs.cc/book_55624.html
- http://www.ickdjs.cc/book_1552333.html
- http://www.ickdjs.cc/book_1062595.html
- http://www.ickdjs.cc/book_2100613.html
- http://www.ickdjs.cc/book_765318.html