图书介绍

数据科学与大数据技术导论实验2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

数据科学与大数据技术导论实验
  • 陈明编著 著
  • 出版社: 北京:北京师范大学出版社
  • ISBN:9787303234509
  • 出版时间:2018
  • 标注页数:217页
  • 文件大小:20MB
  • 文件页数:226页
  • 主题词:数据处理-实验-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

数据科学与大数据技术导论实验PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

实验1 Linux操作系统部署1

1.1 实验目的1

1.2 实验要求1

1.3 实验原理1

1.3.1 Linux操作系统1

1.3.2 虚拟机2

1.4 Linux安装方法3

1.4.1 Ubuntu安装方法3

1.4.2 RHEL安装方法12

1.4.3 Linux基本命令使用方法21

1.5 实验内容22

1.6 实验总结22

1.7 思考拓展22

实验2 Hadoop开发环境部署23

2.1 实验目的23

2.2 实验要求23

2.3 实验原理23

2.3.1 OpenSSH24

2.3.2 Hadoop处理平台27

2.3.3 MapReduce分布计算模型29

2.3.4 Eclipse集成开发环境31

2.4 Hadoop开发环境部署方法31

2.4.1 安装SSH协议31

2.4.2 安装OpenJDK 1.8开发环境32

2.4.3 安装Hadoop系统33

2.4.4 伪分布式Hadoop环境部署35

2.4.5 集成开发环境Eclipse部署39

2.4.6 Eclipse开发环境的使用方法42

2.5 实验内容49

2.6 实验总结49

2.7 思考拓展49

实验3 网页数据获取50

3.1 实验目的50

3.2 实验要求50

3.3 实验原理50

3.3.1 网络爬虫的工作过程51

3.3.2 通用网络爬虫51

3.3.3 聚焦网络爬虫53

3.3.4 数据抓取目标的定义56

3.3.5 网页分析算法57

3.3.6 更新策略59

3.3.7 分布式爬虫的系统结构60

3.3.8 ForeSpider数据采集系统62

3.3.9 GooSeeker集搜客爬虫软件67

3.4 数据获取方法68

3.4.1 前嗅ForeSpider爬虫软件数据采集过程68

3.4.2 基于GooSeeker集搜客爬虫软件的数据采集79

3.5 实验内容85

3.6 实验总结85

3.7 思考拓展86

实验4 大数据去重87

4.1 实验目的87

4.2 实验要求87

4.3 实验原理87

4.3.1 数据去重的步骤87

4.3.2 按时间的维度去重88

4.3.3 按字段相似度的去重89

4.4 Hadoop数据去重方法89

4.4.1 进入/usr/local/hadoop目录89

4.4.2 准备数据89

4.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件91

4.4.4 NameNode的格式化92

4.4.5 在集成开发环境Eclipse中实现Hadoop数据去重92

4.5 实验内容104

4.6 实验总结104

4.7 思考拓展104

实验5 大数据最大值计算105

5.1 实验目的105

5.2 实验要求105

5.3 实验原理105

5.4 Hadoop最大值计算方法105

5.4.1 进入/usr/local/hadoop目录106

5.4.2 准备数据106

5.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件107

5.4.4 NameNode的格式化107

5.4.5 在集成开发环境Eclipse中Hadoop最大值计算107

5.5 实验内容117

5.6 实验总结117

5.7 思考拓展118

实验6 大数据排序119

6.1 实验目的119

6.2 实验要求119

6.3 实验原理119

6.3.1 排序方法分类119

6.3.2 排序方法120

6.3.3 大数据排序算法121

6.3.4 基于MapReduce排序过程122

6.4 Hadoop数据排序方法123

6.4.1 进入/usr/local/hadoop目录124

6.4.2 准备数据124

6.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件125

6.4.4 NameNode的格式化125

6.4.5 在集成开发环境Eclipse中实现Hadoop125

6.5 实验内容137

6.6 实验总结137

6.7 思考拓展137

实验7 大数据倒排索引138

7.1 实验目的138

7.2 实验要求138

7.3 实验原理138

7.3.1 倒排索引基本概念139

7.3.2 倒排索引文件实例分析140

7.3.3 倒排索引处理过程142

7.4 Hadoop倒排索引方法144

7.4.1 进入/usr/local/hadoop目录144

7.4.2 准备数据145

7.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件145

7.4.4 NameNode的格式化145

7.4.5 在集成开发环境Eclipse中实现Hadoop倒排索引146

7.5 实验内容158

7.6 实验总结158

7.7 思考拓展158

实验8 大数据平均值计算159

8.1 实验目的159

8.2 实验要求159

8.3 实验原理159

8.3.1 算术平均数159

8.3.2 平均值160

8.4 大数据平均值计算方法161

8.4.1 进入/usr/local/hadoop目录161

8.4.2 准备数据161

8.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件162

8.4.4 NameNode的格式化162

8.4.5 在集成开发环境Eclipse中实现Hadoop平均值162

8.5 实验内容174

8.6 实验总结174

8.7 思考拓展174

实验9 大数据单表关联175

9.1 实验目的175

9.2 实验要求175

9.3 实验原理175

9.3.1 单表关联的概念175

9.3.2 MapReduce单表关联计算过程176

9.4 Hadoop单表关联方法180

9.4.1 进入/usr/local/hadoop目录180

9.4.2 准备数据181

9.4.3 修改/usr/local/hadoop/etc/hadoop/目录下的Hadoop配置文件181

9.4.4 NameNode的格式化181

9.4.5 在集成开发环境Eclipse中实现大数据平均值181

9.5 实验内容193

9.6 实验总结193

9.7 思考拓展194

实验10 大数据可视化195

10.1 实验目的195

10.2 实验要求195

10.3 实验原理195

10.3.1 数据的可视化展现195

10.3.2 Superset处理平台198

10.4 基于数据可视化的方法198

10.4.1 基于ECharts.js可视化方法198

10.4.2 基于Superset数据可视化的方法201

10.5 实验内容216

10.6 实验总结216

10.7 思考拓展216

参考文献217

热门推荐