图书介绍

搜索引擎原理与实践2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

搜索引擎原理与实践
  • 袁津生,李群,蔡岳编著 著
  • 出版社: 北京:北京邮电大学出版社
  • ISBN:9787563518616
  • 出版时间:2008
  • 标注页数:329页
  • 文件大小:48MB
  • 文件页数:341页
  • 主题词:互联网络-情报检索

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

搜索引擎原理与实践PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 搜索引擎概述1

1.1搜索引擎的概念1

1.2搜索引擎的历史2

1.3搜索引擎的分类5

1.4搜索引擎的关键技术8

1.5当代主要搜索引擎介绍9

1.5.1谷歌搜索9

1.5.2雅虎搜索12

1.5.3百度搜索14

1.5.4北大天网搜索18

1.6搜索引擎的发展20

1.7小结21

思考题23

第2章 搜索引擎的体系结构和工作原理24

2.1搜索引擎的体系结构24

2.1.1搜索器25

2.1.2索引器26

2.1.3检索器27

2.1.4用户接口27

2.2搜索引擎的工作原理28

2.2.1网页搜集28

2.2.2网页处理29

2.2.3查询服务30

2.3元搜索引擎32

2.3.1元搜索引擎的基本构成32

2.3.2元搜索引擎的分类34

2.3.3常用元搜索引擎介绍35

2.3.4元搜索引擎的特点37

2.3.5主要技术指标38

2.4小结40

思考题41

第3章 信息处理技术42

3.1检索模型42

3.1.1经典模型42

3.1.2代数模型47

3.2文本处理50

3.2.1词法分析50

3.2.2分词技术51

3.2.3无用词汇删除56

3.2.4词干提取57

3.2.5索引词选择65

3.2.6词典65

3.3文本压缩66

3.3.1基本概念66

3.3.2统计方法67

3.3.3字典方法73

3.3.4倒排文档压缩78

3.4Web信息处理81

3.4.1Web信息的特点81

3.4.2Web信息的表现方式82

3.4.3Web信息系统结构82

3.5小结84

思考题86

第4章 信息检索技术88

4.1顺排检索88

4.1.1表展开法88

4.1.2逻辑树展开法91

4.1.3BF算法97

4.1.4KMP算法97

4.1.5BM算法100

4.2倒排检索102

4.2.1倒排检索103

4.2.2倒排文档103

4.2.3逆波兰表达式105

4.2.4检索指令表的生成107

4.2.5检索实施108

4.3其他检索方法109

4.3.1布尔检索109

4.3.2后缀树和后缀数组109

4.3.3加权检索115

4.3.4全文检索116

4.3.5超文本检索122

4.4Web信息检索124

4.4.1网页的搜集125

4.4.2网页的预处理126

4.4.3网页索引的建立127

4.4.4相似度计算与排序方法129

4.5小结132

思考题133

第5章 信息检索评价134

5.1相关性134

5.1.1相关性的特征134

5.1.2相关性类别135

5.1.3相关性模型136

5.2性能评价指标139

5.2.1有效性139

5.2.2查全率和查准率140

5.2.3其他指标141

5.3相关组织和会议142

5.4小结143

思考题144

第6章 网络搜索引擎技术145

6.1搜索引擎的基本结构145

6.1.1搜索引擎的结构分类145

6.1.2网页收集模块146

6.1.3网页索引模块148

6.l.4查询模块148

6.1.5用户界面148

6.1.6搜索引擎的主要指标及分析149

6.2搜索引擎的数据结构150

6.2.1存储结构150

6.2.2信息库151

6.2.3文本索引152

6.2.4词典152

6.2.5采样表152

6.2.6前向索引153

6.2.7后向索引154

6.3搜索引擎爬虫154

6.3.1网络爬虫154

6.3.2深度优先策略155

6.3.3广度优先策略156

6.3.4不重复抓取策略157

6.3.5网页抓取优先策略160

6.3.6网页重访策略161

6.3.7网页抓取提速策略162

6.3.8Robots协议163

6.3.9网页内容提取技术165

6.4小结166

思考题167

第7章 多媒体检索概述168

7.1多媒体信息168

7.1.1多媒体及多媒体技术168

7.1.2音频信息170

7.1.3图形与图像信息173

7.1.4视频信息175

7.2多媒体的基本概念179

7.2.1多媒体技术的特点179

7.2.2多媒体信息系统180

7.2.3多媒体数据库180

7.2.4多媒体信息检索182

7.3多媒体数据压缩185

7.3.1多媒体压缩原理185

7.3.2多媒体压缩编码186

7.4多媒体内容的理解187

7.4.1图像分割187

7.4.2特征提取188

7.4.3分类189

7.5多媒体信息检索的关键技术189

7.5.1信息模型和表示189

7.5.2检索技术190

7.5.3查询语言190

7.5.4信息压缩和恢复190

7.5.5信息存储管理191

7.5.6多媒体同步技术191

7.6小结191

思考题193

第8章 基于内容的多媒体信息检索技术194

8.1基于内容的多媒体检索原理与特点194

8.1.1多媒体内容的检索194

8.1.2多媒体数据库与关系型数据库196

8.1.3基于内容数据检索系统的结构196

8.1.4基于内容的数据检索系统的检索过程197

8.2基于内容的音频检索198

8.2.1音频信息检索198

8.2.2主要查询方式200

8.2.3音频预处理202

8.2.4语音检索205

8.2.5音乐检索205

8.2.6音频检索206

8.3基于内容的图像检索207

8.3.1图像信息检索207

8.3.2主要查询方式212

8.3.3基于颜色特征的图像检索213

8.3.4基于纹理特征的图像检索216

8.3.5基于形状特征的图像检索219

8.3.6基于空间关系的图像检索221

8.3.7基于综合特征的图像检索224

8.4基于内容的视频检索227

8.4.1基本概念228

8.4.2关键技术229

8.4.3视频分割230

8.4.4特征提取231

8.4.5视频聚类232

8.4.6视频检索234

8.5小结236

思考题238

第9章 搜索引擎开发技术239

9.1实例简介239

9.1.1搜索引擎的体系结构240

9.1.2网页搜集241

9.1.3网页预处理241

9.1.4查询服务242

9.2环境搭建与配置243

9.2.1JDK1.6的安装与配置244

9.2.2Eclipse的安装与配置247

9.2.3Tomcat的安装与配置254

9.2.4Heritrix的安装与配置257

9.3网页搜集265

9.3.1设置Heritrix抓取任务265

9.3.2修改Heritrix源代码271

9.3.3抓取网页275

9.4网页预处理277

9.4.1原始网页的处理277

9.4.2建立简单的索引296

9.4.3为实例建立索引304

9.5查询服务307

9.5.1结构设计308

9.5.2后台设计308

9.5.3页面设计315

9.5.4部署到Tomcat323

9.6小结325

实验325

参考文献327

热门推荐