图书介绍

搜索引擎 原理技术与系统 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

搜索引擎 原理技术与系统 第2版
  • 李晓明,闫宏飞,王继民著 著
  • 出版社: 北京:科学出版社
  • ISBN:7030342585
  • 出版时间:2012
  • 标注页数:330页
  • 文件大小:35MB
  • 文件页数:349页
  • 主题词:互联网络-情报检索-高等学校-教材

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

搜索引擎 原理技术与系统 第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第一章 引论1

第一节 搜索引擎的概念2

第二节 搜索引擎的发展历史3

第三节 一些著名的搜索引擎6

第四节 小结11

上篇 Web搜索引擎基本原理和技术第二章 Web搜索引擎工作原理和体系结构15

第一节 基本要求15

第二节 网页搜集16

第三节 预处理18

第四节 查询服务20

第五节 体系结构23

第六节 小结25

第三章 Web信息的搜集26

第一节 概述26

一、超文本传输协议26

二、一个小型搜索引擎系统27

第二节 网页搜集30

一、定义URL类和Page类31

二、与服务器建立连接35

三、发送请求和接收数据37

四、网页信息存储的天网格式38

第三节 多道搜集程序并行工作40

一、多线程并发工作41

二、控制对一个站点并发搜集线程的数目42

第四节 如何避免网页的重复搜集43

一、记录未访问、已访问URL和网页内容摘要信息43

二、域名与IP的对应问题43

第五节 搜集信息的类型45

第六节 小结46

第四章 对搜集信息的预处理47

第一节 索引网页库47

第二节 网页编码识别50

一、基本而重要的概念50

二、常用字符编码52

三、常用字符编码算法55

四、字符的输入和显示57

五、编码识别58

第三节 中文自动分词60

第四节 分析网页和建立倒排文件64

第五节 小结67

第五章 信息查询服务68

第一节 检索的定义68

第二节 查询服务的实现69

一、结果集合的形成69

二、查询结果显示70

第三节 小结71

中篇 对质量和性能的追求75

第六章 可扩展搜集子系统75

第一节 天网系统概述和集中式搜集系统结构75

一、天网系统结构75

二、集中式搜集系统76

第二节 利用并行处理技术高效搜集网页的一种方案82

一、节点间URL的划分策略82

二、关于性能的讨论85

三、性能测试和评价87

四、系统的动态可配置性设计90

第三节 天网分布式搜集系统92

第四节 对Deep Web的认识93

一、Deep Web的成因93

二、搜索Deep Web的方法96

第五节 小结98

第七章 网页净化与消重100

第一节 网页净化与元数据提取100

一、DocView模型102

二、网页的表示103

三、提取DocView模型要素的方法108

四、模型应用及实验研究112

第二节 网页消重算法115

一、消重算法116

二、算法评测118

第三节 小结121

第八章 高性能检索子系统122

第一节 检索系统基本技术122

一、系统设计与结构122

二、索引创建125

三、检索过程127

第二节 适于查询的网页索引结构129

一、倒排索引结构129

二、平面位置索引131

第三节 倒排索引压缩135

一、倒排索引压缩技术136

二、词典与倒排表的压缩142

第四节 索引剪枝150

一、静态索引剪枝方法151

二、动态索引剪枝方法153

第五节 混合索引技术168

一、混合索引的原理169

二、混合索引的实现171

第六节 倒排文件缓存机制173

一、倒排文件缓存174

二、负载特性176

三、缓存策略的选择178

第七节 小结178

第九章 相关排序与系统质量评估180

第一节 传统IR的相关排序技术180

第二节 链接分析与相关排序182

一、链接分析182

二、Web查询模式下的新信息184

第三节 相关排序的一种实现方案188

一、形成网页中词项的基本权重189

二、利用链接的结构190

三、收集用户反馈信息192

四、计算最终的权重194

第四节 信息检索技术评估195

一、信息检索技术评估指标197

二、TREC和CWIRF信息检索评估206

三、搜索引擎技术评估213

第五节 小结217

下篇 Web信息资源的组织与应用服务第十章 大规模Web历史网页仓储系统的构建221

第一节 国外Web历史网页保存现状221

一、Internet Archive222

二、PANDORA222

三、其他相关Web保存项目223

第二节 中国Web信息博物馆的系统设计224

一、Web InfoMall的设计目标225

二、Web InfoMall的体系结构225

第三节 历史网页的存储227

一、数据的组织228

二、存储结构229

三、数据管理与压缩230

四、存储性能232

第四节 数据访问232

一、PageID的索引233

二、URL的索引233

三、数据服务234

四、性能与优化235

第五节 网页的格式保存236

第六节 小结236

第十一章 大规模Web非网页信息仓储系统的构建238

第一节 网络资源库藏相关工作238

一、Ibiblio239

二、Internet Archive240

三、Wikimedia240

四、中国互联网数字资源财富库藏241

第二节 CDAL系统概况242

第三节 CDAL系统设计244

一、系统体系结构244

二、可扩展的存储组织方案244

第四节 网络资源描述信息获取246

一、Ontology概述247

二、描述信息获取机制247

三、改进查询的方法248

四、改进排序的方法249

第五节 基于局部聚类思想的共现词汇算法250

一、基本定义251

二、FDC共现词汇算法251

第六节 小结252

第十二章 中文网页自动分类与聚类253

第一节 文档自动分类算法的类型253

第二节 实现中文网页自动分类的一般过程254

第三节 影响分类器性能的关键因素分析256

一、实验设置256

二、训练样本258

三、特征选取262

四、分类算法265

五、截尾算法270

六、中文网页分类器的设计方案272

第四节 天网目录导航服务272

一、问题的提出272

二、天网目录导航服务的体系结构273

三、天网目录的运行实例274

第五节 文本聚类方法275

一、文本聚类的一般过程275

二、文本间相似性的度量276

三、常用聚类算法276

四、聚类结果的评估279

五、搜索引擎返回结果的聚类280

第六节 小结281

第十三章 开放域问答系统283

第一节 概述283

一、问答系统的历史283

二、著名开放域问答系统介绍284

三、开放域问答系统的通用体系结构285

第二节 问句的分析287

一、问句中的指代消解287

二、问句分类288

三、问句主题提取290

第三节 文档和段落检索290

一、检索模型的选用291

二、查询生成291

三、查询结果排序293

四、增强索引的功能295

第四节 答案提取和验证模块295

一、生成候选答案集合295

二、答案提取296

第五节 问答系统的改进方法299

一、问答系统中外部资源的利用299

二、寻找特殊类问题的解决方案301

三、通过系综方法构建问答系统302

第六节 问答系统的评测303

一、TREC问答系统评测303

二、问答系统评测指标304

第七节 实例:天网开放域问答系统306

第八节 小结308

参考文献309

附录 术语322

热门推荐