图书介绍

搜索引擎原理技术与系统第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

李晓明，闫宏飞，王继民著著
出版社：北京：科学出版社
ISBN：7030342585
出版时间：2012
标注页数：330页
文件大小：35MB
文件页数：349页
主题词：互联网络－情报检索－高等学校－教材

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：68f44a4e68907aeb162e3cbffb2a6983

下载说明

搜索引擎原理技术与系统第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一章引论1

第一节搜索引擎的概念2

第二节搜索引擎的发展历史3

第三节一些著名的搜索引擎6

第四节小结11

上篇 Web搜索引擎基本原理和技术第二章 Web搜索引擎工作原理和体系结构15

第一节基本要求15

第二节网页搜集16

第三节预处理18

第四节查询服务20

第五节体系结构23

第六节小结25

第三章 Web信息的搜集26

第一节概述26

一、超文本传输协议26

二、一个小型搜索引擎系统27

第二节网页搜集30

一、定义URL类和Page类31

二、与服务器建立连接35

三、发送请求和接收数据37

四、网页信息存储的天网格式38

第三节多道搜集程序并行工作40

一、多线程并发工作41

二、控制对一个站点并发搜集线程的数目42

第四节如何避免网页的重复搜集43

一、记录未访问、已访问URL和网页内容摘要信息43

二、域名与IP的对应问题43

第五节搜集信息的类型45

第六节小结46

第四章对搜集信息的预处理47

第一节索引网页库47

第二节网页编码识别50

一、基本而重要的概念50

二、常用字符编码52

三、常用字符编码算法55

四、字符的输入和显示57

五、编码识别58

第三节中文自动分词60

第四节分析网页和建立倒排文件64

第五节小结67

第五章信息查询服务68

第一节检索的定义68

第二节查询服务的实现69

一、结果集合的形成69

二、查询结果显示70

第三节小结71

中篇对质量和性能的追求75

第六章可扩展搜集子系统75

第一节天网系统概述和集中式搜集系统结构75

一、天网系统结构75

二、集中式搜集系统76

第二节利用并行处理技术高效搜集网页的一种方案82

一、节点间URL的划分策略82

二、关于性能的讨论85

三、性能测试和评价87

四、系统的动态可配置性设计90

第三节天网分布式搜集系统92

第四节对Deep Web的认识93

一、Deep Web的成因93

二、搜索Deep Web的方法96

第五节小结98

第七章网页净化与消重100

第一节网页净化与元数据提取100

一、DocView模型102

二、网页的表示103

三、提取DocView模型要素的方法108

四、模型应用及实验研究112

第二节网页消重算法115

一、消重算法116

二、算法评测118

第三节小结121

第八章高性能检索子系统122

第一节检索系统基本技术122

一、系统设计与结构122

二、索引创建125

三、检索过程127

第二节适于查询的网页索引结构129

一、倒排索引结构129

二、平面位置索引131

第三节倒排索引压缩135

一、倒排索引压缩技术136

二、词典与倒排表的压缩142

第四节索引剪枝150

一、静态索引剪枝方法151

二、动态索引剪枝方法153

第五节混合索引技术168

一、混合索引的原理169

二、混合索引的实现171

第六节倒排文件缓存机制173

一、倒排文件缓存174

二、负载特性176

三、缓存策略的选择178

第七节小结178

第九章相关排序与系统质量评估180

第一节传统IR的相关排序技术180

第二节链接分析与相关排序182

一、链接分析182

二、Web查询模式下的新信息184

第三节相关排序的一种实现方案188

一、形成网页中词项的基本权重189

二、利用链接的结构190

三、收集用户反馈信息192

四、计算最终的权重194

第四节信息检索技术评估195

一、信息检索技术评估指标197

二、TREC和CWIRF信息检索评估206

三、搜索引擎技术评估213

第五节小结217

下篇 Web信息资源的组织与应用服务第十章大规模Web历史网页仓储系统的构建221

第一节国外Web历史网页保存现状221

一、Internet Archive222

二、PANDORA222

三、其他相关Web保存项目223

第二节中国Web信息博物馆的系统设计224

一、Web InfoMall的设计目标225

二、Web InfoMall的体系结构225

第三节历史网页的存储227

一、数据的组织228

二、存储结构229

三、数据管理与压缩230

四、存储性能232

第四节数据访问232

一、PageID的索引233

二、URL的索引233

三、数据服务234

四、性能与优化235

第五节网页的格式保存236

第六节小结236

第十一章大规模Web非网页信息仓储系统的构建238

第一节网络资源库藏相关工作238

一、Ibiblio239

二、Internet Archive240

三、Wikimedia240

四、中国互联网数字资源财富库藏241

第二节 CDAL系统概况242

第三节 CDAL系统设计244

一、系统体系结构244

二、可扩展的存储组织方案244

第四节网络资源描述信息获取246

一、Ontology概述247

二、描述信息获取机制247

三、改进查询的方法248

四、改进排序的方法249

第五节基于局部聚类思想的共现词汇算法250

一、基本定义251

二、FDC共现词汇算法251

第六节小结252

第十二章中文网页自动分类与聚类253

第一节文档自动分类算法的类型253

第二节实现中文网页自动分类的一般过程254

第三节影响分类器性能的关键因素分析256

一、实验设置256

二、训练样本258

三、特征选取262

四、分类算法265

五、截尾算法270

六、中文网页分类器的设计方案272

第四节天网目录导航服务272

一、问题的提出272

二、天网目录导航服务的体系结构273

三、天网目录的运行实例274

第五节文本聚类方法275

一、文本聚类的一般过程275

二、文本间相似性的度量276

三、常用聚类算法276

四、聚类结果的评估279

五、搜索引擎返回结果的聚类280

第六节小结281

第十三章开放域问答系统283

第一节概述283

一、问答系统的历史283

二、著名开放域问答系统介绍284

三、开放域问答系统的通用体系结构285

第二节问句的分析287

一、问句中的指代消解287

二、问句分类288

三、问句主题提取290

第三节文档和段落检索290

一、检索模型的选用291

二、查询生成291

三、查询结果排序293

四、增强索引的功能295

第四节答案提取和验证模块295

一、生成候选答案集合295

二、答案提取296

第五节问答系统的改进方法299

一、问答系统中外部资源的利用299

二、寻找特殊类问题的解决方案301

三、通过系综方法构建问答系统302

第六节问答系统的评测303

一、TREC问答系统评测303

二、问答系统评测指标304

第七节实例：天网开放域问答系统306

第八节小结308

参考文献309

附录术语322

图书介绍

搜索引擎 原理技术与系统 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

PDF下载

下载说明

搜索引擎 原理技术与系统 第2版PDF格式电子书版下载

图书目录

热门推荐

搜索引擎原理技术与系统第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

搜索引擎原理技术与系统第2版PDF格式电子书版下载