图书介绍
搜索引擎 原理、技术与系统2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

- 李晓明,闫宏飞,王继民著 著
- 出版社: 北京:科学出版社
- ISBN:7030146336
- 出版时间:2005
- 标注页数:248页
- 文件大小:19MB
- 文件页数:263页
- 主题词:因特网-情报检索
PDF下载
下载说明
搜索引擎 原理、技术与系统PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
前言1
第一章 引论1
目录1
第一节 搜索引擎的概念2
第二节 搜索引擎的发展历史3
图1-1 2003年8月20日在天网上检索“伊拉克战争”的结果3
图表目录3
图1-2 2003年8月20日在搜狐上检索“伊拉克战争”的结果6
第三节 一些著名的搜索引擎7
图2-1 搜索引擎示意图19
上篇 Web搜索引擎基本原理和技术19
第二章 Web搜索引擎工作原理和体系结构19
第一节 基本要求19
图2-2 搜索引擎三段式工作流程20
第二节 网页搜集20
第三节 预处理22
第四节 查询服务24
第五节 体系结构27
图2-3 搜索引擎的体系结构28
第一节 引言30
一、超文本传输协议30
第三章 Web信息的搜集30
二、一个小型搜索引擎系统31
图3-1 TSE搜索引擎界面32
图3-3 TSE网页快照页面33
图3-2 TSE查询结果页面33
图3-4 TSE系统结构34
第二节 网页搜集34
图3-5 Web信息的搜集35
一、定义URL类和Page类35
二、与服务器建立连接39
图3-7 通过Socket建立连接40
图3-6 Sockets和端口40
三、发送请求和接收数据41
四、网页信息存储的天网格式42
第三节 多道搜集程序并行工作45
一、多线程并发工作46
一、记录未访问、已访问URL和网页内容摘要信息47
第四节 如何避免网页的重复搜集47
二、控制对一个站点并发搜集线程的数目47
二、域名与IP的对应问题48
第五节 如何首先搜集重要的网页49
图3-8 Web像个海洋51
第六节 搜集信息的类型52
第七节 本章小结53
图4-1 网页预处理系统结构55
第四章 对搜集信息的预处理55
第一节 信息预处理的系统结构55
图4-2 原始网页库中的记录格式56
第二节 索引网页库56
图4-3 索引网页库算法57
表4-1 网页索引文件58
表4-2 URL索引文件58
第三节 中文自动分词58
图4-4 正向减字最大匹配算法流程61
图4-5 切词算法流程62
第四节 分析网页和建立倒排文件63
图4-6 分析网页与建立倒排文件流程63
图4-7 过滤网页中非正文信息算法64
图4-8 正向索引表记录格式64
图4-9 由正向索引建立反向索引65
第五节 本章小结65
第一节 查询服务的系统结构66
图5-1 信息查询的系统结构66
第二节 检索的定义66
第五章 信息查询服务66
一、结果集合的形成67
图5-2 基本检索算法67
第三节 查询服务的实现67
二、查询结果显示68
图5-3 动态摘要算法69
图5-4 用户查询日志的记录格式69
第四节 本章小结70
第六章 可扩展搜集子系统73
第一节 天网系统概述和集中式搜集系统结构73
一、天网系统结构73
中篇 对质量和性能的追求73
二、集中式搜集系统74
图6-1 天网系统概貌74
图6-2 搜集系统的主控结构75
表6-1 SOIF数据描述76
表6-2 SOIF具体语法78
第二节 利用并行处理技术高效搜集网页的一种方案80
一、节点间URL的划分策略81
图6-3 协调进程工作算法82
图6-4 分布式Web搜集系统结构83
二、关于性能的讨论84
三、性能测试和评价85
表6-3 参照序列,假设节点数为285
图6-5 负载方差86
图6-7 分布式系统效率87
图6-6 n个节点并行搜集系统及集中式系统性能随时间的变化87
四、系统的动态可配置性设计88
图6-8 URL两阶段映射89
第三节 本章小结90
一、引言92
第一节 网页净化与元数据提取92
第七章 网页净化与消重92
二、DocView模型95
三、网页的表示96
图7-1 用DocView模型提取的网页要素96
图7-2 净化后的网页96
图7-3 HTML Tree结构98
图7-4 内容块权值传递过程99
四、提取DocView模型要素的方法100
图7-5 有主题网页DocView模型生成过程101
图7-6 计算网页特征项权值的算法102
图7-7 正文段落识别过程103
图7-8 基于anchor text的超链选取算法104
五、模型应用及实验研究105
图7-9 网页净化前后分类效果对比106
表7-1 类别编号对照表106
表7-2 消重实验结果108
第二节 网页消重算法108
一、消重算法109
二、算法评测111
表7-3 当N=10、δ=0.01时5种算法的查全率和准确率112
表7-4 考察δ的取值对算法3和4的影响113
图7-10 查全率随选取关键词个数的变化113
表7-6 基于关键词的各算法的时间复杂度及性能(N=10,δ=0.01)114
表7-5 分段签名算法的时间复杂度及性能114
第八章 高性能检索子系统115
第一节 检索系统基本技术116
一、系统设计与结构116
图8-1 检索系统集成框架结构117
图8-2 天网WWW分布式检索系统构架118
二、索引创建119
三、检索过程120
一、引言122
第二节 倒排文件性能模型122
二、倒排文件的概念123
图8-3 倒排文件结构示意图125
三、倒排文件的一种性能模型125
表8-1 英汉词频统计排序对照128
图8-4 英语单词和汉语字符的ITF分布129
表8-2 一些典型磁盘的性能数据130
四、结合计算机性能指标的考虑130
第三节 混合索引技术131
一、引言131
二、混合索引原理132
三、混合索引实现134
一、引言136
第四节 倒排文件缓存机制136
图8-5 扩展词典树结构示例136
图8-6 扩展词典匹配查找算法136
二、倒排文件缓存137
图8-7 搜索引擎检索系统缓存结构138
三、负载特性139
表8-3 数据集基本统计信息139
图8-8 文档数据访问对象大小分布140
图8-9 I/O与PAGE序列序号-频度分布140
四、缓存策略的选择141
图8-10 I/O与PAGE序列时间间隔分布141
图8-11 I/O和PAGE序列中唯一模式串141
第五节 本章小结142
第九章 用户行为的特征及缓存的应用143
第一节 用户查询与点击日志144
一、用户查询词的分布情况145
第二节 用户行为特征的统计分析145
图9-1 查询词的分布情况146
图9-2 查询词分布函数及其拟合函数147
二、雷同查询词的衰减统计147
图9-3 雷同查询词的衰减148
三、相邻N项查询词的偏差分析148
图9-4 相邻1000项查询词的频率的差的平方和149
表9-1 用户在前5页的翻页情况统计149
四、用户在输出结果中的翻页情况统计149
图9-6 用户点击URL的分布情况150
五、用户点击URL的分布情况150
图9-5 用户翻页情况统计150
六、考虑与不考虑查询项时点击URL分布的对比分析151
图9-7 考虑查询项与否的URL分布情况151
七、查询过程的自相似性152
图9-10 相邻2000项中不同查询项的分布153
图9-9 相邻1000项中不同查询项的分布153
图9-8 相邻500项中不同查询项的分布153
第三节 查询缓存的使用154
一、基于用户行为的启示154
图9-11 查询项分布的自相似性特征154
图9-12 FIFO、LRU和带衰减的LFU的Cache命中率比较156
二、缓存替换策略研究156
表9-2 调整后的LFU与LRU命中率的比较157
一、基本术语157
第四节 用户行为与Web信息的分布特征157
图9-13 3种替换策略的局部比较157
二、海量Web信息的特征分析158
图9-16 用户点击URL对应网页的镜像度159
图9-15 用户点击URL对应网页的入度159
图9-14 网页的被访问次数159
表9-3 各网页参数的分布160
图9-17 用户点击URL对应网页的目录深度160
图9-18 站内网页的树状结构161
第一节 传统IR的相关排序技术163
第十章 相关排序与系统质量评估163
一、链接分析165
第二节 链接分析与相关排序165
二、Web查询模式下的新信息168
图10-1 Inktomi提供的几种搜索引擎技术的比较169
图10-2 词典在系统中的地位169
图10-3 新词学习171
表10-1 新词学习对检索准确率的影响171
第三节 相关排序的一种实现方案172
一、形成网页中词项的基本权重172
表10-2 影响权值的HTML标签173
图10-4 网页的互联结构示意174
二、利用链接的结构174
三、收集用户反馈信息175
表10-3 补偿因子定义表176
四、计算最终的权重178
第四节 搜索引擎系统质量评估179
一、引言179
二、查询类别分析与查询集的构建180
表10-4 用户查询信息类别181
三、评估实验的建立与分析181
下篇 面向主题和个性化的Web信息服务187
第十一章 中文网页自动分类技术187
第一节 引言187
第二节 文档自动分类算法的类型187
第三节 实现中文网页自动分类的一般过程189
图11-1 自动文档分类算法的分类189
图11-3 中文网页分类器的工作原理图190
图11-2 中文网页自动分类的一般过程190
一、实验设置191
第四节 影响分类器性能的关键因素分析191
二、训练样本192
表11-1 样本集中类别及实例数量的分布情况表193
图11-4 WebSmart——一个网页实例集搜集和整理工具194
图11-6 Macro-F1值随样本数的变化195
图11-5 一种中文网页的分类体系195
图11-7 Micro-F1值随样本数的变化196
三、特征选取196
图11-8 CHI、IG、DF、MI的比较(Macro-F1)199
图11-9 CHI、IG、DF、MI的比较(Micro-F1)199
四、分类算法199
表11-2 kNN和NB算法的分类质量和分类效率比较202
图11-10 kNN与NB分类结果的比较202
图11-11 k的取值对分类器质量的影响(Marco-F1)203
图11-12 k的取值对分类器质量的影响(Micro-F1)203
表11-3 欧式距离与兰式距离的比较204
图11-13 兰式距离法与欧式距离法对12个不同类别的分类情况204
五、截尾算法205
表11-4 基于层次模型的kNN与基本kNN的比较205
图11-14 基于层次模型的kNN与基本kNN的比较205
表11-5 RCut和SCut截尾算法的比较206
六、一个中文网页分类器的设计方案207
表11-6 一个分类器的设计方案207
图11-15 RCut和SCut截尾算法的比较207
第五节 天网目录导航服务208
一、问题的提出208
二、天网目录导航服务的体系结构208
三、天网目录的运行实例209
图11-16 天网目录的体系结构209
图11-17 天网目录导航服务210
第六节 本章小结210
第十二章 搜索引擎个性化查询服务212
第一节 基于Web挖掘的个性化技术212
图12-1 Web个性化的实质212
图12-2 Web挖掘的分类213
一、Web挖掘技术213
表12-1 典型Web个性化系统的比较214
二、典型个性化Web服务系统的比较214
三、基于Web挖掘的个性化技术的发展215
第二节 天网知名度系统216
一、系统结构216
图12-4 个性化知名度示意图217
图12-3 网页与实体相关度的建立217
图12-5 “天网知名度”系统结构218
二、网页与命名实体的相关度评价219
表12-2 天网知名度系统与其他检索系统的横向比较结果220
表12-3 天网知名度系统的纵向比较结果221
第一节 主题信息的搜集223
第十三章 面向主题的信息搜集与应用223
一、主题信息分布的局部性223
图13-1 页面对的平均相关性224
二、一种主题信息搜集系统224
图13-2 Foused Crawler的系统结构225
一、模型设计226
第二节 主题信息的一种搜集与处理模型及其应用226
图13-3 用于表达网上主题新闻强度指标的立方体228
二、应用实验:以“十六大”为主题230
图13-4 十六大网页数量在10月22日~11月24日期间的变化情况231
三、总结与讨论232
参考文献233
附录 术语240
后记246
热门推荐
- 3708551.html
- 3457316.html
- 2648878.html
- 907047.html
- 2842594.html
- 3043332.html
- 1798864.html
- 2195038.html
- 2077662.html
- 338856.html
- http://www.ickdjs.cc/book_1770117.html
- http://www.ickdjs.cc/book_3341954.html
- http://www.ickdjs.cc/book_817215.html
- http://www.ickdjs.cc/book_3527927.html
- http://www.ickdjs.cc/book_210004.html
- http://www.ickdjs.cc/book_629488.html
- http://www.ickdjs.cc/book_1951251.html
- http://www.ickdjs.cc/book_1834235.html
- http://www.ickdjs.cc/book_2272932.html
- http://www.ickdjs.cc/book_801006.html