图书介绍

开发自己的搜索引擎 Lucene 2.0+Heritrix2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

邱哲，符滔滔编著著
出版社：北京：人民邮电出版社
ISBN：7115160007
出版时间：2007
标注页数：521页
文件大小：192MB
文件页数：541页
主题词：计算机网络－程序设计

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：c9ca54d34e21e2753ee37ba0b5741f8e

下载说明

开发自己的搜索引擎 Lucene 2.0+HeritrixPDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一篇搜索引擎入门3

第1章搜索引擎与信息检索基础3

1.1 搜索引擎的历史3

1.1.1 萌芽：Archie、Gopher3

1.1.2 起步：Robot（网络机器人）的出现与Spider（网络爬虫）5

1.1.3 发展：Excite、Galaxy、Yahoo等7

1.1.4 繁荣：Infoseek、AltaVista、Google和Baidu8

1.2 信息检索系统的基本知识11

1.2.1 什么是信息检索系统11

1.2.2 信息检索的过程12

1.2.3 传统查找的优点和不足13

1.2.4 使用索引提高检索速度14

1.2.5 倒排索引14

1.2.6 评价信息检索系统的标准16

1.3 Lucene简介16

1.4 小结17

第二篇 Lucene开发详解21

第2章 Lucene入门实例21

2.1 实例介绍21

2.1.1 实例说明21

2.1.2 开发过程21

2.2 准备工作22

2.2.1 将文档的全角标点转换成半角标点23

2.2.2 将大文档切分成多个小文档25

2.2.3 预处理源文件的统一接口27

2.3 创建Eclipse工程27

2.3.1 准备工作27

2.3.2 创建工程并引入Lucene的JAR包29

2.3.3 运行文档预处理类36

2.3.4 创建处理文档的索引类：IndexProcessor37

2.3.5 创建检索索引的搜索类40

2.4 运行效果44

2.5 小结45

第3章 Lucene索引的建立46

3.1 Document逻辑文件46

3.1.1 Lucene的Document46

3.1.2 为Document添加多种Field47

3.1.3 Document的内部实现49

3.2 Field的内部实现50

3.2.1 Field包含的类51

3.2.2 Field类的构造方法52

3.3 Lucene的索引工具IndexWriter54

3.3.1 IndexWriter的初始化54

3.3.2 向索引添加文档56

3.4 Lucene索引过程详解58

3.3.3 限制每个Field中的词条的数量58

3.4.1 Lucene索引建立过程概述59

3.4.2 使用addDocument方法向索引添加文档59

3.4.3 DocumentWriter的addDocument方法61

3.4.4 文档的倒排66

3.4.5 对postingTable进行排序71

3.5.1 索引的segment73

3.5.2 .fnm格式73

3.5 索引文件格式73

3.4.6 将Posting信息写入索引73

3.5.3 .fdx与.fdt格式74

3.5.4 .tii与.tis格式75

3.5.5 deletable格式76

3.5.6 复合索引格式.cfs76

3.6 索引过程的优化76

3.6.1 合并因子mergeFactor76

3.6.2 maxMergeDocs78

3.6.3 minMergeDocs78

3.7 索引的合并与索引的优化78

3.7.1 FSDirectory与RAMDirectory78

3.7.2 使用IndexWriter来合并索引79

3.7.3 索引的优化81

3.8 从索引中删除文档82

3.8.1 索引的读取工具IndexReader83

3.8.2 使用文档ID号来删除特定文档86

3.8.3 使用Field信息来删除批量文档88

3.9 Lucene的同步问题89

3.9.1 为什么要进行同步以及Lucene的同步法则90

3.9.2 commit.lock与write.lock90

3.10 Lucene 2.0的新类：IndexModifier类91

3.11 小结92

4.1.1 初始化IndexSearcher93

第4章 Lucene的搜索93

4.1 使用IndexSearcher进行搜索93

4.1.2 IndexSearcher最简单的使用94

4.1.3 IndexSearcher的多种search方法95

4.2 Hits类详解97

4.2.1 Hits类的公有接口97

4.2.2 效率分析98

4.2.3 Hits内部的缓存100

4.2.4 Hits类的工作原理103

4.3.1 文档与词条的向量空间104

4.3 对搜索结果的评分104

4.3.2 Lucene的文档得分算法105

4.4 构建各种Lucene内建的Query对象108

4.4.1 toString查看原子查询109

4.4.2 查询重写与权重109

4.4.3 TermQuery词条搜索110

4.4.4 BooleanQuery布尔搜索111

4.4.5 RangeQuery范围搜索119

4.4.6 PrefixQuery前缀搜索122

4.4.7 PhraseQuery短语搜索125

4.4.8 MultiPhraseQuery多短语搜索128

4.4.9 FuzzyQuery模糊搜索133

4.4.10 WildcardQuery通配符搜索137

4.4.11 SpanQuery跨度搜索138

4.5 第三方提供的Query对象：RegexQuery146

4.6 通过QueryParser转换用户关键字148

4.6.1 词条的定义149

4.6.2 QueryParser初始化149

4.6.3 改变QueryParser默认的布尔逻辑150

4.6.4 短语和QueryParser151

4.6.5 FuzzyQuery和QueryParser152

4.6.7 查找指定的Field153

4.6.6 通配符与QueryParser153

4.6.8 RangeQuery与QueryParser157

4.6.9 QueryParser和SpanQuery158

4.7 多Field搜索与多索引搜索159

4.7.1 多域搜索MultiFieldQueryParser159

4.7.2 MultiSearcher在多个索引上搜索161

4.7.3 ParalellMultiSearcher：多线程搜索164

4.7.4 Searchable和RMI167

4.8 小结168

5.1.1 使用Score进行自然排序170

5.1 相关度排序170

第5章排序、过滤和分页170

5.1.2 Searcher的explain方法172

5.1.3 通过改变boost值来改变文档的得分173

5.2 使用Sort来排序177

5.2.1 Sort简介177

5.2.2 SortField178

5.2.3 按文档得分进行排序179

5.2.4 按文档的内部ID号来排序182

5.2.5 按一个或多个Field来排序183

5.2.6 改变SortField中的Locale信息190

5.3.1 过滤器的基本结构191

5.3 搜索的过滤器191

5.3.2 一个简单的Filter：建立索引192

5.3.3 一个简单的Filter：打印索引文档信息194

5.3.4 一个简单的Filter：安全级别与过滤器代码196

5.3.5 一个简单的Filter：在搜索时应用过滤器197

5.3.6 一个简单的Filter：总结198

5.3.7 按范围过滤RangeFilter199

5.3.8 在结果中查询QueryFilter202

5.3.9 缓存结果：CachingWrapper Filter205

5.4 翻页问题206

5.4.1 依赖于session的翻页206

5.4.3 缓存＋多次查询207

5.4.2 多次查询207

5.4.4 缓存＋多次查询＋数据库208

5.5 小结208

第6章 Lucene的分析器209

6.1 分析209

6.1.1 分词209

6.1.2 Lucene的分析器的结构210

6.1.3 Lucene的分析器的实现212

6.2 Lucene与JavaCC213

6.2.2 JavaCC为Lucene提供的分析器脚本214

6.2.1 JavaCC简介214

6.2.3 Lucene的标准分析器218

6.2.4 标准过滤器：StandardFilter220

6.2.5 大小写转换器：LowerCaseFilter221

6.2.6 忽略词过滤器：StopFilter221

6.3 分析器的进阶222

6.3.1 再看StandardAnalyzer中的管道过滤器结构222

6.3.2 长度过滤器：LengthFilter223

6.3.3 PerFieldAnalyzerWrapper223

6.4 对中文的分析224

6.3.4 其他224

6.4.1 现有的中文分词方式简介225

6.4.2 中科院的分词软件和JE分词227

6.5 小结232

第三篇 Lucene相关话题235

第7章对Word、Excel和PDF的处理235

7.1 使用PDFBox处理PDF文档235

7.1.1 PDFBox的下载235

7.1.2 在Eclipse中配置236

7.1.3 使用PDFBox解析PDF内容237

7.1.4 运行效果238

7.1.5 与Lucene的集成239

7.2 使用xpdf来处理中文PDF文档241

7.2.1 xpdf的下载241

7.2.2 配置242

7.2.3 提取中文243

7.2.4 运行效果246

7.3 使用POI来处理Excel和Word文件格式246

7.3.1 对Excel的处理类247

7.3.2 ExcelReader的运行效果251

7.3.3 POI中Excel文件Cell的类型252

7.3.4 对Word的处理类254

7.4 使用Jacob来处理Word文档256

7.4.1 Jacob的下载256

7.4.2 在Eclipse中配置256

7.5 小结258

第8章 Compass：封装了Lucene的框架259

8.1 Compass简介259

8.1.1 Compass的下载259

8.1.2 Compass的代码片断260

8.2 Compass的初始配置261

8.2.1 Compass的配置文件261

8.2.3 使用JDBC来存储索引262

8.2.2 将索引存放于内存中262

8.2.4 使用连接池来存储索引263

8.2.5 加载compass.cfg.xml文件264

8.3 域模型的配置265

8.3.1 实体代码265

8.3.2 实体关系271

8.3.3 实体Book的配置文件271

8.3.4 通用元数据定义文件（.cmd.xml）272

8.3.5 Author和Article的配置文件276

8.4.1 索引代码278

8.4 使用Compass来建立索引278

8.4.2 对象关系图和运行结果280

8.5 使用Compass来搜索281

8.5.1 使用find()方法搜索281

8.5.2 CompassHits类型282

8.5.3 CompassHit类型283

8.5.4 使用Lucene语法来查找284

8.6 配置Analyzer和Optimizer286

8.7 小结287

第9章 Lucene分布式和Google Search API288

9.1 Lucene与分布式288

9.1.1 什么是GFS288

9.1.2 为Lucene提供分布式的几点设想289

9.2 Google的Search API291

9.2.1 搭建环境292

9.2.2 构建搜索类292

9.2.3 设置查询时的参数和查询语法295

9.2.4 运行测试296

9.3 小结297

第四篇网络爬虫Heritrix301

第10章无比强大的网络爬虫Heritrix301

10.1 Heritrix使用入门301

10.1.1 下载和运行Heritrix301

10.1.2 在Eclipse里配置Heritrix的开发环境304

10.1.3 创建一个新的抓取任务308

10.1.4 设置抓取时的处理链310

10.1.5 设置运行时的参数312

10.1.6 运行抓取任务314

10.1.7 Heritrix的镜像存储结构318

10.1.8 终止抓取或终止Heritrix的运行319

10.2 Heritrix的架构320

10.2.1 抓取任务CrawlOrder320

10.2.2 中央控制器CrawlController321

10.2.3 Frontier链接制造工厂324

10.2.4 用Berkeley DB实现的BdbFrontier329

10.2.5 Heritrix的多线程ToeThread和ToePool332

10.2.6 处理链和Processor335

10.3 扩展和定制Heritrix338

10.3.1 向Heritrix中添加自己的Extractor339

10.3.2 定制Queue-assignment-policy的两个问题343

10.3.3 定制Queue-assignment-policy继承QueueAssignmentPolicy类344

10.3.4 扩展FrontierScheduler来抓取特定的内容344

10.3.5 在Prefetcher中取消robots.txt的限制346

10.4 小结347

11.1 实例简介以及实现途径351

第11章搜索引擎综合实例：准备篇351

第五篇构建垂直搜索引擎351

11.1.1 选择网站352

11.1.2 太平洋电脑网和网易手机频道352

11.1.3 分析网站内容并准备抓取清单353

11.1.4 从下拉列表获得手机品牌首页356

11.1.5 解析手机品牌页面359

11.2 在Heritrix中为pconline开发抓取所需的定制类361

11.2.1 保存所有产品的页面和图片362

11.2.2 不保存其他无关页面362

11.2.3 开始抓取364

11.3.1 分析网易手机频道365

11.3 在Heritrix中为网易手机频道开发抓取所需的定制类365

11.3.2 设计抓取代码368

11.4 在Eclipse中创建工程结构373

11.4.1 下载插件373

11.4.2 在Eclipse中配置插件374

11.4.3 创建工程375

11.4.4 设置工程的Context376

11.4.5 设定源代码存放和输出路径377

11.4.6 添加Java代码379

11.4.7 添加Jar包380

11.4.8 创建JSP文件381

11.4.9 工程整体结构一览383

11.5 设定配置文件及其相关类385

11.5.1 系统属性配置文件385

11.5.2 封装配置文件385

11.6 产品详细信息文件格式387

11.7 解析网页信息的基类Extractor389

11.8 太平洋电脑网手机产品页面Extractor393

11.9 pconline产品信息运行效果测试397

11.9.1 编写测试函数397

11.9.2 执行测试398

11.10 网易手机频道的产品信息运行效果401

11.11 构建产品信息词库404

11.12 数据库与索引结构407

11.12.1 定Product类407

11.12.2 确定数据库与索引的结构409

11.13 数据库处理和索引处理411

11.13.1 对数据库进行操作412

11.13.2 对索引进行操作414

11.14 调用数据库处理类和索引处理类415

11.15 运行420

11.16 小结422

12.1 HTML的基本知识423

第12章使用正则表达式与HTMLParser提取网页内容423

12.2 JDK中的正则表达式提取网页内容424

12.2.1 java.util.regex包424

12.2.2 正则表达式提取网页内容实例426

12.3 HTMLParser提取网页内容431

12.3.1 HTMLParser的下载431

12.3.2 HTMLParser概述432

12.3.3 Lexer的功能及实现433

12.3.4 HTMLParser的功能及实现438

12.3.5 HTMLParser实例443

12.4 小结445

第13章搜索引擎综合实例：DWR446

13.1 DWR的下载446

13.2 DWR入门与实例演示447

13.2.1 创建工程结构447

13.2.2 在web.xml中配置DWR447

13.2.3 配置dwr.xml448

13.2.4 页面代码449

13.2.5 运行效果451

13.2.6 DWR与直接使用XMLHttpRequest对象的比较452

13.2.7 在DWR中操纵自定义的对象454

13.2.8 查看DWR的输出日志459

13.3 dwr.xml的配置460

13.3.1 dwr.xml的标准结构460

13.3.2 〈init〉标签与DWR自带的converter和creator461

13.3.3 〈allow〉标签465

13.3.4 〈signature〉标签466

13.3.5 另一个例子467

13.4 util.js470

13.4.1 调用util.js471

13.4.2 使用useLoadingMessage方法显示提示图标471

13.4.3 DWRUtil.setValue和DWRUtil.getValue475

13.4.4 DWRUtil.getValues和DWRUtil.setValues478

13.4.5 DWRUtil.addOptions和DWRUtil.removeAllOptions482

13.4.6 DWRUtil.addRows和DWRUtil.removeAllRows487

13.4.7 DWRUtil.to DescriptiveString方法492

13.5 小结493

第14章搜索引擎综合实例：Web篇494

14.1 配置文件494

14.1.1 Spring配置文件494

14.1.2 DWR配置文件495

14.1.3 web.xml496

14.2.1 SearchResult498

14.2 各种Bean类498

14.2.2 SearchResults500

14.2.3 SearchRequest502

14.3 SearchService的实现502

14.4 SearchResultDao507

14.5 前台部分509

14.5.1 搜索主页面main.jsp509

14.5.2 图片的显示515

14.5.3 详细信息页面detail.sp516

14.6 问题519

14.7 小结521