图书介绍

管理海量数据-压缩、索引和查询 第2版2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

管理海量数据-压缩、索引和查询 第2版
  • (美)IanH·Witten(美)AlistairMoffat(美)TimothyC·Bell著;梁斌杨青译 著
  • 出版社: 北京:电子工业出版社
  • ISBN:7121219337
  • 出版时间:2014
  • 标注页数:514页
  • 文件大小:231MB
  • 文件页数:541页
  • 主题词:

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

管理海量数据-压缩、索引和查询 第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 概览1

1.1文档数据库(document databases)7

1.2压缩(compression)10

1.3索引(indexes)12

1.4文档索引16

1.5 MG海量文档管理系统20

第2章 文本压缩23

2.1模型26

2.2自适应模型29

2.3哈夫曼编码32

范式哈夫曼编码38

计算哈夫曼编码长度44

总结52

2.4算术编码52

算术编码是如何工作的53

实现算术编码57

保存累积计数60

2.5符号模型61

部分匹配预测62

块排序压缩65

动态马尔科夫压缩69

基于单字的压缩72

2.6字典模型73

自适应字典编码器的LZ77系列75

LZ77的Gzip变体78

自适应字典编码器的LZ78系列80

LZ78的LZW变体82

2.7同步84

创造同步点85

自同步编码87

2.8性能比较90

压缩性能92

压缩速度95

其他性能方面的考虑98

第3章 索引99

3.1样本文档集合103

3.2倒排文件索引107

3.3压缩倒排文件112

无参模型(Nonparameterized models)114

全局贝努里模型117

全局观测频率模型(Global observed frequency model)120

局部贝努里模型(Local Bernoulli model)121

有偏贝努里模型(Skewed Bernoulli model)122

局部双曲模型(Local hyperbolic model)124

局部观测频率模型(Local observed frequency model)125

上下文相关压缩(Context-sensitive compression)127

3.4索引压缩方法的效果129

3.5签名文件和位图131

签名文件132

位片签名文件(Bitsliced signature files)136

签名文件分析141

位图144

签名文件和位图的压缩145

3.6索引方法的比较148

3.7大小写折叠、词根化和停用词150

大小写折叠151

词根化151

影响索引长度的因素152

停用词(stop word)153

第4章 查询157

4.1访问字典的方法161

访问数据结构162

前端编码(Front coding)165

最小完美哈希函数168

完美哈希函数的设计171

基于磁盘的字典存储176

4.2部分指定的查询术语177

字符串暴力匹配(Brute-force string matching)177

用n-gram索引178

循环字典(Rotated lexicon)180

4.3布尔查询(BooLEAN QUERY)182

合取查询(conjunctive query)182

术语处理顺序183

随机访问和快速查找185

分块倒排索引187

非合取查询(Nonconjunctive Query)190

4.4信息检索和排名191

坐标匹配(Coordinate matching)191

内积相似度192

向量空间模型197

4.5检索效果评价200

召回率和精确率200

召回率——精确率曲线203

TREC项目204

万维网搜索(World Wide Web Searching)208

其他有效性评价方法211

4.6余弦法实现212

文档内频率212

余弦值的计算方法216

文档权重所需的内存217

累加器内存222

快速查询处理224

按频率排序的索引225

排序228

4.7交互式检索232

相关性反馈232

概率模型235

4.8分布式检索237

第5章 索引构造243

计算模型246

索引构造方法概览247

5.1基于内存的倒排248

5.2基于排序的倒排251

5.3索引压缩255

压缩临时文件256

多路归并259

原地多路归并260

5.4压缩的内存内倒排266

大内存倒排266

基于字典的切分(Lexicon-based partitioning)271

基于文本的切分273

5.5倒排方法的比较276

5.6构造签名文件和位图277

5.7动态文档集合279

扩展文本(Expanding the text)279

索引扩展(Expanding the index)280

第6章 图像压缩287

6.1图像类型288

6.2 CCITT二值图像的传真标准292

6.3二值图像的上下文压缩296

上下文模型299

二值上下文模型302

“超视力”压缩(Clairvoyant compression)304

6.4 JBIG:二值图像标准305

分辨率降低(Resolution reduction)306

模板和自适应模板311

编码及概率估计312

6.5连续色调图像的无损压缩313

GIF和PNG无损图像格式314

FELICS:快速、有效且无损图像压缩系统316

CALIC:基于上下文自适应无损图像解码器320

JPEG-LS:无损图像压缩新标准321

6.6 JPEG:连续色调图像标准323

6.7图像的递增传输328

金字塔编码329

金字塔编码的压缩330

中位数聚合332

误差模型333

6.8图像压缩技术总结334

第7章 文本图像337

7.1文本图像压缩概念339

7.2有损压缩和无损压缩343

7.3标记抽取345

跟踪标记的边界345

清除图像中的标记348

按自然阅读顺序排序标记350

7.4模板匹配351

全局模板匹配352

局部模板匹配354

基于压缩的模板匹配355

库模板筛法358

评价模板匹配方法359

7.5从标记到符号363

库构造363

符号及其偏移量365

7.6编码文本图像分量366

库366

符号数367

符号偏移367

原始图像368

7.7效果:有损和无损的模式370

7.8系统考虑376

7.9 JBIG2:图像文本压缩标准377

第8章 混合图文381

8.1方向383

用Hough变换检测直线384

左侧留白查找386

投影轮廓387

从斜率直方图到文本谱392

8.2切分396

自下向上的切分方法396

自上向下的组合的切分方法398

基于标记的切分399

使用短文本字符串切分401

利用文本句法切分404

8.3分类405

第9章 系统实现409

9.1文本压缩410

选择压缩模型411

选择编码器414

哈夫曼编码的限制416

长度限制的编码422

9.2文本压缩效果427

压缩有效性427

解压速度431

解压内存431

动态文档集合434

9.3图像和文本图像436

压缩二值图像438

压缩灰度图像439

压缩文本图像439

9.4构造索引441

9.5索引压缩443

9.6查询处理445

布尔查询445

排名查询448

附录A mg系统指南451

A.1安装MG系统451

A.2一个简单的存储和检索例子453

A.3数据库创建458

A.4对一个索引文档集合进行查询462

A.5非文本文件464

A.6图像压缩程序466

附录B 新西兰图书馆467

B.1什么是NZDL467

计算机科学报告(Computer Science Technical Reports)467

其他文档集合470

文档集合的发展476

音频集合(audio collections)476

音调索引(Melody Index)477

B.2 NZDL是如何工作的479

原始文档479

搜索和索引480

B.3影响482

参考文献483

热门推荐