图书介绍

统计语言建模与中文文本自动校对技术2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

张仰森著著
出版社：北京：科学出版社
ISBN：7030518552
出版时间：2017
标注页数：256页
文件大小：34MB
文件页数：268页
主题词：

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：ab596373e741104cfa119695409633e7

下载说明

统计语言建模与中文文本自动校对技术PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一章绪论1

1.1 撰写本书的背景和意义1

1.2 本书的主要内容与组织结构3

1.3 本书重点关注的问题4

第二章统计语言模型7

2.1 语言模型概述7

2.2 现有主要统计语言模型7

2.2.1 上下文无关模型7

2.2.2 n-gram模型8

2.2.3 隐Markov模型11

2.2.4 决策树模型18

2.2.5 Cache-based模型18

2.3 统计语言模型的建模技术19

2.3.1 基于最大似然法的语言建模19

2.3.2 基于组合思想的语言建模21

2.3.3 基于信息论最大熵方法的语言建模23

2.4 统计语言建模的相关问题24

2.4.1 语言模型的架构24

2.4.2 语言模型参数的确定24

2.4.3 数据稀疏问题与模型平滑25

2.4.4 语言模型的评价26

2.5 本章小结26

第三章汉语统计语言模型的构建27

3.1 汉语统计语言模型构建概述27

3.2 汉语文本分词及其相关问题27

3.2.1 机读词典的建立27

3.2.2 汉语文本分词算法28

3.2.3 分词中的中国人名识别31

3.2.4 实验结果与分析37

3.3 汉语建模原理与文本统计系统的建立39

3.3.1 汉语n-gram模型的构建原理39

3.3.2 文本统计系统的组成及实现39

3.3.3 字词统计算法与程序40

3.4 几种汉语语言模型与实验结果41

3.5 本章小结42

第四章汉语统计语言模型的训练与评价43

4.1 语言模型训练样本的选取43

4.2 汉语语言模型训练样本的规模43

4.2.1 语言模型阶数与训练样本规模43

4.2.2 汉语语言模型的训练语料规模45

4.2.3 样本规模与词的使用频率和统计相对误差关系48

4.3 统计语言模型的评价50

4.3.1 基于信息熵的复杂度度量50

4.3.2 基于困惑度的复杂度度量54

4.4 汉语信息熵的估算方法55

4.4.1 语言信息熵的估算55

4.4.2 对几种汉语语言模型的比较与评价55

4.5 本章小结56

第五章文本校对技术的现状分析57

5.1 英文文本自动校对技术57

5.1.1 英文文本中的错误种类57

5.1.2 单词错误的发现与校对技术57

5.1.3 上下文相关的错误校对技术59

5.2 中文文本自动校对技术61

5.2.1 中文与英文的差别61

5.2.2 中文自动查错的研究现状61

5.2.3 中文自动纠错的研究现状64

5.3 中文文本中常见错误的类型与分析64

5.3.1 中文文本中的常见错误类型64

5.3.2 中文文本中常见错误统计分析66

5.3.3 中文文本自动校对的难点分析67

5.4 本章小结68

第六章中文文本字词错误自动侦测的模型与算法69

6.1 中文文本字词级错误的表现形式69

6.2 基于n-gram模型的中文文本查错方法70

6.2.1 n-gram模型与接续关系70

6.2.2 基于接续关系的查错思想71

6.2.3 字字接续判断模型71

6.2.4 词接续判断模型73

6.2.5 接续关系知识获取与知识库构建74

6.3 基于字词二元接续关系的自动查错算法75

6.3.1 基于字词二元接续的自动查错算法75

6.3.2 实验结果及查错实例76

6.4 规则与统计相结合的文本自动查错模型79

6.4.1 中文文本中的“非多字词错误”与“真多字词错误”79

6.4.2 规则与统计相结合的中文文本自动查错模型80

6.5 散串集中策略84

6.5.1 双向拼音知识库的构建84

6.5.2 散串集中策略84

6.5.3 错误信息存储方法85

6.5.4 散串集中算法86

6.5.5 实验结果与分析86

6.6 一种英文单词拼写自动侦错与纠错的方法——骨架键法88

6.6.1 英文拼写自动侦错和纠错的一般方法88

6.6.2 骨架键法在英文侦错与纠错中的可行性分析88

6.6.3 骨架键法的算法描述和算法分析89

6.6.4 实验结果评价90

6.7 本章小结90

第七章中文文本中语法错误的自动侦测模型与算法92

7.1 中文文本语法级错误概述92

7.2 关联词知识库构建及查错算法93

7.2.1 关联词搭配错误推理规则知识库的构建93

7.2.2 关联词搭配查错算法94

7.3 量名搭配知识库的构建及查错算法设计95

7.3.1 基于《语法词典》的量名搭配95

7.3.2 基于语料库的量名搭配96

7.3.3 量名搭配类库的构建97

7.3.4 量名搭配查错算法98

7.4 标点符号错误的自动侦测99

7.4.1 标点符号搭配错误的研究99

7.4.2 标点符号错误搭配规则及算法设计100

7.5 基于规则的语法错误推理规则的构建101

7.5.1 语法错误推理正规则库构建101

7.5.2 语法错误推理负规则库制定104

7.5.3 基于语法错误推理规则的语法级错误查错算法105

7.6 本章小结106

第八章中文文本中语义错误自动侦测的模型与算法107

8.1 语义学相关理论107

8.1.1 现代语义学流派及其主要理论107

8.1.2 语义知识的表示方法111

8.1.3 语义知识资源113

8.2 基于语义搭配知识库的语义侦测算法117

8.2.1 语义搭配知识库体系结构的设计117

8.2.2 词语搭配自动抽取算法的设计与实现119

8.2.3 语义搭配知识库构建算法的设计及实现124

8.2.4 基于语义搭配知识库的语义侦测算法的设计及实现127

8.3 基于语义依存搭配知识库的语义查错方法128

8.3.1 依存树库的构建及搭配关系的提取128

8.3.2 基于语义依存搭配知识库的语义级查错方法132

8.4 本章小结134

第九章面向专业领域的中文文本错误的自动侦测方法135

9.1 面向特定领域的专业词汇抽取方法概述135

9.1.1 国外研究现状分析135

9.1.2 国内研究现状分析136

9.2 专业领域词汇及搭配关系的相关概念和理论知识138

9.2.1 专业词汇的定义139

9.2.2 专业词汇的分类139

9.2.3 专业词汇的特性140

9.2.4 专业词语搭配关系的定义141

9.2.5 通用的统计方法141

9.3 基于统计与规则相结合的专业词汇抽取算法145

9.3.1 专业词汇抽取算法的流程145

9.3.2 基于左右信息熵扩展的候选专业词汇抽取148

9.3.3 基于成词度的专业词汇筛选151

9.3.4 基于TF-IDF领域度的专业词汇筛选154

9.3.5 基于通用词库的筛选156

9.4 基于特定领域的词语搭配挖掘算法156

9.4.1 基于统计的常用词语搭配关系挖掘157

9.4.2 基于依存句法分析和《同义词词林》的动宾搭配关系挖掘161

9.4.3 基于依存分析结果的动宾搭配关系挖掘169

9.5 专业词汇与搭配关系分析挖掘系统的设计与实现174

9.5.1 系统的框架设计174

9.5.2 系统的主要用途和技术特点175

9.5.3 系统各功能模块简介175

9.5.4 实验结果与分析181

9.6 专业词汇与搭配关系在中文文本自动校对中的应用187

9.6.1 专业词汇在中文文本自动校对中的应用187

9.6.2 词语搭配关系在中文文本自动校对中的应用189

9.7 本章小结192

第十章面向政治新闻领域的中文文本校对方法194

10.1 面向政治新闻领域的中文文本校对方法概述194

10.2 新闻领域文本政治性错误类型194

10.3 面向政治新闻校对的相关知识库构建195

10.3.1 涉及主权、领土完整及港澳台问题的“引号词”QTLIB库的构建196

10.3.2 领导人顺序和姓名-职务知识库的构建197

10.4 面向政治新闻领域的差错侦测算法与实现198

10.4.1 政治性差错侦测规则库构建198

10.4.2 面向政治新闻领域的文本分词优化199

10.4.3 政治性差错侦测模型200

10.4.4 面向政治领域的文本校对方法的具体实现201

10.5 实验结果分析202

10.5.1 测试集的构建202

10.5.2 结果分析203

第十一章中文文本错误纠错建议的自动生成及其排序方法204

11.1 中文文本字词级错误纠错建议自动生成及其排序的模型与算法204

11.1.1 中文文本字词级错误纠错建议自动生成及其排序概述204

11.1.2 自动纠错的语言模型204

11.1.3 纠错知识库的构造205

11.1.4 纠错建议的生成算法213

11.1.5 语境关联度模型215

11.1.6 基于语境关联度模型的纠错建议排序218

11.1.7 实验结果与实例219

11.2 基于最大熵方法的语言建模与纠错排歧221

11.2.1 问题的引入221

11.2.2 最大熵原理222

11.2.3 基于最大熵原理的自然语言建模223

11.2.4 基于频次与平均互信息相结合的特征选择228

11.2.5 基于最大熵方法的纠错排歧231

11.3 本章小结235

第十二章面向中文文本的自动校对实验系统设计与实现236

12.1 系统目标236

12.2 系统结构设计236

12.3 系统的实现238

12.3.1 开发环境238

12.3.2 知识获取模块的实现239

12.3.3 分词模块的实现239

12.3.4 查错模块的实现240

12.3.5 纠错模块的实现241

12.4 系统评测243

12.4.1 评测目的和评测性能指标243

12.4.2 标准评测库的建立和评测方法244

12.5 本章小结245

附录：汉语语料加工词性标记体系246

参考文献247