图书介绍

统计机器翻译2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

（德）科恩著著
出版社：北京：电子工业出版社
ISBN：9787121175923
出版时间：2012
标注页数：302页
文件大小：144MB
文件页数：327页
主题词：机器翻译－翻译机－研究

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：ac193e3e207bf0aa1a41d2e6e4f271b2

下载说明

统计机器翻译PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一部分基础知识2

第1章绪论2

1.1 概述3

1.1.1 第1章：绪论3

1.1.2 第2章：词、句子和语料3

1.1.3 第3章：概率论4

1.1.4 第4章：基于词的翻译模型4

1.1.5 第5章：基于短语的翻译模型5

1.1.6 第6章：解码5

1.1.7 第7章：语言模型6

1.1.8 第8章：评测6

1.1.9 第9章：判别式训练7

1.1.10 第10章：整合语言学信息8

1.1.11 第11章：基于树的翻译模型8

1.2 机器翻译简史9

1.2.1 肇始9

1.2.2 ALPAC报告及其后果9

1.2.3 首批商用系统10

1.2.4 基于中间语系统的研究10

1.2.5 数据驱动方法11

1.2.6 目前的开发商11

1.2.7 技术现状12

1.3 应用13

1.3.1 全自动高质量机器翻译13

1.3.2 要旨翻译13

1.3.3 集成语音技术14

1.3.4 手持设备中的翻译14

1.3.5 后编辑15

1.3.6 译者的工具15

1.4 可用资源15

1.4.1 工具15

1.4.2 语料16

1.4.3 评测竞赛16

1.5 小结17

1.5.1 核心概念17

1.5.2 延伸阅读17

1.6 习题20

第2章词、句子和语料21

2.1 词21

2.1.1 词例化21

2.1.2 词的分布22

2.1.3 词性25

2.1.4 形态学26

2.1.5 词汇语义学28

2.2 句子29

2.2.1 句子结构30

2.2.2 语法理论31

2.2.3 句子结构的翻译34

2.2.4 语篇35

2.3 语料35

2.3.1 文本的类型35

2.3.2 获取平行语料36

2.3.3 句子对齐37

2.4 小结38

2.4.1 核心概念38

2.4.2 延伸阅读39

2.4.3 习题41

第3章概率论42

3.1 概率分布估计42

3.1.1 估计分析42

3.1.2 常见概率分布42

3.1.3 基于统计的概率估计44

3.2 概率分布计算45

3.2.1 形式定义45

3.2.2 联合概率分布45

3.2.3 条件概率分布46

3.2.4 贝叶斯法则46

3.2.5 插值47

3.3 概率分布的特性47

3.3.1 均值和方差47

3.3.2 期望和方差48

3.3.3 熵48

3.3.4 互信息49

3.4 小结51

3.4.1 核心概念51

3.4.2 延伸阅读51

3.4.3 习题51

第二部分核心方法54

第4章基于词的翻译模型54

4.1 基于词的机器翻译54

4.1.1 词汇翻译54

4.1.2 数据统计54

4.1.3 估计概率分布55

4.1.4 对齐55

4.1.5 IBM模型157

4.2 学习词汇翻译模型58

4.2.1 语料不完备问题58

4.2.2 期望最大化算法59

4.2.3 IBM模型1中的期望最大化算法59

4.2.4 困惑度62

4.3 确保流畅的输出63

4.3.1 流利译文的经验证据63

4.3.2 语言模型64

4.3.3 噪声信道模型64

4.4 更高级的IBM模型65

4.4.1 IBM模型265

4.4.2 IBM模型367

4.4.3 训练模型3：采样对齐空间70

4.4.4 IBM模型471

4.4.5 IBM模型575

4.5 词对齐77

4.5.1 词对齐任务77

4.5.2 词对齐质量评估78

4.5.3 基于IBM模型的词对齐78

4.6 小结80

4.6.1 核心概念80

4.6.2 延伸阅读81

4.6.3 习题84

第5章基于短语的翻译模型85

5.1 标准模型85

5.1.1 基于短语的翻译模型提出的动因85

5.1.2 数学定义86

5.2 学习短语翻译表87

5.2.1 从词对齐中抽取短语87

5.2.2 一致性定义87

5.2.3 短语抽取算法88

5.2.4 应用实例90

5.2.5 短语翻译概率估计91

5.3 翻译模型的扩展92

5.3.1 对数线性模型92

5.3.2 双向翻译概率93

5.3.3 词汇化加权94

5.3.4 词语惩罚95

5.3.5 短语惩罚95

5.3.6 作为分类问题的短语翻译95

5.4 调序模型的扩展96

5.4.1 调序限制96

5.4.2 词汇化调序97

5.5 基于短语模型的期望最大化训练98

5.5.1 短语对齐的联合模型98

5.5.2 对齐空间的复杂度99

5.5.3 模型训练99

5.6 小结100

5.6.1 核心概念100

5.6.2 延伸阅读100

5.6.3 习题103

第6章解码104

6.1 翻译过程104

6.1.1 翻译一个句子104

6.1.2 计算句子的翻译概率105

6.2 柱搜索106

6.2.1 翻译选项106

6.2.2 通过假设扩展的解码过程107

6.2.3 计算复杂度107

6.2.4 翻译假设重组108

6.2.5 栈解码109

6.2.6 直方图剪枝和阈值剪枝110

6.2.7 调序限制112

6.3 未来代价估计112

6.3.1 不同的翻译困难112

6.3.2 翻译选项的未来代价估计113

6.3.3 任意输入跨度的未来代价估计114

6.3.4 在搜索中使用未来代价115

6.4 其他解码算法116

6.4.1 基于覆盖栈的柱搜索算法116

6.4.2 A＊搜索算法116

6.4.3 贪婪爬山解码117

6.4.4 有限状态转换机解码118

6.5 小结118

6.5.1 核心概念118

6.5.2 延伸阅读119

6.5.3 习题120

第7章语言模型121

7.1 n元文法语言模型121

7.1.1 马尔可夫链122

7.1.2 估计122

7.1.3 困惑度123

7.2 计数平滑126

7.2.1 加1平滑法127

7.2.2 删除估计平滑法128

7.2.3 古德－图灵平滑法129

7.2.4 评估132

7.3 插值和后备132

7.3.1 插值133

7.3.2 递归插值133

7.3.3 后备134

7.3.4 预测词的差异性134

7.3.5 历史的差异性135

7.3.6 修正的Kneser-Ney平滑算法136

7.3.7 评估137

7.4 控制语言模型的大小138

7.4.1 不同的n元文法的数目138

7.4.2 在磁盘上进行估计139

7.4.3 高效的数据结构139

7.4.4 减小词汇表规模141

7.4.5 抽取相关的n元文法142

7.4.6 根据需要加载n元文法143

7.5 小结144

7.5.1 核心概念144

7.5.2 延伸阅读145

7.5.3 习题145

第8章评测147

8.1 人工评测147

8.1.1 流利度和忠实度147

8.1.2 评测目的149

8.1.3 其他评测标准150

8.2 自动评测150

8.2.1 准确率和召回率150

8.2.2 词错误率152

8.2.3 BLEU：一个双语评测的替代指标153

8.2.4 METEOR154

8.2.5 关于评测的争论155

8.2.6 评测指标的评测156

8.2.7 自动评测不足的证据157

8.3 假设检验158

8.3.1 计算置信区间158

8.3.2 成对比较159

8.3.3 自举重采样160

8.4 面向任务的评测161

8.4.1 后编辑的代价161

8.4.2 内容理解测试162

8.5 小结163

8.5.1 核心概念163

8.5.2 延伸阅读164

8.5.3 习题166

第三部分前沿研究168

第9章判别式训练168

9.1 寻找候选译文168

9.1.1 搜索图169

9.1.2 词格169

9.1.3 n-best列表170

9.2 判别式方法的原理172

9.2.1 译文的特征表示173

9.2.2 标注译文的正确性174

9.2.3 监督学习175

9.2.4 最大熵176

9.3 参数调节178

9.3.1 实验设置178

9.3.2 Powell搜索方法179

9.3.3 单纯型算法183

9.4 大规模判别式训练184

9.4.1 训练问题185

9.4.2 目标函数185

9.4.3 梯度下降186

9.4.4 感知机187

9.4.5 正则化188

9.5 后验方法与系统融合188

9.5.1 最小贝叶斯风险189

9.5.2 置信度估计190

9.5.3 系统融合190

9.6 小结192

9.6.1 核心概念192

9.6.2 延伸阅读193

9.6.3 习题194

第10章整合语言学信息196

10.1 直译197

10.1.1 数字和名字197

10.1.2 名字翻译198

10.1.3 直译的有限状态方法198

10.1.4 资源200

10.1.5 反向直译与翻译200

10.2 形态学201

10.2.1 词素201

10.2.2 简化丰富的形态变化202

10.2.3 翻译形态丰富的语言204

10.2.4 单词拆分204

10.3 句法重构205

10.3.1 基于输入语言句法的调序205

10.3.2 学习调序规则206

10.3.3 基于词性标记的调序207

10.3.4 基于句法树的调序208

10.3.5 预留选择210

10.4 句法特征211

10.4.1 方法论211

10.4.2 数的一致性211

10.4.3 一致性212

10.4.4 句法分析概率213

10.5 因子化翻译模型214

10.5.1 因子化翻译的分解214

10.5.2 因子化模型训练216

10.5.3 模块的融合216

10.5.4 高效解码217

10.6 小结217

10.6.1 核心概念217

10.6.2 延伸阅读218

10.6.3 习题222

第11章基于树的翻译模型223

11.1 同步文法223

11.1.1 短语结构语法223

11.1.2 同步短语结构语法224

11.1.3 同步树替换文法225

11.2 同步文法的学习227

11.2.1 层次短语模型的学习227

11.2.2 句法翻译规则的学习229

11.2.3 规则的简化232

11.2.4 文法规则的打分233

11.3 基于句法分析算法的解码233

11.3.1 线图分析233

11.3.2 核心算法235

11.3.3 线图的组织236

11.3.4 假设重组236

11.3.5 栈剪枝237

11.3.6 文法规则的使用238

11.3.7 立方剪枝241

11.3.8 文法二叉化243

11.3.9 外向代价估计245

11.4 小结246

11.4.1 核心概念246

11.4.2 延伸阅读246

11.4.3 习题250

参考文献251

索引296