图书介绍

汉语文古籍全文文本化研究2025|PDF|Epub|mobi|kindle电子书版本百度云盘下载

王荟，肖禹著著
出版社：上海：中西书局
ISBN：9787547504383
出版时间：2012
标注页数：203页
文件大小：134MB
文件页数：13201822页
主题词：数字技术－应用－古籍整理－研究－中国

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：

下载说明

汉语文古籍全文文本化研究PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第一章绪论1

一、研究意义3

二、研究对象3

1.汉语文古籍3

2.古籍全文文本化4

（1）古籍全文文本化定义4

（2）全文文本化在古籍数字化中的地位和作用4

三、研究现状5

1.专著论文5

2.学术会议7

四、研究的目的与解决的问题7

五、研究角度8

六、研究方法8

第二章古籍全文数据的功能与格式9

一、古籍全文数据的功能分析11

1.检索功能11

2.显示功能11

3.后续应用功能13

二、古籍全文数据的格式13

1.古籍全文数据的常见格式13

2.XML格式和PDF格式14

第三章古籍全文数据的基本模型描述15

一、古籍文字模型描述17

1.古籍用字情况分析17

2.字符集与集外字25

3.古籍文字基本模型28

（1）字符集选择28

（2）不同字体书体的处理30

（3）文字转换31

（4）文字转换策略32

二、古籍符号模型描述34

1.古籍符号使用的基本情况35

（1）标点符号36

（2）校对符号38

（3）版式符号40

（4）专类符号42

（5）其他符号43

2.字符集与符号表示44

（1）字符集中的符号44

（2）字符集中符号的表示方法46

3.古籍符号基本模型46

（1）古籍符号描述47

（2）古籍符号处理策略48

三、古籍版式模型描述48

1.古籍版式分析49

（1）版面版式49

（2）文字版式51

（3）符号版式54

（4）特殊版式54

2.古籍版式基本模型57

（1）古籍版式描述57

（2）古籍版式的处理策略62

四、古籍结构模型描述63

1.古籍的基本结构63

2.古籍的基本结构描述64

（1）古籍影像结构模型64

（2）古籍全文结构模型66

第四章古籍全文文本化的基本流程67

一、全文文本化前期准备69

1.构建全文文本化模型69

2.确定全文文本化方法70

3.底本选择71

4.可数字化评估71

二、全文转换72

1.全文转换方法73

（1）字符集编码输入73

（2）自定义编码输入74

（3）贴图74

（4）描述75

2.全文处理策略77

三、版式转换78

1.版式转换过程78

2.有限版式还原79

四、数据校验81

1.校验方法选择82

2.错误率控制83

（1）错误率计量83

（2）错误率控制方法84

第五章个案研究87

一、《文渊阁四库全书》电子版项目分析89

1.项目概述89

2.项目主要的技术路线90

3.该项目的特点与不足91

（1）文字转换91

（2）版式转换94

（3）结构描述96

（4）《文渊阁四库全书》电子版3.098

二、数字方志全文文本化项目分析98

1.项目概述99

2.项目主要的技术路线100

（1）全文数据加工方式100

（2）全文文本化模型104

3.该项目的特点与不足108

（1） XML标记体系不一致108

（2）集外字处理110

（3）贴图处理112

（4）表格处理112

三、《中文文献全文版式还原与全文输入XML…规范》标准分析112

1.全文版式规范概述115

2.全文版式规范的主要技术路线116

3.全文版式规范的特点与不足117

（1）适用范围118

（2）术语使用118

（3）应用指南119

（4）古籍模型119

（5）扩充规则120

（6）图形图像描述120

（7）表格描述120

（8）上下文连续描述123

参考文献129

一、专著129

二、论文130

三、网络文献133

附录137

附录一XML格式的古籍全文数据样例139

附录二四十种古籍用字统计表149

附录三四库和四部语料、国学宝典、数字方志项目核心字和部分高频字对照表150

附录四CJK文字的字源153

1.最初期的统一汉字（20，902字）字源153

2.扩展A区（6，582）字源153

3.扩展B区（42，711）字源154

4.扩展C区（4，149）字源155

附录五字源编码统一规则示例157

1.不同语源的字不做统一157

2.抽象字形（部件数量、部件相对位置和相应部件结构）不同的字不做统一157

（1）部件数量不同的字不做统一157

（2）部件相对位置不同的字不做统一157

（3）相应部件结构不同的字不做统一157

3.抽象字形相同部件细节不同的字可做统一157

4.源字集分离原则157

5.字源编码统一实例158

附录六数字方志项目第一至三期造字示例表159

附录七集内字Unicode编码与IDS示例162

附录八文字认同的示例表164

附录九数字方志项目一至三期全文数据样例170

附录十数字方志项目四期全文数据头文件样例175

附录十一数字方志项目四期全文数据表格描述样例179

附录十二《中文文献全文版式还原与全文输入XML规范》中定义的主要标签和属性说明表198

后记202