当前位置：汉语文古籍全文文本化研究pdf电子书下载 > 文化科学教育体育

汉语文古籍全文文本化研究

作者：王荟，肖禹著
出版社：上海：中西书局
出版年份：2012
ISBN：9787547504383
标注页数：203 页
PDF页数：13201822 页
请阅读订购服务说明与试读!

订单查询

文档类型

价格(积分)

购买连接

试读

PDF格式

立即购买

点击试读

订购服务说明

1、本站所有的书默认都是PDF格式，该格式图书只能阅读和打印，不能再次编辑。

2、除分上下册或者多册的情况下，一般PDF页数一定要大于标注页数才建议下单购买。【本资源13201822 ≥203页】

图书下载及付费说明

1、所有的电子图书为PDF格式，支持电脑、手机、平板等各类电子设备阅读；可以任意拷贝文件到不同的阅读设备里进行阅读。

2、电子图书在提交订单后一般半小时内处理完成,最晚48小时内处理完成。(非工作日购买会延迟)

3、所有的电子图书都是原书直接扫描方式制作而成。

第一章绪论 1

一、研究意义 3

二、研究对象 3

1.汉语文古籍 3

2.古籍全文文本化 4

（1）古籍全文文本化定义 4

（2）全文文本化在古籍数字化中的地位和作用 4

三、研究现状 5

1.专著论文 5

2.学术会议 7

四、研究的目的与解决的问题 7

五、研究角度 8

六、研究方法 8

第二章古籍全文数据的功能与格式 9

一、古籍全文数据的功能分析 11

1.检索功能 11

2.显示功能 11

3.后续应用功能 13

二、古籍全文数据的格式 13

1.古籍全文数据的常见格式 13

2.XML格式和PDF格式 14

第三章古籍全文数据的基本模型描述 15

一、古籍文字模型描述 17

1.古籍用字情况分析 17

2.字符集与集外字 25

3.古籍文字基本模型 28

（1）字符集选择 28

（2）不同字体书体的处理 30

（3）文字转换 31

（4）文字转换策略 32

二、古籍符号模型描述 34

1.古籍符号使用的基本情况 35

（1）标点符号 36

（2）校对符号 38

（3）版式符号 40

（4）专类符号 42

（5）其他符号 43

2.字符集与符号表示 44

（1）字符集中的符号 44

（2）字符集中符号的表示方法 46

3.古籍符号基本模型 46

（1）古籍符号描述 47

（2）古籍符号处理策略 48

三、古籍版式模型描述 48

1.古籍版式分析 49

（1）版面版式 49

（2）文字版式 51

（3）符号版式 54

（4）特殊版式 54

2.古籍版式基本模型 57

（1）古籍版式描述 57

（2）古籍版式的处理策略 62

四、古籍结构模型描述 63

1.古籍的基本结构 63

2.古籍的基本结构描述 64

（1）古籍影像结构模型 64

（2）古籍全文结构模型 66

第四章古籍全文文本化的基本流程 67

一、全文文本化前期准备 69

1.构建全文文本化模型 69

2.确定全文文本化方法 70

3.底本选择 71

4.可数字化评估 71

二、全文转换 72

1.全文转换方法 73

（1）字符集编码输入 73

（2）自定义编码输入 74

（3）贴图 74

（4）描述 75

2.全文处理策略 77

三、版式转换 78

1.版式转换过程 78

2.有限版式还原 79

四、数据校验 81

1.校验方法选择 82

2.错误率控制 83

（1）错误率计量 83

（2）错误率控制方法 84

第五章个案研究 87

一、《文渊阁四库全书》电子版项目分析 89

1.项目概述 89

2.项目主要的技术路线 90

3.该项目的特点与不足 91

（1）文字转换 91

（2）版式转换 94

（3）结构描述 96

（4）《文渊阁四库全书》电子版3.0 98

二、数字方志全文文本化项目分析 98

1.项目概述 99

2.项目主要的技术路线 100

（1）全文数据加工方式 100

（2）全文文本化模型 104

3.该项目的特点与不足 108

（1） XML标记体系不一致 108

（2）集外字处理 110

（3）贴图处理 112

（4）表格处理 112

三、《中文文献全文版式还原与全文输入XML…规范》标准分析 112

1.全文版式规范概述 115

2.全文版式规范的主要技术路线 116

3.全文版式规范的特点与不足 117

（1）适用范围 118

（2）术语使用 118

（3）应用指南 119

（4）古籍模型 119

（5）扩充规则 120

（6）图形图像描述 120

（7）表格描述 120

（8）上下文连续描述 123

参考文献 129

一、专著 129

二、论文 130

三、网络文献 133

附录 137

附录一XML格式的古籍全文数据样例 139

附录二四十种古籍用字统计表 149

附录三四库和四部语料、国学宝典、数字方志项目核心字和部分高频字对照表 150

附录四CJK文字的字源 153

1.最初期的统一汉字（20，902字）字源 153

2.扩展A区（6，582）字源 153

3.扩展B区（42，711）字源 154

4.扩展C区（4，149）字源 155

附录五字源编码统一规则示例 157

1.不同语源的字不做统一 157

2.抽象字形（部件数量、部件相对位置和相应部件结构）不同的字不做统一 157

（1）部件数量不同的字不做统一 157

（2）部件相对位置不同的字不做统一 157

（3）相应部件结构不同的字不做统一 157

3.抽象字形相同部件细节不同的字可做统一 157

4.源字集分离原则 157

5.字源编码统一实例 158

附录六数字方志项目第一至三期造字示例表 159

附录七集内字Unicode编码与IDS示例 162

附录八文字认同的示例表 164

附录九数字方志项目一至三期全文数据样例 170

附录十数字方志项目四期全文数据头文件样例 175

附录十一数字方志项目四期全文数据表格描述样例 179

附录十二《中文文献全文版式还原与全文输入XML规范》中定义的主要标签和属性说明表 198

后记 202