




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
i 摘 要 利用最新的xml技术开展汉语史专书研究是计算机辅助汉语史研究的一个新的 领域我们以处理自制的广雅疏证电子文本为例展示了在现有的技术条件下 如何利用该技术来分析提取其中的语言知识我们的建模和属性提取等工作将为后 来学者应用该技术处理同类文本提供借鉴 分析并利用清人已有的语源研究成果将大大促进我们现代的语源学研究乾嘉 时期尚未建立科学的语源学理论他们的语源研究不是从语言出发的而是从文字 出发的即以书面的字作为研究的基本单位这种观念体现在他们的训诂实践中 就是用同源字系联代替了同族词的系联从历时平面观察王念孙父子的广雅疏 证意在疏通古汉语的同源字系统该系统从层次上可分为异体字系统通假字系 统同族词系统三个子系统王氏以字为词把异体通假等文字关系与同族词的 关系混同起来并用类似的训诂术语进行解说这种混同既是由他们随文注疏的体 例决定的又是由异体通假等文字关系与词语的族属关系纠结难分决定的现在 我们为了充分利用其成果可从同源字出发完整地提取利用广雅疏证一类典籍 中的语源研究成果然后从同族词出发整理同源字的系联成果理顺同族词和异体 字通假字关系我们需明确异体字通假字是一个词的记录文字它们只能随 着其记录的语词一同被归并到相应的同族词组中我们还要重视异体字通假字的 系联成果它们在汉字整理推求语源方面有其特殊的意义 关键词广雅疏证 数字化 同族词 异体字 通假字 ii abstract making use of the latest extensible markup language (xml) to research archaic chinese books is a new realm of computer-aided research into archaic chinese. from the case of guangyashuzheng, we testified that xml can help us withdraw linguistry under the current technical conditions. our work has special reference to applying xml to research archaic chinese. our modern etymology research benefited from the research of scholars in qing dynasty. in qianjia period, scientific etymology theories hadnt been founded .not word, but character, was regarded as fundamental linguistic structural unit at that time. this theory influenced the linguistic exegesis of classical scholars, who collected lots of cognate characters instead of cognate words. from diachronic view, wang nina-sun and his son intended to discover lots of cognate characters systems in archaic chinese through guangyashuzheng. this system can be divided into three subsystems: variant characters system, borrowed characters system, and cognate words system. wang regarded character as word, so confused cognate words with variant characters and borrowed characters. and the jargon he used does not differentiate three subsystems. one reason for this is that three subsystems can transform each otheranother is that wang annotate with the text. in order to making use of the production of guangyashuzheng well, we should distill the fruit of cognate characters systems, and then sort them with the view of cognate words. variant character and borrowed character both represent a same word, and should combine to one cognate words system. we should attach importance to the fruit of variant characters system and borrowed characters system, which are crucial to neatening chinese characters and inquiring into the derivation. key words: guangyashuzheng digitization cognate words variant characters borrowed characters 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果尽我所知除文中已经标明引用的内容外本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果对本文的研究做出贡献的个人和集体均已在 文中以明确方式标明本人完全意识到本声明的法律结果由本人承担 学位论文作者签名甘 勇 日期 2005 年 5 月 14 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留使用学位论文的规定即学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版允许论文被查阅和借阅 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索可以采用影印缩印或扫描等复制手段保存和汇编本学位论文 保密 在_年解密后适用本授权书 不保密 请在以上方框内打 学位论文作者签名 甘勇 指导教师签名尉迟治平 日期 2005 年 5 月 14 日 日期 20005 年 5 月 15 日 本论文属于 1 1 绪 论 1.1 广雅广雅疏证简介 1.1.1 广雅概说 广雅收录丰富的前代训诂保存大量的古词古义是我们研治汉语词汇发 展史不可多得的一座语言资料宝库 广雅三国时魏文帝太和年间博士张揖撰张揖写作广雅的旨趣在于增 广尔雅所未备故名广雅曾因避隋炀帝讳改名博雅广雅既然为 广尔雅而作故其体例一仍尔雅之旧其内容始于释诂终于释兽 分上中下三卷增收词语 2343 条共计 18150 字经过两汉语言有了更大的发展 词汇不断充实和丰富八方殊语庶物易名不在尔雅者甚多这样一来尔 雅所收的训诂资料便显得不够全面为弥补这个缺憾张揖依尔雅旧例而作 广雅其书广搜博求凡先秦两汉经传子史字书所有而不见于尔雅的字大 都搜罗在内并对尔雅已收之词补充说解以求义项赅备无阙王念孙在广 雅疏证序中阐明了它在训诂学上的价值 盖周秦两汉古义之存者可据以证其得失其散逸不传者可藉以窥其端绪 则其书之为功于训诂也大矣 1.1.2 广雅疏证概说 广雅疏证是后代注解广雅的注本中成就最高发明最多在理论方 法材料上均有重大创建的一部传统语言学之集大成的著作 广雅成书以后隋代人曹宪曾著博雅音四卷其书除依字注音以外 间或说明字体然曹宪以后直到清代广雅少人问津清代乾嘉时期研究文字 音韵训诂的风气盛行广雅因包含大量汉魏以上的文字训解所以也为当时的 学者所重视清代研究广雅的主要有三家一是卢文弨谢启昆小学考著 2 录卢氏广雅注三卷一说是广雅注释但未见有传本一是钱大昭他 曾著广雅疏义成书早于王念孙的广雅疏证但书成以后未能及时刊行后 来日本人购得一部手抄本并于 1 9 4 1 年在日本影印出版现在国内很少见到另外 一家就是王念孙他著广雅疏证传世钱氏和王氏比较钱氏重在搜求佐证 而发明较少王氏则精于校订援引该洽博约简取而又能疏通故训触类旁通 独造自得所以论成就自然高于钱氏1 王念孙字怀祖号石渠又作石臞江苏高邮人生于乾隆九年1 7 4 4卒 于道光十二年1 8 3 2享年八十九岁其父王安国雍正二年一甲进士乾隆初年 官至吏部尚书念孙少年时就受到了极好的传统文化的教育1 2岁时其父又为他延 请了留寓京师的学者戴震做他老师戴氏当时已是很有名气的学者学风严谨学 识渊博对王念孙一生的治学无疑产生了重大影响王念孙多次进京会试不中直 到他 3 2 岁时才考中进士赐二甲七名进士出身授庶吉士而后便回乡读书四年 后供职于翰林院转任监察御史嘉庆年间又出任直隶永定河道1 8 1 1年以后王 念孙随其子王引之居家专事著述直到逝世 王念孙为官多年但志趣全在学问上他的传世巨著广雅疏证就主要是在 他任监察御史期间完成的王念孙在早年读书期间实际上就已经做了许多关于经 典故训的积累整理工作而且早有著述计划在他 2 5 岁时他曾对友人李文藻说 要作书四种以配亭林顾氏音学五书此后他又作了说文方言方 面的考订工作他的韵谱谐声表雅诂表以及尔雅小尔雅广 雅方言一类故训的分韵等材料大约也都是在他作广雅疏证之前编 撰的广雅疏证的写作开始于乾隆五十二年1 7 8 7 秋当时他 4 4岁为了能 够保证质量和进度他制定并严格执行了写作程限每日疏证三个字不许有一日 间断到乾隆六十年1 7 9 5 即完成了一至九卷的稿子第十卷用他儿子王引之的 稿子至此全书即告完成历时约八年之久 广雅疏证的内容主要包括以下三个方面1 . 校勘文字广雅流传一千多 年历经散佚误抄臆改向无善本王氏对传本进行了精审校勘为后人提供 了一个可资利用的本子在疏证中他既以各种明刻本互校又采用影宋本以正明 3 本之误并旁考说文玉篇集韵等书以正唐宋以来传写之误所校明 本讹误错乱脱落的正文竟达一千余条随条补正大都精确可信2 . 援引各种古籍 探求书中义训的文献根据与尔雅方言说文和群书故训相阐发王氏 所引之书达数百之巨他的辑录工作为汉语词汇史提供了宝贵的资料3 . 以声音通 训诂即摆脱字形的束缚以声音为纽带观察字间词间的联系发近代义类和词 族研究之先声王氏在疏证中对大量的同族词通假字异体字等字词聚合体进 行了疏通证明以实际的训诂实践验证了自己提出因声求义的训诂方法 1, 2 1.2广雅疏证的研究概况 前人对广雅疏证做过许多很好的研究工作他们的成绩主要表现在文献学 研究和语言学研究两个方面 1.2.1文献学研究 广雅疏证文献学研究主要包括对版本及成书年代的考证对王氏校勘成就的 总结对疏证的校勘录遗和索引资料的编撰四个方面 3 1.2.1.1 对版本及成书年代的考证 广雅疏证流传仅两百余年其版本约十余种因年代未远版本渊源倒也 清晰易辨我们所知的谈及版本问题的大约有邓志瑗的从广雅疏证段王二序 对训诂学的伟大贡献谈到四备本的舛误问题 4和苏新春的 也谈广雅疏证四备 本舛误问题 5 两者所谈及的都是某些版本中段王二序前后误接的错误 关于王念孙写作疏证的时间前人论述最多有七年半一说有九年一说 亦有十年一说说法不一最近讨论写作年代的有粱保尔雷汉卿的广雅疏证 的写作时间 6一文 认为十年一说较为妥当然王念孙早年已做过许多关于经典故 训的收集整理工作并早有著述计划加之其书刊行后王氏补正多处均细书于 刊本之上依此王氏父子著述广雅疏证的年代原本就是漫长而不确的 1.2.1.2 对王氏校勘成就的总结 王氏父子的疏证仔细校订了广雅及博雅音中的伪误错乱以期恢复 4 广雅唐以前的面目很多学者的述评都论及了广雅疏证在校勘方面的成就 特点不足之处如 周祖谟读王念孙广雅疏证简论 7 殷孟伦王念孙父子广雅疏证在汉语研究史上的地位 8 刘成文广雅及其注本 9 近年对广雅疏证校雠学方面研究最多的还有徐兴海10他在广雅疏证 研究这部书的上编专门研究广雅疏证之校雠学他分三章分别介绍了广 雅疏证之勘误类例校雠内容与方法据广雅正他书之误 1.2.1.3 对疏证的校勘录遗 对广雅疏证的补释录遗工作其实从其书刊行时就已经开始最初从事 这方面工作的正是作者王念孙本人他晚年对疏证作了补正修改细书于刊 本之上或别签夹入书中这个稿本先由清河汪汲收藏后为淮安黄海常购得最 后又转至罗振玉之手罗氏将补正文字单独钞为一书名之为广雅疏证补正补 正对疏证的改正多达五百余处其中有新补充的书证也有对原文伪误的纠 正更有一些是将原疏证文加以重新改写这些既反映了王氏锲而不舍的治 学作风也使得广雅疏证更趋完善其后类似的著作还有陈邦福广雅疏证补 释周祖谟广雅疏证录遗 11 都是补正类的著作 辩证王氏父子疏证和补正内容的主要有刘凯鸣广雅疏证辨补上 中下该文仿王书体例分一未详试解二疏证质疑三仿例 补疏四分类补缺五补义增例等五部分条述之 12-14 1.2.1.4 对疏证索引资料的编撰 对疏证索引资料的编撰已经有广雅疏证索引广雅疏证引书 索引和广雅疏证词目索引三种 3其中 广雅疏证索引由戴山青编 中华书局 1 9 9 0 年出版广雅疏证引书索引由周法高主编香港中文大学出版 社 1 9 7 8 年出版广雅疏证词目索引见于中国训诂学研究会主编江苏古籍 出版社 2 0 0 0 年出版的广雅疏证附录 5 1.2.2 语言学研究 前人对广雅疏证的研究遍及语言学各个领域其中多角度综合性的研究工 作尤为多见现就笔者所见将前人所做之研究大致分为如下几点 1.2.2.1 从校雠学语言学等角度对广雅疏证的成就特点训诂方法不足之 处做综合性评介如 周祖谟读王氏广雅疏证手稿书后1 9 7 9 年又刊作读王念孙广雅疏证 简论 7 裴学海评高邮王氏四种 15 赵振铎读广雅疏证 2 殷孟伦王念孙父子广雅疏证在汉语研究史上的地位 8 舒怀高邮王氏父子学术初探 徐兴海广雅疏证研究 10 姜聿华中国传统语言学要籍述论 16 其中殷孟伦先生从疏证的写作经过疏证的出现在汉语词汇词义研究 上的进步意义疏证的主要依据和作者的方法论这四个方面对广雅疏证在 汉语研究史上的地位给予了高度的评价姜聿华在总结前人对疏证的研究基础 上对疏证的作者写作经过疏证的内容王氏研究方法的成就与不足进 行了全面的介绍其他一些论文在谈及个别具体问题时也大都附带对广雅疏证 进行一些综合性介绍 1.2.2.2 就广雅疏证分析阐发王念孙的语源学思想和语言学成就如 马建东王念孙的语言学思想再读广雅疏证 17 朱国理广雅疏证对右文说的继承和发展 18 朱国理试论转语理论的历史发展 19 朱国理广雅疏证的命名之义 20 胡继明说文解字注和广雅疏证的右文说 21 1.2.2.3 统计分析广雅疏证中使用的训诂术语梳理其基本条例如 朱国理广雅疏证的通 22 6 朱国理广雅疏证的同 23 朱国理广雅疏证的声义同近 24 胡继明广雅疏证的字异而义同 25 徐兴海广雅疏证研究 10 王的广雅疏证存在术语含混概念不明之病同通都非确指 上述这些研究对于我们区别书中的同源通假异体等各种不同情况提供了帮助 1.2.2.4 专门就广雅疏证系联同族词的理论方法表述方式以及同族词的语义关 系和语音关系等展开的研究 在这方面朱国理和胡继明所做的博士学位论文最为全面其中朱国理的博士论 文广雅疏证的语源研究 26 从词源学的角度疏通了广雅疏证有关同 族词研究的材料评介了王念孙在传统语源学史上的地位为中国语源学的研究提 供了一些参考胡继明的博士论文广雅疏证同源词研究 27则参照利用王力 先生的上古音体系和王宁先生的同源词义素分析法归纳分析了广雅疏证的 3 7 9 组单音节同族词并探求每一组同族词共同的核义素即词源意义在此基础上 深入讨论了广雅疏证同族词的语音关系类型词义关系类型以及音义结合规律 另外有人专门分析疏证中同族词的语义关系如 刘殿义张仁明广雅疏证同源字的语义问题 28 张仁明刘殿义广雅疏证同源字组间的语义关系 29 还有从音韵音转的角度对其中同族词进行的考察如 朱国理广雅疏证声同声近声通考 30 吴泽颂从王氏四种看先秦文献语言的音转规律 31 1.2.2.5 提取王氏疏证中的语言材料分析一些词汇问题如 曹国安据广雅释诂论古词同义 32 方一新试论广雅疏证关于联绵词解说部分的成就 33 孙德平广雅疏证的计算机处理及同义词研究 3 7 1.3 汉语史研究中的数字化研究手段简介 1.3.1 最初的方法 汉语史研究中的数字化研究手段是语言学的计算机辅助研究即 c a r c o m p u t e a s s i s t e d r e s e a r c h 的一部分 34最初语言学引入的数字化手段集中在语料库 特别是现代语言语料库的建设方面即将以往由纸制材料存储的语料改为由计算机 存储从而实现了由自然人的阅读向机器阅读的转变机器阅读以其速度精确度 方面的优势为语言研究中的统计采样辞书编纂等提供了方便数字化最先在汉 语史研究中的应用也是从古籍语料库的建设和利用开始的其后又引入了关系数据 库等手段为文献语料精细分析加工提供了可能 我们认为迄今汉语史研究的数字化主要包括语料的数字化古籍电子语料库建 设原有语言知识的数字化汉语史专家知识库建设和新语言知识生成的数字化 三个层次语料的数字化多借助于古籍文献语料全文检索系统而实现原有语言知 识的数字化和新语言知识生成的数字化则既借助全文检索系统又借助关系数据库及 其编程技术而实现 1.3.1.1古籍文献语料全文检索系统 古籍文献语料全文检索系统 亦被称作古籍电子化 是指利用现代计算机技术 对古籍文献进行科学系统的整理主要应解决存储与检索问题它服务于相关人 文社会科学的各个部门据国学宝典的设计制作者尹小林先生的观点35古籍 全文检索系统的主要制作程序包括以下十个方面1 选书确定版本2 数据规 划分析数据结构例如诗歌散文图录书目等数据有不同的结构3 录 入人工录入或者扫描4 补字现有字库用于古籍整理缺字较多造成工作 量大5 审校打印初校复校三校初审复审终审6 标引篇名 作者卷数体裁段落图表此工作量较大7 软件编写设计逻辑框图 选择计算机语言确定汉字平台编写程序8 数据联调挂接数据图表声 音关联字典帮助文件9 软件测试1 0 界面设计 汉语史因其主要的工作就是从古代文献语料中发现语言规律 故而成为古籍文献 8 语料全文检索系统的最为主要的用户之一古籍文献语料全文检索系统的主要优点 是长于检索能从各种格式超大容量的文件中迅速彻底地搜索目标字串显 示包含目标字串的句子并能返回全文检阅原文也可以马上输出进行编辑 36 如考察某词的发展可利用台湾中央研究院研制的汉籍全文检索系统输入一 词查遍全部二十五史四千余万字只需一二秒并将检索结果依序穷尽排 出供浏览或打印如将此项工作交由一个学者只怕皓首穷经也未必能保证精 确不漏 37一般的古籍数字化工作面向的用户较为宽泛 对于特定用户所需要的特 殊文献未必都能照顾到从事汉语史研究工作的学者需要特定的语料和文献这些 古代文献包含大量异体字古今字通假字冷僻字讹俗字在制作和显示方面 有着特殊困难故而其生产缺乏社会认同度只能由从事语言研究的学者和单位自 己承担近年来不少的单位和专家都意识到汉语言文字典籍数据数字化工作的重 要也有了一些初步的成果但是这个工作并没有引起普遍的重视同时这一工 作目前仍是各自为政在典籍数据的选择文本格式等诸多方面都没有达成共识 造成了重复劳动影响了工作的深入也不利于资源的共享为改变这一状况2 0 0 2 年底由华中科技大学上海师范大学发起成立了汉语言文字典籍数据数字化工作 协调组现有 2 0 多所高校参加了该协调组的工作该协调组旨在通过分工协作制作 适合于汉语史研究需要的汉语言文字典籍数据电子文献以期实现资料数字化并 为今后的全文检索资料的计算机程序处理奠定基础本论文所涉及的广雅疏证 也被纳入到该协调组首批进行数字化的书目中我们希望通过各位的辛勤劳动为数 字化的人文学术研究和计算机辅助汉语史研究开辟道路 1.3.1.2关系数据库系统 全文检索系统只是利用数字化资料的最为基础的应用它以字符串作为数据采 用的是非组织化的整体存储方式数据之间的关系被人为隔开该方式决定我们只 能通过它进行直接的穷尽性的字符串检索然而语言研究中的要求是多种多样的 绝不满足于全文检索系统的检索字词句 关系数据库技术是在全文检索技术之后又一个深受语言研究者青睐的技术手段 两者各有所长互相补充全文检索系统主要存储非线性的非结构化的数据信息 9 数据库系统则主要存储管理有组织的结构化的数据信息通俗地讲就是类似 于表格的数据信息所谓关系数据库是指能处理二维表格能够进行投影连接和 选择等关系操作的数据库该数据库既便于人们观察数据的关系又具备强大的系 统管理功能能开展一些全文检索系统不能胜任的工作 数据库技术运用于汉语史研究是从汉语史专家知识库的建设开始的 从事汉语史 研究的学者发现大量的语言学典籍其文献结构本身就是结构化的如广韵 集韵等韵书文献本身即构成语言知识它们是古代语言学家语言研究成果的 一个固化1986 年华中工学院陈汉清邓希敏完成的古今字音对照手册计算机 处理系统通过了技术鉴定该系统将古今字音对照手册作为信息源全部存入计 算机建立了古今字音对照的原始资料库数据资料库以及面向专家分析研究 检索验证系统大大方便了音韵学研究该成果的问世为汉语史的计算机辅助研 究开辟了道路 38此外 关系数据库技术还可应用于汉语史专书词汇方言以及 诗文韵部的整理等研究中这些技术的运用大都必须与数据库编程语言或其他编程 语言结合起来通过对数字化语料和原有语言知识进行排比对照分析来生成新 的语言知识 1.3.2 新的方法xml标注语言 1.3.2.1 语言研究需要标注技术 计算机原本是数值计算的工具后来虽然也可以处理文档但这种处理仍然 是二进制数值的计算现在学者最常用的计算机功能就是全文检索检索结果显示 的是字词句子但计算机不过是在对字符的编码进行匹配对记录字符串的数 值进行运算计算机并不能懂得文档的内容知识不能处理知识计算机就不 能用来进行学术研究要使计算机理解文档内容可以采用标记tag对文档 内容进行标识 39这种标识应该是能够由语言研究者自主定义的 可根据需要随时 扩充其标记虽然关系数据库技术出现后可以将文档的内容分析为字段和记录的 形式加以存储也在某种程度上实现了内容的可理解但是数据库一方面依赖于特 定的软件管理系统另一方面它又肢解了原文档内容的整体性降低了语言学典籍 10 的可读性特别是大量的汉语史文献其文档结构为立体型如用关系数据库存储 将不得不建立多个数据库表进行关联如此程序的编写和语言知识的提取分析都将 不胜其烦所以汉语史研究引入一种自定义的面向纯文本的能存储结构化数据 的标注技术就显得非常重要了 1.3.2.2 xml标注语言简介 x m l ( e x t e n s i b l e m a r k u p l a n g u a g e 可扩展标记语言) 正是符合我们要求的一门 创建结构化数据的技术它是标准通用标记语言s t a n d a r d g e n e r i c m a r k u p l a n g u a g e s g m l 的一个子集最新版本为 1 . 0 第二版由 w 3 c w o r l d w i d e w e b c o n s o r t i u m 于 2 0 0 0 年 1 0 月建议x m l 与其说是一种语言不如说是一种元语言 即一种使用标签存储结构化数据的规范 x m l 将加了标签的数据保存在标准的文本文 件中可以使用任何的文本编辑器比如 w i n d o w s 操作系统自带的记事本应用程序 来读取和编辑 x m l 文件x m l 是可扩展的这意味着在创建 x m l 文档时不会局限于 一套预先定义的标签而可以根据你自己的需要创建所需要的任何标签如我们汉 语史研究独有的会意转注初文或体亦声省声等均可自行定义 39x m l 标准 还提供了一套与这些细节相关的规则 比如如何创建标签 x m l 文档如何结构化 x m l 文档存储的数据虽被加上了标示语义的标签但由于 x m l保持数据存储与数据显示 相分离的原则我们借助标签提取的数据在显示上将相对独立 1.3.2.3 xml技术在汉语史研究中应用 在汉语史研究中 我们应用 xml 技术包括了文本的生产数据建模文本标注 属性提取文本转换以及应用程序接口的编写等工作 汉语史的研究材料首先是古代文献目前大量的古代文献已经被录入电脑成为 可资利用的电子文档适合于汉语史研究需要的古籍电子文本至少满足以下几个 要求一纯文本格式二繁体文本三学术质量高 39就目前情况来看 很 多的面向汉语史研究的古籍电子文本还只能由从事语言研究的工作者自己来制作 有了数字化的电子语料下面就要对语料文本的自身结构展开分析为预计生成 的 x m l文档建立数据模型数据模型提供了 x m l文档的逻辑结构的一种表示它指 定文档可以包含的元素以及这些元素之间的关系这种关系往往是一种立体的成树 11 型的结构d t d d o c u m e n t t y p e d e f i n i t i o n 和 x m l s c h e m a是用于指定数据模型 的两种可用技术 比较而言 s c h e m a 是一个更强大和灵活的数据建模工具 x m l s c h e m a 的 w 3 c 的推荐标准叫做 x s d 它可以更加准确地描述文档结构 建立数据模型后我们就可以根据模型对我们的数据进行标注了 标注并加以声明 的文本就是我们需要的 x m l文档大部分情况下x m l都是通过程序来创建的而 m i c r o s o f t w o r d 2 0 0 3 目前也可以创建 x m l 文档 创建的汉语史 x m l 文档由于各个元素都被加上了相应的标签我们就可以按图 索骥从中提取我们需要的元素和知识要从原有 x m l文档中提取转换并显示出 我们需要的元素和信息我们可以利用 x m l的样式表技术样式表有两种即层叠 样式表c s s 和可扩展样式表( x s l ) 目前两种技术可结合使用即用 c s s控制结 果在浏览器中的显示用 x s l 转换 x m l 文档以生成另一结构的 x m l 文档 40 12 2 广雅疏证的建模和数字化 2.1电子文本的生产 广雅疏证电子文本由笔者继同门师兄孙德平完成前半的基础上继续完成所 有文本均系手工录入我们主要以钟宇讯点校中华书局一九八三年五月据嘉庆年 间王氏家刻本的影印本为底本同时还参考了陈雄根标点刘殿爵教授审阅香港 中文大学出版社一九七八年出版的广雅疏证根据万有文库本加墨笔标点而成 文本中错讹的字句我们予以了匡正 该文本系繁体字纯文本能够进行字符串的全文检索并能够供诸位学人根据 自己需要进一步加工或标注 2.2广雅疏证的数据建模 2.2.1广雅疏证文档的结构 广雅疏证文档的结构较为复杂据王氏家刻本分析其全文依次包括序言 正文附录三个部分其中正文部分蕴含着大量我们需要分析的语言学属性初步 分析正文部分是题目逐条疏证循环构成的一个整体单条的疏证语段大致都由 广雅原文王氏疏证构成但也有以原文和疏证独立成段的情况单条的广雅原文 其内部情况纷纭多样但多可析分出被释字组和释字单条的疏证更是不拘一格 颇似一篇篇单独的论文我们的研究目的不一对其可以做出完全不同的分析比 如引书引人王氏系联的关系字组等等都可能构成某条疏证的一个个元素 综合以上种种情况我们画出了广雅疏证文档的树形结构图如图 2.1 13 2.2.2.文档结构树形图 图 2.1文档结构树形图 2.2.3使用xsd schema进行数据建模 2.2.3.1设计标记名 鉴于我们需要提取分析的语言属性语言知识都存储在广雅疏证文档中的正 文部分为了文档结构层次的简洁经济我们拟直接以广雅疏证正文作为我 们的根元素序言和附录暂时被剥离这不会影响我们工作的开展另外由于目 前大量主流软件尚不支持汉字标记我们便采用汉语拼音作为标记根元素及各节 点子元素的标记我们分别定义如下 广雅疏证正文guangyashuzheng 题目 timu 疏证语段duan 14 广雅 guangya 疏证shuzheng 其他备用叶子元素 被释字beishizi 释字shizi 引书yinshu 引人yinren 2.2.3.2编写扩展名为xsd的文件 前面我们提到s c h e m a是一个强大而灵活的数据建模工具x m l s c h e m a的 w 3 c 的推荐标准叫做 x s d 它可以准确地描述文档结构即定义 x m l 文件中允许那些元素 和属性那些元素和属性是必需的那些又是可选的允许的数据种类以及 x m l文 件内容和结构的其他方面使用 x s d建模的成品就是扩展名为 x s d的源文件以下 m y g y s z . x s d文件的源代码代表了上面我们对广雅疏证文档结构分析的成果该 xsd 文件既能够连接到已有的 xml 文档中以验证其文档的有效性也可以作为 模式架构添加到文本编辑器中 以实现 x m l 标记的自动标注 当然我们这里的为 广 雅疏证xml 文档建立的架构仍是粗线条的对于 shuzheng 节点下的子元素有待研 究者根据自己的需要加以定义 mygysz.xsd 文件源代码 15 2.3广雅疏证的标注方法 2.3.1添加架构 新发布 office2003 声称全面支持 xml我们使用其组件中文微软 word2003 作 为我们 xml 文档的编辑器和解析器虽然目前还有大量的处理 xml 文档的专门软 件但它们远不及 word2003 通用易得特别是 word2003 对超大字符集的支持功能 在很多软件中还未实现这也促使我们选择它作为我们工作的软件平台 首先我们用 word2003 打开我们制作的 广雅疏证 电子纯文本 然后在工具 菜单上单击模板和加载项然后单击x m l 架构选项卡 单击添加架 构浏览并找到要添加到架构库中的 x m l 架构 m y g y s z . x s d然后单击打开 在 架构设置对话框中选择所需的选项在别名框中键入架构的名称最后 点击确定完成如下图 2 . 2 16 图 2.2添加架构的方法 2.3.2半自动标注 增加架构后word2003 编辑框右边会出现如下xml 结构任务窗格我们依 次可以在广雅疏证文档中选择相应元素然后在xml 结构任务窗格的选 择一种元素并应用于当前的选定内容框中单击一个元素则完成对该元素的标注 已标注的元素被图 2 . 3所见的红色光带所嵌套标注中或完成标注后如文档结构 不符合架构规则将会在文档中以紫色波浪线标记出来并在xml 结构任务窗 格中报告此违规错误整个标注界面如下图 2.3 所示 17 图 2.3标注的方法 2.3.3生成xml文档 完成标注且通过架构验证的文档可选择文件菜单上的另存为命令保存为 广雅疏证. x m l文档 为保证其他 x m l 的软件也能阅读并处理我们保存为 x m l 格 式的文档数据我们选择仅保存数据的备选项如下图 2 . 4 图 2.4生成 xml 文档 18 2.4广雅疏证的属性提取方法 2.4.1分析研究对象明确提取对象 不同的研究者有着不同的研究目的 不同的研究目的决定他们需要提取汉语史文 档中不同的元素和信息就广雅疏证的研究来看有人研究其中的校勘资料 有人关注其中的引书引人还有的学者希望分析王氏系联的各种字组资料不一 而足这些元素有些是我们在进行基础建模工作时已经分析到的有的则未能考虑 到我们下文研究的王氏父子所系联的同源字组就是上面建模工作未分析的叶子 元素该叶子元素位于疏证节点下我们如要提取它则需要追加部分建模工 作和标注工作 2.4.2检查或完善建模 已经参与建模并标注过的元素可以编写 xsl 文档直接进行提取未加分析的叶 子元素需要在原有的基础架构和标注上追加建模和标注工作广雅疏证 的 广雅 节点和疏证节点下还可分析出多种不同属性的元素如我们欲提取疏证节 点下的同源字系统这一元素现在就需要在原 mygysz.xsd 文件源代码中添加相应内 容以生成的新的架构文件 mygysz 同源字.xsd其源代码如下 19 2.4.3检查或完善标注工作 打开广雅疏证. x m l 文档添加新的架构文件 mygysz 同源字.xsd为未予标 注的同源字元素一一加以标注然后另存为广雅疏证同源字. x m l 文档 20 2.4.4利用可扩展样式表(xsl)实现转换 欲提取 广雅疏证同源字. x m l 文档中的 同源字 元素 可编写 同源字. x s l 文档它与广雅疏证同源字. x m l 链接后可以析取其中同源字元素其源 代码如下 廣雅疏证同源字研究资料 廣雅疏证同源字研究资料 21 一个 x m l文档可以拥有多个与其关联的 x s l t 当我们打开广雅疏证同源 字. x m l 文档时可以选择x m l 文档窗格中的浏览以打开同源字. x s l 文档其转换结果如下图 2 . 5 22 图 2 . 5 样式表转换结果 23 3 广雅疏证同源字系统研究 3.1 同族词同源字同源词的区分 对同族词同源词同源字这些术语的界定学术界众说纷纭分歧较多为便 于下面讨论的展开我们做出下面这些界定 同族词同源词同源字都是从发生学的角度对字或词的类聚作的定义 同族词是一种语言内部由源词及其孳生词 或同一来源的若干个孳生词构成的词 语类聚据张博先生的归纳同族词有三个特点1同族词存在于一种语言内部 而非存在于若干亲属语言之间2同族词是单语素词语音变转或词义衍化的结果 是孳乳构词的产物其中源词和孳乳词都是单语素词3同族词关系既指源词与孳 生词之间的关系也指同一源词的孳生词与孳生词之间的关系 41王宁先生首创同 族词义素分析法把同族词的义位切分为两部分即源义素含有词义特点和类 义素含有词义类别同族词的类义素是各不相同的而源义素或核义素是完全相 同的或相关的 42王力的同源字 陆宗达王宁殷寄明等人的同源词与我们的同 族词是一个概念 同源词指称亲属语言间存在音义对应关系的来源相同的词 这一术语原产生于印 欧系语言的历史比较研究中我国民族语言工作者也利用同源词这一术语来研 究包括汉语在内的汉藏系语言间有共同来源的词与此同时专门从事汉语研究的学 者也采用该术语指称汉语中有同一来源的词这里我们采用严学宭先生的观点用 同源词来指汉藏语系亲属语言间来源同一的词而另用同族词这个术语来 指汉语内部具有同一来源的词 43 同源字指称一种语言内部记录同族词或单个词的文字类聚 王力的同源字不是我 们谈论的同源字他的同源字我们称之为同族词同族词的书写文字都是同源字 但同源字不一定都是同族词二者有着本质的差别同族词是语源相同而又各有特 殊条件各自独立的语词两个或多个文字长期或在某一历史时期记录了同一个语 源甚或同一个语词无论在语词上是属于同一个或属于多个这些文字我们统统归 24 入同源字依此异体字古今字通假字以及记录同族词的书写文字等等我们 均可以称之为同源字处于一个词族系统中的同族词其角色是单一的它处于某 词族中同时也就被排斥于其他词族以外而处于一个同源字系统中的同源字其 角色却可能是多元的它不光属于该同源字系统还可能属于另外一个同源字系统 如某些同形字 44 3.2 王念孙疏通了同源字系统 王念孙的疏证可以从历时平面和共时平面两个角度去观察从共时平面观察王 主要疏通了同义词上下位词词义系统从历时平面观察王主要疏通了同源字系 统我们这里只从历时平面考察对共时平面拟另撰文研究 王念孙的疏证意在疏通古汉语的同源字系统该系统从层次上可分为异体字系 统通假字系统同族词系统三个子系统其中异体字系统和通假字系统发生于一 个词的书面系统内部属于文字学研究的范畴同族词系统则发生于一个词族的内 部属于词源学词汇学研究的范畴但其同族的关系仍通过其书写文字得以反映 其关系见图 3.1王念孙与其前代语言学家一样习惯于以书面的字作为研究的基 本单位而从单个字出发进行观察则构成上述三个子系统的书面的诸要素均对应 一个共同的语源王求其同存其异故而在疏证中对上述三者的区分不甚严格而 是近乎作为一个整体来加以论述的下文采集王念孙疏证中的材料及其他一些 文献资料分别论述以上三个子系统分析它们的特点和关系 图 3.1同源字系统 25 3.3 异体字系统 3.3.1异体字概说 异体字就是人们为同一个词造的彼此音义相同而外形不同的字 古籍用字的显著 特点就是常用异体字古人将异体字分为正体或体古体俗体简体以及讹体 异体与正体异体与异体一般都不是同生同灭的其间的同词异形关系往往只存在 于某个特定的时代我们只有以历时的眼光来看待异体关系才能比较正确地认识 其本质 45异体字不同于通假字 异体的字与字之间字音和字义重合只是形体不 同这种不同是由于采用不同的造字法或采用不同的形符声符或改换偏旁的 位置而形成的严格地讲只有用法完全相同的字也就是一字字位的异体 才能称为异体字但是一般所说的异体字往往包括只有部分用法相同的字王氏父 子疏证的同样是这种广义的异体字 这种用字的歧异大量地存在于不同的古籍中 46 异体字是同一个语词的多个记录文字它们所记录的语源是同一个我们因此把它 们归入同源字的关系 3.3.2王念孙解说异体的条例 王氏在疏证中训释异体字时所用的术语主要包括以下五大类l亦作类 2同类3字异而义同类4声义近同类5通类其中以 亦作和同两类来解说异体关系的最为常见而一组异体兼采两种以上解说 方式的情况也很常见下面分别举例 1以亦作来解说异体关系的 释诂抍收也疏证抍者取之收也字亦作拯 按抍与拯为异体字抍与拯广韵并音蒸为同音说 文抍上举也文选陈琳为袁绍檄豫州拯其死亡之患李善注引 说文拯上举也抍与拯均为形声字唯声符不同 释器櫌椎也疏证说文櫌摩田器也字亦作耰吕氏春秋简 吾师尉迟治平先生建议仿音位的概念为异体字组建立一个字位的概念依此则所有异体字均可称为字位变体 26 选篇鉏耰白梃可以胜人之长铫利兵高诱注云耰椎也贾谊过秦论 云鉏耰棘矜不铦于钩戟长铩也淮南子汜论训后世为之耒耜耰鉏 高注云耰椓块椎也三辅谓之儓所以覆种也櫌各本讹作扰今订正 按櫌耰为异体字均为形声字唯形符不同櫌从木耰从耒 耒古代为农具形状像木叉 2以同来解说异体关系的 释言樘距也疏证樘衺柱也又云歫也歫与樘 距同 按歫与距为异体字两者同为形声字形符不同止本义为脚 足本义也为脚两个偏旁造字时多有混用与樘也为异体字唯 形符不同说文樘柱也樘即支柱义后引申为为抵拒支持 义该义又写作从足堂声 释诂彟度也疏证彟者说文规蒦商也一曰度也或作彟 引离骚求榘彟之所同今本作矱汉书律厯志云寸者忖也尺者 蒦也彟矱蒦并同 按彟矱蒦三者为异体关系蒦指量度彟中的寻为意 符八尺为寻矱的矢也为意符榘彟连用彟因类化作用而改 换形旁为矢 3以字异而义同来解说异体关系的 释诂啮也疏证者说文啮也或作众经 音义 卷二引 通俗文 云啖曰宋玉 风赋 云啖嗽获史记 灌 夫传云杜门舌自杀佞幸传云邓通常为帝唶吮之淮南子修务 训云咋足以噆肌碎骨并字异而义同 按为异体关系造字方法不同但都指啃咬为 会意字从齿从昔为形声字从齿乍为音符 释诂婾也疏证婾者说文婾薄也周官大司徒云 以俗教安则民不愉论语泰伯篇作偷襄三十年左传晋未可婾也 27 并字异而义同 按婾偷为异体关系同为形声字然形旁不同 4以声义近同来解说异体关系的 释器鬴釜也疏证说文鬴鍑属也或作釜隶省作釜釜与 鬴同声同义而广雅训鬴为釜者古今异字必以此释彼而其义始明 按鬴釜为异体关系均为形声字但音符意符都不同鬴从鬲 甫声釜从金省, 父声 5以通来解说异体关系的 释诂匡满也疏证匡者楚辞九叹筐泽泻豹鞹兮王逸注 云筐满也筐与匡通 按筐与匡为异体字两者区别在于加不加偏旁竹匡本义即盛 东西的方形竹器后人于上再加竹亦指方形竹器匡为筐的古体 释诂取也疏证者说文搤捉也扬雄长杨赋搤 熊罴搤与 通 按搤与为异体字两字同为形声字音符不同即扼厄 声搤益声厄与益古同属影母锡部音相近 3.4 通假字系统 3.4.1 通假字概说 一直以来人们所界定的假借通假这些术语的内涵外延都颇具争议相互矛 盾假借这个术语产生最早它是六书中的一种东汉许慎对假借作的解释是 本无其字依声托字即本来没有记录这个词的字就用一个声音相同相近的 字来记录这个词这就是假借字然较早的郑玄杜预直至清代的王念孙他们所 称的假借字都既包括了本无其字又包括本有其字后人为求区别将本 有其字的用字之假借叫通假字把本无其字的造字之假借称为假借字 近来人们渐渐发现通假和假借的区分其实并不严格因为其间还存在一种本字后 28 造的假借但无论是通假还是假借其实都是用为 a 义造的 a 字来表示 b 义这 种字形与字义分离的表义方式既有临时性的也有一贯性的我们不妨都以通假或 假借统称之 46,47 王氏的疏证中系联的主要是本有其字和本字后造的假借字这也就 是人们平时所理解的狭义的通假字与通假字相对的是本字本字的形音义三 者统一更利于人们解读古籍王引之经义述闻通说下云往往本字见存 而古本则不用本字而用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 重庆黔江区2025年上半年事业单位公开遴选试题含答案分析
- 河北省栾城县2025年上半年公开招聘城市协管员试题含答案分析
- 2025版交通设备采购与专业维护合同
- 2025版外聘讲师企业人才培养合作合同协议书
- 2025对公账户个人消费贷款合同规范范本
- 2025版暖通工程安全风险评估与应急预案合同
- 2025年度房地产中介加盟业务培训及咨询服务合同范本
- 2025版自动驾驶汽车软件合作协议范本
- 2025年度校园食堂餐饮供应合同
- 2025店长聘用协议:时尚产业店长选拔与聘用标准
- 知道网课智慧《睡眠医学(广州医科大学)》测试答案
- 糖尿病医疗广告宣传指南
- T CEC站用低压交流电源系统剩余电流监测装置技术规范
- python程序设计-说课
- ISO15614-1 2017 金属材料焊接工艺规程及评定(中文版)
- 国际金融(第七版)全套教学课件
- JJG 677-2006光干涉式甲烷测定仪
- 甘肃省天水市2024年事业单位考试A类《职业能力倾向测验》模拟试题含解析
- 中小学德育、班主任工作培训课件
- 小米公司物流与供应链管理案例分析课件
- 《工业视觉基础知识》课件
评论
0/150
提交评论