纸质印刷本古代文献转换成汉语史语料库的实践_第1页
纸质印刷本古代文献转换成汉语史语料库的实践_第2页
纸质印刷本古代文献转换成汉语史语料库的实践_第3页
纸质印刷本古代文献转换成汉语史语料库的实践_第4页
纸质印刷本古代文献转换成汉语史语料库的实践_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

纸质印刷本古代文献转换成汉语史语料库的实践

20世纪90年代以来,中国历史语言材料的数据库已成为中国科学家不可或缺的学术工具。第一个文本收集对应于各种古代文献的电子书,只支持简单文本阅读。随后出现了可以进行字、词、句单项或组合检索的文本数据库,流传较广者如《二十五史全文阅读检索系统》、国学宝典等。也出现了一些基于扫描技术的图像版古籍数据库,由于没有对图像进行OCR识别,用户难以进行全文检索。随着图像处理和超链接技术的迅猛发展,支持分类检索、书名检索、著者检索、全文检索等多种检索方式的图像与文本对照的数据库陆续问世,著名者如文渊阁《四库全书》《四部丛刊》全文检索系统、中国基本古籍库等。近10年来,为了满足汉语研究的需要,学界开始尝试建设深加工的标注型语料库,具体工作包括对古代文献进行词语切分,并添加词性、义项、语法地位标注等多方面信息。以董志翘教授主持的国家社科基金重大招标项目“深加工中古汉语语料库建设研究”为依托的中古汉语语料库(MCC),就是其中的尝试之一。MCC课题组选取“既能从整体上反映中古汉语的真实面貌,又能够展示中古汉语局部的各种比较突出的特点”的中古文献,包括正史作品8种,约420万字;子部作品如汉译佛经、佛道文献、笔记小说、医农杂著、诗歌40种,约490万字;敦煌吐鲁番文献、碑刻文献等出土文献约80万字。上述入库文献共约1000万字。在确定入库文献的版本并进行反复校勘之后就进入了文本处理环节。在此基础上对入库语料进行词语切分并标注其词性、义项、语法地位等语言学信息。在文本处理这一环节,由于历代文献材料中大多包含着一些并无实际意义也不具备任何研究价值的冗余材料,如作者及其身份的重复标记、行文卷数的交叉标记等;也往往搀杂了一些学界公认的后代注释材料;还有一些材料虽然具有一定的研究价值,现有的语料库技术手段却难以准确反映,或者极大地增加语料库操作层面的难度,或者可能对语料库未来的用户体验产生过于负面的影响,等等。因此,需要对入库文献的转录文本进行相应的技术处理,以形成最终的语料文本。本文拟以中古汉语语料库中文本处理的基本思路、具体方法为中心,结合汉语史、文献学相关理论以及语料库建设的实际操作过程,对汉语史语料库的文本处理问题展开探讨,希望得到方家同行的指正。一、语料性质完全相同中古文献往往采用正文与注释材料并列的行文方式。两者的界限最初是泾渭分明的:正文采用单行、大字的形式;子注则紧随其后,双行书写,从正文与子注的关系看,正文无疑是全文的主体部分,子注则是对正文内容的延展,主要包括与正文内容相关的文献材料,对正文的进一步解释、说明,对正文中疑难字词的音义注释等。在后来的辗转传抄过程中,不少文献的正文与子注逐渐变得相互混淆以至难以分辨,这种现象在《洛阳伽蓝记》《水经注》中尤为突出。从语料性质看,正文显然出自作者之手,属于典型的中古语料。对正文内容进行补充、解释、说明的子注,大多出自作者之手,同样也属于中古语料;对疑难字词进行音义训释的子注,情况比较复杂,有可能是作者的附注,也可能是当时或者后来的读者添加的,现在已经很难分清了。不过,就音义材料的篇幅而言,与正文以及其他子注相比,几乎可以忽略不计。例如:凡谷,成熟有早晩,苗秆有高下,收实有多少,质性有强弱,米味有美恶,粒实有息耗。早熟者苗短而收多,晚熟者苗长而收少。强苗者短,黄谷之属是也;弱苗者长,青、白、黑者是也。收少者美而耗,收多者恶而息也。(《齐民要术·种谷》)案:大字部分是《齐民要术》的正文,夹文小注是贾思勰的自注,进一步解释谷物成熟的早晚、苗杆的长短与作物收成之间的关系,二者显然属于同时代材料,语料性质完全相同。客有问陈季方:《海内先贤传》曰:“陈谌字季方,寔少子也。才识博达,司空掾公车征,不就。”“足下家君太丘有何功德而荷天下重名?”(《世说新语·德行》)案:大字部分是南朝宋刘义庆《世说新语》的正文;夹文小注出自南朝梁刘孝标之手,引用《海内先贤传》补充陈季方的基本情况。宋梁两朝相距不远,正文与夹文小注均属南北朝语料。昆仑墟在西北。三成为昆仑丘。《昆仑说》曰:昆仑之山三級,下曰樊桐,一名板桐;二曰玄圃,一名阆风;上曰层城,一名天庭,是为太帝之居。(《水经注·河水》)案:大字部分是《水经》原文;夹文小注则是郦道元引用其他文献材料对《水经》的注解,也就是《水经注》正文。其中存在相当严重的经、注相混现象,不少段落甚至完全无法分辨。由于注文篇幅远远超过《水经》原文,可以把二者暂时都视为中古语料。九功既歌,六代惟时。被徳在乐,宣道以诗。穆矣太和,品物咸熙。庆积自远,告成在兹。右《肆夏》乐歌四章。客入,于四厢振作《于铄曲》。皇帝当阳,四厢振作《将将曲》,皇帝入变服,四厢振作《于铄》《将将》二曲。又黄钟、太蔟二厢作《法章》、《九功》二曲。(《宋书·乐志二》)案:大字部分是《宋书》原文;夹文小注是编纂者记述的乐歌演奏过程。由于《乐志二》重在记录乐歌的歌词,与歌曲有关的演奏过程就被当作补充材料而采用了双行小字的书写形式。它们的语料性质则是完全相同的。稻苗渐长,复须薅。拔草曰薅,虎高切。薅讫,决去水,曝根令坚。(《齐民要术·水稻》)案:“拔草曰薅”是薅字的释义,“虎高切”是薅字的反切注音。类似的音义材料,究竟出自贾思勰或者同时代人之手,或者是后人添加的,现在已经无从查考,因而难以判断其时代性。基于上述分析,中古汉语语料库处理正文的注释材料时,采用了王晓玉《论中古语料库古籍电子化相关问题》所描述的三种具体方法:(1)对正文进行补充、解释、说明的作者自注,视为与正文性质相同的语料,在每段注释材料的起止位置,分别添加符号“[J]”作为标记,需要说明的是,与其他的文本型、图文型语料库相比,作为标注型语料库的中古汉语语料库处理夹文小注时遇到了更多的细节问题,目前的一些操作规定,只能算是暂时性的应对策略,今后的汉语史语料库也许能够找到更为合适的处理方法。如:东京兆寄治荥阳,领长安、汉旧县、万年、别见。新丰、别见。蓝田、别见。蒲阪二汉、晋《太康地志》属河东。凡六县。(《宋书·州郡志二》)案:夹文小注是作者对部分地名做出的补充说明,属于《宋书》原文不可分割的组成部分。这种行文方式在中古史书文献中最为常见,在其他文献中则主要是针对疑难字词做出的音义训释,如:《齐民要术·种谷》:“以汁和蚕矢、羊矢各等分,挠呼毛反,搅也。令洞洞如稠粥。”在文本型语料库、图文型语料库中,这种现象并不存在太大的问题。中古汉语语料库需要进行词语切分、义项及语法地位标注,就有可能造成词语或句子成分的前后割裂。以上边的两个句子为例,程序软件会把“蒲阪二汉晋《太康地志》属河东”“挠呼毛反搅也令洞洞如稠粥”识别为两个句子;如果在“蒲阪”“挠”的后边添加标点符号,它们又分别变成了独立的句子,“令洞洞如稠粥”则成了另外一个句子。无论哪种处理方式,显然都违背了汉语词汇、语法常识。在加注标点符号的现代整理本中,目前也有不同的处理方法,中华书局出版的《宋书》校点本在“长安”“万年”“新丰”“蓝田”后边都加了顿号,“蒲阪”后面却没有添加标点符号,略显矛盾;缪启愉《齐民要术校释》所采用的“挠呼毛反,搅也。令洞洞如稠粥”,从整体上看应该更为合理。中古汉语语料库针对夹文小注的各种情况,采用了下述处理方法。(1)注释材料的字号均比正文缩小一号,以显示两者之间的差别;(2)注释材料的起止位置,分别添加“[J]”,将它和前后正文隔离开来;(3)有可能造成词语或句子成分前后割裂的音义注释材料,被释字词的后面不加标点符号,[]里面的音义注释材料句尾也不添加标点符号。上述句子的处理结果分别为:“东京兆寄治荥阳,领长安[J汉旧县J]、万年[J别见J]”,“以汁和蚕矢、羊矢各等分,挠[J呼毛反,搅也J]令洞洞如稠粥。”除了夹文子注,如何看待、处理古代文献中的附属材料,也是中古汉语语料库的一个重要问题。在中古文献的流传过程中,历代传抄者往往出于各种目的,自行添加一些与正文内容有关的附属性文字。从语料本身的性质、价值看,这些材料虽然无法与原文相提并论,它们和原文之间却存在着一定的关联性,因此,中古汉语语料库不能采取一律删除的办法,而需要根据具体情况采用不同的处理方式。1.《太平天国经》下的《标准化经》在古代文献流传过程中,部分句子、段落、篇章的漏失甚至全文的亡佚,是一个极为普遍的现象。幸运的是,其中的一些文字由于其他文献的征引而存留至今。古人征引他人文献时,往往对原文进行各种各样的加工,如,改换其中的部分字词,仅仅转引其大意而非照录原文,甚至可能故意造假冒充原文等。经过历代学者的钩稽,得到了中古文献的不少佚文材料。在现代的校点、整理本中,通常会附录在原文的相应位置。如:[存]甲部第一云:“学士习用其书,寻得其根,根之本宗,三一为主。”《道教义枢》卷二《七部义》及《云笈七签》卷六《四辅》引。(《太平经》甲部)案:中古汉语语料库中的《太平经》以中华书局出版的王明《太平经合校》为底本。这段材料中,“[存]”后面的文字是从其他文献中钩稽出来的佚文及其具体出处,如凡例所说,“《太平经圣君秘旨》及他书中往往引有《太平经》之佚文,凡知其在经卷之地位者,则分别依上三例校订之。其地位失考而知其卷数者,则附存卷末。仅知其帙数者(每部十七卷为一帙),则附存帙末。若卷帙均不知者,则附存全书之末。”诸如此类的佚文材料,虽然具有一定的学术价值,却可能夹杂着一些窜改、伪托的成分,并不能完全等同于中古文献。因此,中古汉语语料库对《太平经》的收录、加工,同样采用了比较审慎的处理方法:收录时保留这些佚文材料,按照与正文相同的方式进行切词、标注,同时在它们的起止位置添加“存某书某篇”之类的说明性文字。当然,也可以根据语料库的设计框架添加统一的符号性标记。2.标记性文字的使用中古文献的正文之外,大多包含着一些与正文内容相关的标记性文字,主要包括书名、篇名、作者以及卷数序号等,大致可以视为不同层级标题的组成部分,如《洛阳伽蓝记》《齐民要术》每卷的卷首都有“后魏抚军府司马杨衒之撰”“后魏高阳太守贾思勰撰”以及文献名称、具体卷数等字眼,每篇的开头也有篇名及其在全书中序号的说明。中古汉语语料库把各级标题中的这些说明性文字统统视为标记性附属材料,仅仅保留原文,不做其他切词、标注工作。因为卷数序号基本上不具备汉语史研究价值,时代、职衔及作者姓名则是后人添加的,同样也不具备汉语史研究价值。中古文献的正文中,还会有一些比较特殊的标记性文字,通常也采用夹文小注的形式,其内容与正文密切相关,但又不能完全等同。如:别日何易会日难,山川悠远路漫漫。(一解)郁陶思君未敢言,寄书浮云往不还。(二解)涕零雨面毁形颜,谁能怀忧独不叹。(三解)耿耿伏枕不能眠,披衣出户步东西。(四解)展诗清歌聊自宽,乐往哀来摧心肝,悲风清厉秋气寒,罗帏徐动经秦轩。(五解)仰戴星月观云间,飞鸟晨鸣声可怜,留连顾怀不自存。(六解)(《宋书·乐志三》)案:这是曹丕《燕歌行》的歌词。其中的“解”,表示古代长篇诗歌、乐曲的章节,“一解”就是第一次奏乐,“二解”就是第二次奏乐,依此类推。另如曹操《苦寒行》“北上太二行二山二,艰二哉二何二巍二巍二”等歌词中的“二”,表示字、词、诗句甚至若干句歌词的复奏或复唱,也就是说,奏唱时需要重复“二”前面的字、词、句。如清人赵翼《陔馀丛考·重字二点》:“凡重字,下者可作二画;始于《石鼓文》,重字皆二画也。后人袭之,因作二点;今并有作一点者。”这在中华书局点校本《宋书》中曹操《秋胡行》的注释也有大致相同的解释:“古人凡重字,下一字可作二画。石鼓文凡重字皆作二画,盖其滥觞。此篇每一字之下作二画者,其读法犹若音乐中之复奏。”一解、二解以及表示重字的“二”,虽然作为夹文小注附在歌词之后,却不能算是歌词本身,更不能视为古代文献中的重言词。从严格意义上说,这些文字材料仅仅相当于一些特殊的提示符号。即使与纯粹的音义注释材料相比,其汉语史价值也是微乎其微的。如果中古汉语语料库保留这些标记性文字,就需要根据其特点、性质分别设计不同的符号。这样的处理,不仅增加了语料库的结构层次,而且也加大了语料甄别的工作量及难度,更重要的是它们并不具备汉语史研究价值,因此,中古汉语语料库原则上删除了诸如此类的标记性文字。二、汉字信息处理古代文献的用字情况纷繁复杂。对于中古汉语语料库而言,除了繁简字、古今字、假借字、异体字、正俗字、避讳字、缺字、生僻字等比较常见的古代用字现象,还要解决古代文献向入库文本转换过程中的诸多难题,如字库未收字、新旧字形、纸质印刷体与电脑字库的不同、大陆与港台地区繁体字的差异、类推简化的范围等。为了便于表述,本文把一个字在各个历史阶段的不同写法统称为“异形字”。这样,中古汉语语料库的文字问题,自然而然地就简化成了两个大类:一是各种情况下出现的异形字;二是在古代文献中出现、电脑字库中不存在的字库未收字。相对而言,后者主要涉及电脑造字、语料库显示以及原文图像与所造之字如何关联等问题,基本上属于技术与操作层面的问题,处理起来并不是非常困难。也就是说,最大的难题在于如何处理异形字。因为中古文献中的不少异形字问题,同时涉及到了多种比较复杂的用字现象,必须根据具体情况分别进行处理。在纯粹的基于扫描技术的图像版古籍数据库中,完全保持了古籍的原貌,自然不存在复杂的文字问题,但是,在目前的技术条件下,这样的数据库很难满足用户的检索需求,对于汉语史研究并没有太大的实用价值。现有的各种图像与文本对照数据库以及标注型汉语史语料库,都不可避免地受到了文字处理方面的困扰。如文渊阁《四库全书》全文检索系统就存在不少无法显示的空字,如《齐民要术·小豆》文例:熟耕耧下以为良,泽多者耧耩漫掷而劳之,如种麻法。未生白背,劳之极怪。漫掷犂案:这里的两个符号“ue7e8”,在图像版《四库全书》检索系统中表示空字,纸质版《四库全书》原文均为“这几个字符实际上包含着两个层面的问题:前者在图像版中完全不能正常显示;后者在图像版中能够正常显示,转换后却无法正常显示。两者可以统称为汉字信息处理过程中的乱码现象,如尉迟治平《电子古籍的异体字处理研究》所说:“电子文献中的汉字,只是数字的显示形式。刻写汉字包括形音义三要素,数码汉字包括码形音义四要素。因此,二者的处理机制不同,前者由人脑处理,后者由计算机处理。”“数码汉字在计算机屏幕上显示的是字形,在系统里储存的是数字。码点相同即使形音义不同,计算机也作为同一汉字处理,反之,码点不同即使形音义相同,计算机也作为不同的汉字处理——这就是所谓‘乱码’”。作为标注型语料库的中古汉语语料库,主要用于汉语词汇、语法等领域的研究。现有的图像文本型语料库,设计原则总体上是尽可能保存古籍原貌,如祝敬国《古籍语料库字体与结构研究》所说:“在古籍电脑化中可以利用电脑的多媒体技术,把古籍原始的书刻印刷状态以图象方式存储到电脑中。当信息输出时,以文字反映古籍的文献内容,以图象反映古籍的文物内容。这样,古籍的原始字体字形(包括避讳等因素造成的字形变异)等书刻特征就得到了完整的融汇。”甚至还要试图保存“古籍的装帧、收藏家印鉴、题跋、批注圈点等体现文物价值的图象内容”。中古汉语语料库中的各种用字现象,按照下述思路分别予以相应处理。第一,以文字处理而非图像处理为总体目标,原则上不强调古籍外在形式的真实,重在整理一个新的较为可靠的版本,为汉语词汇、语法研究提供内容真实的语言材料。用户可以通过电脑阅读文本,更重要的则是通过计算机进行处理。文献学所需的校勘、版本、辨伪等功能,文字学所要求的呈现各个共时平面的汉字原始形貌、不同历时阶段的字形演变情况,以及文物学领域的保存古籍原版的纸张、色泽、书法等实体信息等,中古汉语语料库通常不予考虑。第二,字形的选择设立三个不同的优先层级。一级字形:以2013年国务院颁布的《通用规范汉字表》及其附件《规范字与繁体字、异体字对照表》,作为中古汉语语料库用字的标准字形。第三,字形的归并原则。中古汉语语料库使用繁体字,《通用规范汉字表》所附《规范字与繁体字、异体字对照表》之外的繁体字,使用《四库全书》中最为常用的字形。具体操作方式如下:1.王宁县某市清理书“异汉字”的构字分类分为异写字、异构字两种情况。如果是出于书写者、刻版者个体习惯而造成的字形细节差异,包括线条、笔画方面的临时变异,即王宁《计算机古籍字库的建立与汉字的理论研究》所说的“异写字”,如果字的结构和造意发生了变化,主要是指历代不同形体的汉字积淀到后代而产生的若干字形,即王宁所说的“异构字”。这种类型的异体字,中古汉语语料库采用了王东海《古文献数字语料库的异形字处理》提出的处理方法:根据各个字形的使用频率,在多个形体中确定一个字形作为标准体,在语料库中进行置换,也就是说废除了标准体以外的其他字形。具有多重身份的异体字,即所谓“一对多”的异体字,采用杨应芹《关于古籍整理中异体字的研究》提出的处理方法——根据该字在具体文献语境中的意义,改为相应的通用字形。2.网格化后的后形中古汉语语料库中的文本,原则上完全转换为繁体字。其中存在一些比较特殊的情况:一部分现代的简体字,其字形的产生时代可能早于繁体字,或者在时代性方面存在一定的交叉,或者难以准确判定繁、简字形产生的时代,统一改为常用的繁体字。一部分现代的简体字,其字形对应着古代的多个繁体字,也就是通常所说的“一对多”现象,根据字的意义、用法改为相应的繁体字。尤其需要注意的是,地名、人名等专名中的字,纸质文本如果用的是简体字形,必须维持其原貌而不能改为繁体字。这是因为古代的两个字,现代简化成了同一个字。如,古代地名“武强”,不能改为“武彊”;用作姓氏的“仇”,不能改为“雠”。部分繁体字的字形,大陆地区和港台地区存在细节性差异。文本转换之后,如果电脑系统使用的是港台地区的繁体字,则统一改为《通用规范汉字表》所附《规范字与繁体字、异体字对照表》中列出的字形。3.古今与借用保

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论