




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
字频视角的古文字“四书”分布发展研究 字频视角的古文字“四书”分布发展研究刘志基(华东师范大学中国文字研究与应用中心,上海200062)摘要就整个文字系统的历时演变来说,四书中呈直线变化且变化程度较为显著的是象形和形声,前者历时减量,后者历时增量,最终互换了在总字形数和总字频中的主体位置,其字频统计远低于字形统计的增减幅度,更加真实地显示了文字结构的发展速度。会意自西周金文较甲骨文有较大增长后即在字形系统中占据相对稳定的比重,同样体现了正常发展轨迹。只有指事的比重发展缺乏规律,表现了结构发展的某种复杂性.关键词字频;古文字;四书中图分类号h122文献标识码a文章编号1001-5442(2009)04-0054-10字形表达文字本义的构成方式,一直是文字学研究的基本问题。自许慎首创“六书”体系以来,历代学者多有相关论说。大体来说,古代学者多恪守“六书”总体框架,发展也就是在这个总框架的基础上加以细化、完善而已。而现代学者每每试图颠覆“六书”这个基础,总体来说,目前学界对结构理论框架的新探讨还没有形成一个得到普遍赞同的定论,而许慎首创的“六书”理论虽然每每受到古今学者批评,但明清学者在其基础上形成的“四体二用”之说迄今仍然得到较多的认同。值得注意的是,近年来,人们开始把汉字结构研究落实到某一具体断代的汉字中,注重各结构类型字形的数量统计,进而揭示其总体结构状况。在这种研究中,先秦时段的出土古文字因其时代较早而得到了更多关注(具体述评详见后文)。这无疑是一种更加务实的研究,基于这种研究的积累,汉字结构理论框架的科学构建或许可以获得比较坚实的基础。然而,此类既有研究显然还有进一步的发展空间.作为结构研究对象的字形,可以有两种存在形式,一种是静态储存性的,如字典所收的字目,其特征是所有字形一律只有一次露脸的机会;一种是动态使用性的,如文章、书籍用字,其特征为字形是按其出现次数重复计算的。既有相关古文字结构的研究都是以前者为对象的(以下简称为“字形角度研究”),而以后者为对象的探索(以下简称为“字频角度研究”)迄今尚未有问津者。毫无疑问,字形的上述两种存在形式是有差别的:前者是经人工整理才得以呈现的状态,后者则保留着文字原始的存在状态。所以,至少对于揭示文字系统原生的结构状态而言,字频角度的研究能够呈现更加真实的信息。鉴此,本文将从字频的角度,通过殷商、西周、战国三个时段汉字的“四书”分布状况的调查统计及相互比较,来描述先秦汉字结构的发展,进而尝试揭示其中内在规律.在进入正题的讨论之前,有必要就如下几个问题作简要说明:首先,仅仅调查分析“四书”,理由固然可见前文相关研究的评述。但在另一方面,作此种选择,并不意味着我们认为“四书”可以完全概括汉字结构类型。事实上,无法纳入“四书”框架的结构类型已多被人们揭示,本文将视线的直接落点锁定于“四书”,只是为了将研究限定在目前更具可行性的有限范围内。至于古文字其他结构问题的探讨,并不视为本文的任务.其次,字频视角的“四书”研究是需要一定条件的,这种大致上可以概括为技术的和学术的两个方面。就技术而言,相关古文字材料必须得到数字化的处理,否则,以人工计数为基础来完成字频研究,仅仅存在理论上的可行性。就学术而言,则是被统计文本的用字正确和统一,能够反映最新研究水平。客观来说由于字频研究需要以巨大字量的文本为对象,而古文字材料一方面至今尚未得到电脑通用字符集的支持进而导致数字化处理的诸多盲区,另一方面又在考释研究方面存在不少分歧甚至盲点,要满足这两方面的条件绝非易事,凭借个人力量去完成相关工作更无可能。这也就是字频角度结构研究迄今尚为空白的重要原因所在。本世纪以来,笔者先后主持了多个以古文字数字化为内容的研究课题,经课题组近10年的不懈努力,才营造了可以支持字频研究的基础平台。作为该基础平台组成部分及本文数据来源的各古文字数据库均经过如下几个方面的加工处理:依据最新资料公布完成材料汇集;根据考释研究的最新进展完成释文校订;对释文用字进行符合数字化处理要求的统一整理,并对集外字逐个造字形成字体支持,进而将经过整理的释文输入数据库,实现其全文检索功能;逐字进行“四书”的标注。因此本文的研究,得益于课题组团队的集体努力的支持,特此说明.第三,具体字形的“四书”判定是本文讨论的基础,而“四书”类型判定的标准学界尚未取得完全一致,故有必要择其容易形成分歧的若干问题简单说明如下:1,关于“象形”,本文依从象形均为独体的观点,所谓“合体象形”,如段注所言“箕”者,本文视为形声;“眉”者,其中之“目”视为依附性构件,与眉的形象组成一个不可分割之独体。2,关于“指事”,只认定有抽象指示符号者,或单纯由抽象指示符号组成,或由象形符号与抽象指示符号合成,抽象指示符号可以表示种种抽象意义,也可以标志区别性,且两种指事字均视为独体。“乏”、“屰”之类借助象形符号变化表示本义者则视为象形。3,关于“会意”与“形声”:前者为两个或两个以上单纯表义或表形字符组合者;后者为两个或两个以上组合字符中有标音功能者.第四,字频的研究,难免涉及海量的材料及验证数据,由此而引发如下两个问题:其一,相对其他材料,古文字材料有着较多考释未定或未有考释者,故大范围地引用材料,便也加大了引证失误的几率。我们的应对方略是,在全面吸收学界最新研究成果的基础上认真审核材料,对尚无确释的材料加以排除。事实上,在整个研究过程中,这项工作要占工作总量的绝大部分比重。即便如此也不能确保避免所有问题,但对于系统材料提供的巨量数据而言,个别问题不至于影响大局。其二,以传统论文形式的纸张载体,一般是难以胜任承载验证研究结果的海量数据的,本文的应对方略是,论文本身一般只给出最核心的材料数据,而将相关验证材料挂在网上,作为本文的网络附录,供读者查验。后文凡标明“网络附录”者,均属此类。一、殷商甲骨文“四书”分布及其初步分析鉴于可行性要求,我们首先根据统计学的抽样原则,限定了材料范围,确定小屯南地甲骨(下文简称屯南)和花园庄东地甲骨(下文简称花东)卜辞为字频统计的资料.抽样首先是为了限制材料的量,以便在目前条件下确保材料学术和技术加工的完成。当然,这种数量限制是被控制在实现字频研究目标的可允许范围内的。根据统计学原理,在一个总体为250的例子中,“只要样本量不是太小通常为10或20就够了,统计学理论表明这个分布近似于正态分布。”3p9这也就是说,这两种材料的58544的总字量,可以满足100万以上字量文本的抽样要求,而这个数字,已大大超过迄今所见已经公布的卜辞材料中的字量。其次,因为需要涉及不同时段文字相关数据的比较,而甲骨文总字数相对偏大,抽样也是比较的对应性所要求的.当然,由于材料存在残泐模糊、属于习刻,以及释读尚存在盲点的原因,我们并不能将所确定范围内所有文字毫无遗漏地进行结构分析。在确定的可作结构分析字为范围进行统计,得到如下数据:被分析用字总数为43897,其中象形380个字形,总频次31527;指事54个字形,字频数合计5385;会意319个字形,字频合计4516;形声120字形,字频合计2469。(甲骨文四书分布的字形及其出现频次、各频次具体出处详见网络附录小屯、花东用字结构分析)以上数据按字频统计,象形占总字频数的71.82%,指事占总字频数的12.27%,会意10.29%,形声占总字频数的5.62%.字频视角的“四书”分布观察,虽然是一种全新的研究途径,但其真正的认识价值,却是在与字形统计的同类研究结果相比较中才能得以实现的,而后一种统计并不乏既有研究.2006年郑振峰遵循王宁“汉字构形学”理论,将甲骨文的构形模式分为10种,4p41-44这10种构形模式实际可与“四书”对应,对应后可以得到郑书中关于甲骨文结构的“四书”数据:象形字为271个,占字形总数27.51%,指事字46个,占字形总数4.67%,会意字311个,占字形总数31.57%,形声字357个,占字形总数36.17%。5p1662007年陈婷珠以新编甲骨文字形总表为基础,增补花园庄东地甲骨等新材料,并注重吸取学界考释研究最新成果,确定“甲骨文能进行表词结构分析的单字字形总数共2134个,占甲骨文单字的字形总数的35.84%。其中,象形字字形数为821个,占甲骨文字能进行表词分析的部分的38.47%;指事字字形数为108个,占5.06%;会意字字形数为875个,占41%;形声字字形数为330个,占15.46%。”5p171当然,前文完成的甲骨文“四书”分布的频率统计,也同时完成了不重复字形层面的这种统计,而其相关数据为:象形380字,占总字形数43.53%;指示54字,占总字形数6.19%;会意319字,占总字形数36.54%;形声120字,占总字形数13.75%.纵观以上三种统计结果,不难发现本文的调查数据与陈书的统计结果比较接近,而与郑书的统计结果距离稍大,这或许与郑书的统计主要依据甲骨文字典这一相对陈旧的材料有关。而这种差距,如果相对字频角度的“四书”分布统计结果来看,似乎也可忽略不计了.从比较的对应性考虑,我们就以同一种材料的两种数据加以对比,而它们的差异之大颇为出人意表:象形和指事的比重有较大幅度的上升前者从43.53%上升到71.82%,后者从6.19%上升到12.27%;而会意和形声则有较大幅度的下降前者从36.54%下降到10.29%,后者从13.75%下降到5.62%.上述数据的变化,除了更加准确地呈现了甲骨文各“书”文字投入使用后的真实比重外,还折射了一个极具认识价值的汉字发展史信息:象形、指事字在甲骨文献的动态统计中的比重上升,意味着这两种结构的独体字在甲骨文的常用字集中比其他两书的合体字占据更高的比重,而文字单位之所以取得相对常用的地位是因为它是和语言中相对基本、常用的单位相对应的。一个文字系统中较早产生的文字单位总是和语言中相对基本、常用的单位相对应的,所以象形、指事字也就被证明为甲骨文字集中更具有历史的部分。毫无疑问,会意和形声结构的合体字在甲骨文献的动态统计中的比重下降,也从另外一面说明了同样的问题。由此看来,上述关于甲骨文结构数据的动态变化,是对许慎“先有文后有字”之说所作的一个具有统计学意义的注脚.二、西周金文“四书”分布及其分析根据字频研究对于材料规模和系统性相对苛刻的要求,在西周时段的文字材料中,只有金文能够进入我们选择的视野。虽然我们主要关注的是字频角度的“四书”分布,但为了确定这种分布的本质意义,我们仍然需要以不重复字形角度的同类数据为参照。因此,不妨首先梳理一下后一种分布的既有认识.2003年江学旺对西周时期1706个a类字(笔者按:即已识字或可隶定字)的1753个字形进行了四书分类统计,其结果为:象形224字,占总字数12.8%;指事57字,占3.3%;会意333字,占19%;形声1051字,占59.9%;结构不详88字,占5%。6p312004年张再兴曾以金文编的收字为基础对西周金文1345个字头,2189个字形进行结构分析,其统计结果如下表:7p33观察以上两种统计结果,有两点值得注意:其一,在象形与指事两书的统计上,张为合并统计而江为分开统计,似乎难以对应,但若将江的两书统计合并,可以发现实际与张的统计十分近似;其二,对于会意和形声两书的统计,张、江两种统计有所差异,值得注意的是,对会意和形声的具体确认,实际上确实因人们标准的不同而存在模糊地带的,这或许是张、江两种统计有所不同的原因。可以作为旁证的是,如果将会意和形声两书的统计数据合计,则张、江两种统计又非常接近了。综上,我们可以认为张、江两位的统计本质上并无多大差异.由于字频视角的“四书”分布统计总是要以字形为基数的同类统计为前提的,而既有研究以金文编收字为基础的统计相对目前金文材料的实际公布情况来说显然存在材料不够完整的缺陷,所以,立足最新材料基础重新进行字形角度的“四书”分布统计,对于确定字频角度的同种研究的参照点而言依然不无必要,为此我们研发了商周金文数字化处理系统8(升级版)。西周金文的“四书”统计,即以这个数字化平台为数据基础依托。在材料的分析中,注重吸取学术界最新考释研究成果,选择字形结构比较清晰、学术界对该字的构造及本义有比较明确的认识的字为统计范围,确定可作结构分析重复计算文献用字总数55800,不重复字形3527个。其字形角度的四书分布状况为:象形334字,占字形总数9.87%;指事42字,占字形总数0.95%;会意1037字,占字形总数30.64%;形声1981字,占字形总数58.54%。(字形角度的西周金文四书分布统计数据所涉及具体字形见网络附录西周金文结构分析字形)本统计与既有研究的统计结果相比较,唯一有较大差异是指事一书:既有研究统计的指事比重较大,而本文统计的指事比重较小。究其原因,或有两端:一是不同统计中对指事字的判定标准存在差异,二是本文统计所据字形数量更大,造成指事这一本来就以字形有限为特征的字群在字形总数中的比重下降。据此来看,本文的字形角度的西周金文四书统计,乃是一种总体上与既有同类统计相一致的统计结果,这也就进一步表明,以它作为同范围材料的字频视角四书分布统计的参照系是具有合理性的.字频角度的西周金文四书分布统计所得数据如下:象形,用字频次29074,占用字总数比重52.10%;指事,用字频次1530,占用字总数比重2.74%;会意,用字频次11178,占用字总数比重20.03%;形声,用字频次14018,占用字总数比重25.12%。(字频视角的西周金文四书分布统计数据涉及的具体字形及其各频次出处见网络附录西周金文结构分析字形总量表)这一调查数据,需要通过共时与历时两个层次的综合比较来揭示其认识价值.共时的比较,即西周金文四书分布的字形角度统计数据与字频角度统计数据的比较。显然,从前一种统计到后一种统计,四书类型分布的比重上发生了如下变化:象形和指事的比重有较大幅度的上升前者从9.87%上升到52.10%,后者从0.95%上升到2.74%;而会意和形声则有较大幅度的下降前者从30.64%下降到20.03%,后者从58.54%下降到25.12%.显然,这与甲骨文的同口径统计数据相比较,呈现了高度的一致性,象形、指事字在字频统计中的比重上升,同样意味着这两种结构的独体字在西周金文的常用字集中比其他两书的合体字占据更高的比重.历时的比较,是因为有了甲骨文的同口径统计数据而成立的。而这一比较具有更多角度和层次,因而也蕴含更多认识价值.3 首先,可以分别比较字形角度和字频角度的同口径统计数据。前一种比较表明,从甲骨文到西周金文,象形比重从43.53%下降到9.57%,指事比重从6.19%下降到1.24%,会意比重从36.54%下降到30.64%,形声比重从13.75%上升到58.54%。对此可以做这样一种归纳:从殷商到西周,单纯表意的三书均有不同程度的比重下降,而只有形声有了大幅度的比重上升。而后一种比较则传递了与前一种比较不尽相同的信息:从甲骨文到西周金文,象形比重从7182%下降到51.64%,指事比重从12.27%下降到3.99%,会意比重从10.29%上升到19.68%,形声比重从5.62%上升到24.68%。毫无疑问,这些数据变化,只是体现了汉字在结构层面的发展趋向:“文”的被使用概率的下降和“字”的被使用概率的上升都呈现了较大的变化幅度.虽然两个角度的比较各具汉字发展史的认识价值,但是两者之间的对应数据每每呈现出来的不尽一致之处却不是其中任何一种比较单独所能给予解释的。因此,进一步的比较,即殷商甲骨文与西周金文之间的字形角度与字频角度的四书分布比较的比较也就势在必行了.象形字的比重,从甲骨文到西周金文,字形和字频角度的统计均为下降(具体数据详表1,下同),但下降幅度不同:前者的下降幅度较大,以比重百分点计,西周金文只占甲骨文的21.98%,后者的下降幅度小,同口径数据为71.90%。这表明,该时段的象形字总的演变趋向为数量减少,但就减少的量而言,字形层面的远大于字频层面的.指事字的比重,从甲骨文到西周金文,字形和字频角度的统计也均为下降:前者的下降幅度稍大,西周金文比重百分点只占甲骨文的20.03%,后者的下降幅度稍小,同口径数据为35.52%。与象形字的数量下降相比,指事字的下降有两点值得注意:一是字形和字频角度统计数据的下降幅度都更大,二是两个角度下降幅度的差距小很多。这表明,指事字在该时段的数量减少幅度大于象形,这当与甲骨卜辞的程式化导致的用字集中化相联系。关于这个问题,将在后文详说.会意字的比重,从甲骨文到西周金文,字形角度的统计为下降,西周金文比重百分点只占甲骨文的83.85%,字频角度的统计则是上升,西周金文比重百分点为甲骨文的191.25%。两个角度统计数据呈现了矛盾信息,这无疑是尤需注意的。但不难发现,这一比较实际呈现的信息是:该时段会意字数量比重貌似有限减少,实则为成倍增多,这表明了会意字在西周金文中较之以往更多地进入了常用字集.形声字的比重,从甲骨文到西周金文,字形与字频角度的统计均为上升,前者西周金文比重百分点为甲骨文的431.39%,后者的同口径数据为439.15%。显然,比较呈现了相当统一的信息:该时段形声字数量大增,增加幅度远高于其他结构类型.毫无疑问,以上比较呈现了殷商到西周时段汉字结构发展演变的丰富信息,而这些信息背后每每隐蔽着诸多因素综合作用力的复杂成因,本文将在“总论”部分尝试加以阐述。而其精微之处,或有待今后进一步探求.三、战国文字“四书”分布及其分析字频角度的结构研究,对材料的系统性及数量的丰富程度提出了较高的要求,这就迫使我们无法随心所欲地将战国五系地域文字统统纳入调查的范围,客观地说,能够满足基本条件要求的只有秦简和楚简帛文字材料.1、关于楚简帛文“四书”的统计研究关于楚简帛文字的结构,较早加以系统关注的当推上世纪末李运富的研究,他将楚简帛文字的结构归纳为22种类型并以字形为基数进行了比重统计。9p65-71这一研究虽然不乏启发意义,但并未涉及字频统计的层次,而且存在材料的历史局限问题。因此,重新调查是必须的工作.楚简帛文的四书分布调查,同样必须基于能够包含迄今所公布材料及能够体现最新研究成果的数字化平台来完成,该数字化平台即战国楚文字数字化处理系统10(升级版)。排除其中字形不清及合文等,经过系统的结构分析,最终确定楚简帛文中可以作结构分析的不重复字形共计4411个,实际字频总数为62560,其中象形字203个,总频次15735,指事字51个,总频次8231,会意字549个,总频次13861,形声字3608,总频次24733。(以上数据详见网络附录)这些数据各自在相应总数中所占比重见下表:对此我们依然分别作共时和历时两个层面的分析。共时的比较表明,从字形角度的统计到字频角度的统计,楚简帛文四书各类型的比重为单纯表意三书上升,形声一书下降。具体是:象形,从4.56%上升到25.15%;指事,从1.16%上升到13.16%;会意,从12.45%上升到22.16%;形声,从81.84%下降到39.53%。数据的比较表明:虽然从不重复字形的角度来看,形声字数量已经超过单纯表意的三书的总合,成为了绝对的主体,但是转换到字频的角度来看,形声的主体地位虽然尚且存在,但其比重的绝对值却已下降了一大半,也就是说,从实际文献用字的角度来看,楚简帛文字的主体依然是单纯表意字而不是形声字.历时的比较,则当以相邻的西周金文的同口径统计数据为参照。首先,依然分别比较字形角度和字频角度的同口径统计数据。前一种比较表明,从西周金文到楚简帛文,象形比重从9.87%下降到4.56%,指事比重从0.95%上升到1.16%,会意比重从30.64%下降到12.45%,形声比重从54.98%上升到81.84%。对此可以做这样一种归纳:从西周到战国,象形和会意有较大程度的比重下降,形声有较大幅度的比重上升,而指事只是有小幅度的上升。而后一种比较则传递了与前一种比较不尽相同的信息:从西周金文到楚简帛文,象形比重从5210%下降到25.15%,指事比重从2.74%上升到13.16%,会意比重从20.03%上升到22.16%,形声比重从25.12%上升到39.53%。毫无疑问,在字频的层面上,比重下降的只有象形一书,而另外三书的比重均有增长,从增长的幅度和字频绝对值来看,形声无疑是增长量最大的。由此反观字形角度会意呈现为比重下降的统计数据,不难发现其中存在的假象.其次,进行西周金文与楚简帛文的字形角度与字频角度的四书分布比较的比较.象形字的比重,从西周金文到楚简帛文,字形和字频角度的统计均为下降(具体数据详表2,下同),下降幅度也大致相同,这表明,该时段的象形字在字形层面和字频层面发生了同比的数量下降。值得注意的是,这种发展趋向,与前一时段,即殷商甲骨文至西周金文相同.指事字的比重,从西周金文到楚简帛文,字形和字频角度的统计也均为上升:前者的上升幅度较小,楚简帛文比重百分点为西周金文同口径数据的122%,后者的上升幅度较大,同口径数据为480%。而这种发展趋向,与前一时段相反.会意字的比重,从西周金文到楚简帛文,字形角度的统计为下降,楚简帛文比重百分点只占西周金文的40.63%,字频角度的统计则是上升,楚简帛文比重百分点为西周金文的111%。这种两个角度统计数据相互矛盾的情况,亦与前一时段相同,说明在这一时段,会意字进一步在常用字集中占据了更多的位置.形声字的比重,从西周金文到楚简帛文,字形与字频角度的统计均为上升,前者楚简帛文比重百分点为西周金文的149%,后者的同口径数据为157%。显然,这里呈现的信息依然类同于上一时段,虽然相对而言该时段形声字数量增长幅度低于前时段,但因其增长的基数已大,绝对增加量依然十分可观,远高于其他结构类型.从以上比较来看,总体来
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版铁塔基站租赁与广告位合作合同范本
- 2025版桥架安装与防雷接地工程承包合同样本
- 2025年建筑材料供货与绿色建筑认证服务合同
- 2025年二手房买卖合同:针对老旧房屋改造的特别约定条款
- 2025年度高效节水农业种植技术服务合同范本
- 2025年跨境矿山资源承包与国际贸易合同
- 2025版文化旅游区建筑承包合同范本
- 2025年数字经济法律咨询项目评标保密与委托合同
- 2025版石料矿山安全生产责任协议
- 2025年度旅游行程变更免责协议及游客须知
- XXX有限公司报销审核制度
- WS/T 427-2013临床营养风险筛查
- GA/T 1047-2013道路交通信息监测记录设备设置规范
- GJB9001C内审员培训讲学课件
- 五牌一图(完整版)
- 幼儿园绘本故事:《十二生肖》 课件
- DDI定向井难度系数
- 激光跟踪仪使用手册
- 新媒体运营知识考核试题与答案
- 金属材料的主要性能ppt课件(完整版)
- 丽声北极星自然拼读绘本第二级 Fat Cat 课件
评论
0/150
提交评论