




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
地方志引书挖掘及其引书分析研究衡中青1,2侯汉清1(1南京农业大学信息学院)(2佛山科学技术图书馆)摘要本文主要研究中国地方志引书挖掘方法,并以旁征博引著称的广东方志岭南丛述(物产)为例,从引书的历史时期、高频被引书、作者生活地域和引书学科性质四个方面进行文献计量学研究,以期探讨中国地方志的引书分析方法。关键词引书挖掘模式识别引书分析1引书的识别方法的选择引书,通常指古籍中引用的文献,古籍中引用文献的方式不同于现代汉语。古代文献的书写不分句读,大都没有标点符号,引用文献和他人话语时也没有注加引用符号,如“”和“ :“” ”;引书著录形式没有统一标准,有些引书用全名,有些用异名,有些用简称,随纂写人员行文习惯而异,没有统一引用标准,还有些干脆不用书名,只用作者姓名,如某某云,某某曰,等等。因此,古籍中的引用文字,与行文的其他文字没有区别,这给引书的识别带来极大的困难。人工阅读古籍时,若没有古代典籍的目录学、文献学和古代汉语等领域知识,是没有办法识别其中的引用文献的,即使具有这样的领域知识,工作效率也十分低下;而基于字符匹配的计算机,若不经过人为“训练”,则是一片茫然,无从识得引书。问题的解决办法是,由人来编制计算机软件,使计算机“具备”领域知识,辅助人来识别引书,编制引书索引,把人从繁重的引书识别和索引编制的工作中解放出来。计算机引书识别是中文信息处理中自动分词的研究范畴,能否通过计算机自动分词的方法,把地方志中的引书“分”出来?目前,见诸报道的自动分词方法主要有三种类型:机械分词法,又称词典式切分法;语义分词法;人工智能法,又称理解分词法。其中的词典式切分方法是当前应用广泛且十分有效的方法。词典法是目前常用的三大分词方案(词典法、基于规则切分标记法、人工智能法)之一,这种方法的关键技术和步骤有二:一是词典的构造;二是相应的匹配算法,有什么样的词典就有什么样的匹配算法,词典的构造是基础。词典构造的关键点在于词汇的完备性,无论匹配算法设计得多么精巧,词汇网罗不完全,文献的分词也是不完全、不准确的。本项引书识别研究若采用词典法,必要条件是构造一个词汇十分完备、历史上出现过的所有典籍书目词典,即古籍书目词典。但是,中国古代典籍无计其数、无法统计,且散佚太多,到现在为止,没有人能准确说出史上存佚的古籍数目和种类。现有的古籍目录,大多是典藏部门古籍目录,如书目文献出版社1990年代按学科门类出版过北京图书馆普通古籍目录15册。即使有通用性的古籍目录性著作,收书也不全面,如齐鲁书社1989年出版胡道静主编的简明古籍辞典收词才2000条,才及现存10万种的2%。因此,缺乏一种词汇完备的古籍书目词典,使得采用词典法寸步难行。因为,古籍中的引用文献五花八门,涉及各个学科,中国地方志中的引书更是如此。方志被誉为“地方性百科全书”,引用的典籍也是百科全书式的。况且,有些引用的是地方文献,根本没有大规模地流通过,甚至引用后不久即散佚,少有人知,古籍词典无法收录这种书目。综上所述,采用词典法自动识别中的引书理论上是可行的,但构建具有完备词汇的引书词典却十分困难。既然现有古籍目录不能提供完备的词汇,我们是否可以从方志文献本身着手,来挖掘其中的引书?2模式提取笔者在阅读方志文献时,发现这样的语言学现象:古人在引用文献时,为使句子语法完整、语义协调,通常在所引用的文献后面加上“云”、“曰”等谓语动词,我们称为引用方式规则,如“本草纲目云”、“五山志林曰”,等等;古代典籍的起名也有一定规律,如:丹铅余录、岭南异物录等典籍名称的最后一字都是“录”字;再如:南州记、粤东笔记等典籍名称的最后一字都是“记”字,等等,我们称之为命名规则。这样,我们可以提取出这些引用规则和命名规则,应用这些规则(模式)来挖掘方志中的引书。(1)引书引用语言模式我们通过审读文献发现:纂写人员在引用某书时有某种语言习惯,如:“桂海虞衡志云”、“广东新语曰”等等引书引用语言模式。我们提取这些引书引用语言模式,或称引书规则,见表1(2)引书名称特征的语言模式现代人编著学术著作,有其自身起名特点,如植物学、动物学、中国科技史概论,等等,书名后的“学”、“概论”等字表示该书的性质和特征。古人著书,亦是如此。我们通过审读文献发现,“志”、“记”、“疏”、“经”、“注”、“录”、“谱”、“纪”,等等文字使用频率较高,提取它们作为引书名称特征的语言模式,见表1。(3)人名引用的语言模式在中国地方志中,常出现“某某云”、“某某曰”等字样,如“屈大均云”,“苏东坡曰”等等。通过审读文献,我们发现:在叙述某某云、某某曰时,其实质是在引用某某的著作。原因是,当代人不可能与古人直接对话,提及某个人名,实际上提及的是他的某种著作,再加上古代的通信远没现代这么发达,信息传播速度慢,即使是同时代在世的人,所提及的也是他的著作,上述“屈大均云”的本质是:屈大均的广东新语或其他著作云,而不是屈大均当面对方志纂修者说。其实,在现代学术研究中,提及某个人大都也是指的他的某种著作。因此,我们把方志物产资料中提及的某某人,即引用的人名,也视作某人的著作,即引书。也就是说,把人名处理成引书。这种处理方法,难度较大,因为某些人可能撰著了不止一种著作,我们必须对这些著作加以区别,判断出某人说的话到底属于哪一种著作,这种判断是靠人工进行的。所提取的人名引用的语言模式亦见表1表1引用语言模式表引书引用语言模式引书名称特征语言模式人名引用语言模式云志云谓记谓曰纪曰按谱所引参注所云按云闻为即所谓考谓即所称说谓之即所载注言表中“”代表引书或人名。我们把这些模式分成前标志型(如:案)、后标志型(如:云)和封闭型(如:案曰)三种类型。人名引用语言模式的3个模式与引书引用语言模式重复,可归并到引书引用语言模式库中。3引书识别过程3.1运用模式识别截取相关引书文字上表列出的三种模式,可以帮助我们从外观上将可能是引书的部分抽取出来,至于是否真是引书,需人工进一步处理。引书识别就是应用这些模式来匹配文献,截取出可能是引书的部分文字,然后进行词频统计剔除、人工判别等,进一步准确地识别出引书,具体步骤如下:使用表1中的模式,到物产全文库中进行模式抽取。具体抽取的度(即前后截取字数),通过试验办法根据不同情况确定,对于前标志型或后标志型,取7-8个汉字,而对于封闭型,取两个标志符之间的内容。在识别算法上采用正则表达式进行。正则表达式是用某种模式去匹配一类字符串的一个公式。由一些普通字符和一些元字符组成。在此我们设计的正则表达式主要是进行字符串的搜索和提取的。具体算法采用正则表达式。正则表达式就是用某种模式去匹配一类字符串的一个公式。由一些普通字符和一些元字符(metacharacters)组成。在此我们设计的正则表达式主要是进行字符串的搜索和提取的,例:ereg(u4e00-u9fa58曰$,源串,存贮变量);对抽取结果进行过滤处理,用禁用符号替换掉无意义的字符如标点符号、数字等。依据词语轮排规律1,采用左对齐及右对齐方式对抽取结果排序,以此进行模式修正。左齐举例:按肇庆志出高要山按肇庆志凡深山皆有按肇庆志凡深山皆有右齐举例:蛾成翼参南越笔记拌食之参南越笔记长雌音短南越笔记对所有抽取结果进行超长或超短的判别剔除工作。例如:采用“按云”模式抽取的“按此随时异名以米之红白壳之厚薄为高下农家有利其先熟者如夏至霜降八月白诸种皆应节而熟然夏至秥入炊少饭故价廉于他种唯粳稻须上腴田种者颇少厥价较昴于他稻云”,显然不可能是引书,剔除。再如采用“说”模式抽取的“诸说”一例,也不可能是引书,剔除。3.2运用N-GRAM方法分词,提高引书识别准确率作为引书识别方法,我们考虑能否结合模式识别,利用n-Gram方法,进一步从前期模式识别结果中识别出引书,作为模式识别的补充。具体实现思路如下:对前述模式抽取的结果看作一个整体,应用n-gram进行分词,设定2n8,对结果进行词频统计,并计算各n-grams字串的得分值。需要说明的是,在此应用n-gram方法,不需要进行全切分,对于左对齐的情况,从左方开始进行n-gram切分,对应于右对齐的情况,只需要从右方开始进行n-gram切分,而对于左右都有标志语的,则取其中间文字,不需要应用n-gram。举例如下:左齐的情况:按肇庆志出高要山(注:“按”字是行文模式标记符,不计)切分结果:肇庆/肇庆志/肇庆志出/肇庆志出高/肇庆志出高要/肇庆志出高要山右齐的情况:蛾成翼参南越笔记(注:“记”是引书特征模式标记,不可去掉)切分结果:笔记/越笔记/南越笔记/参南越笔记/翼参南越笔记/成翼参南越笔记/蛾成翼参南越笔记两端的情况:按阮志云(注:“按”、“云”为封闭标记符,不计)切分结果:阮志经过上述根据模式特征对n-gram方法的简化设计,可以大大减少识别噪音,提高识别准确度。根据以上两种方法的结合应用,抽取出得分超过阈值的n-grams字串,进行总排序,并适当去除低分词。对于识别结果,由于存在引书子串的同频问题,需要进行合并处理。如上述切分结果中,“肇庆”是“肇庆志”的子串,如其频率相同,则仅保留父串“肇庆志”。经过以上处理,再经人工判别,形成最终模式识别引书集合。引书识别的流程图如图1图1引书识别流程图4系统实现引书识别的基础工作是方志物产全文数字化并存入数据库。为此,我们建立了相应的全文数据库系统。在开发工具的选用方面,考虑到前述地方志文献的行文的特点,选用Borland Developer Studio 2006作为开发工具,具体采用其Delphi for the Microsoft .NET Framework模块作为开发环境,提供了多种对数据库操作的引擎,共享能够运行在.NET框架上的超过20种语言的组件与源代码,支持UNICODE编码规范,易于维护移植。数据库选用SQL Server,有较强的可伸缩性与可用性,具有企业级数据库功能,支持UNICODE。系统运行环境是可以支持.NET Framwork的任何操作系统。计算机引书识别系统的主要功能有:引书模式库维护、引书模式识别等。引书模式库维护:增加和删除模式。发现新的模式时可随时添加到库中;发现某个模式不合适时,也可随时删除。界面如图2图2引书模式维护界面图引书模式识别:利用模式库中的模式扫描文档库,并按要求截取可能是引书的文字,生成模式识别结果集,然后经人工判别出引书,形成引书结果集。界面如图3图3引书模式识别界面5引书分析本部分主要以清代方志岭南丛述之物产部分门目为例,利用上述引书挖掘系统识别出的引书,从引书的历史时期、高频被引书、作者生活地域和引书学科性质四个方面进行文献计量学研究。5.1岭南丛述简介岭南丛述234,60卷,清人邓淳编,是一部岭南地区(广东、海南、广西部分、福建部分)百科全书式地方性记述文献。全书共分40目,其中涉及物产的有1134条,所引用文献的数量庞大,有着十分重要的文献学价值和科技史价值。对岭南丛述(物产)中引书进行统计发现,作者邓淳共引用了2467次各类引书和其他文献。其中,诗词歌赋谚谣共引用171次。由于诗词歌赋谚谣极具分散性,一首诗常为多个作品所载,难于归结于某种引书。故笔者在进行引书统计时,没有计入诗词歌赋谚谣。按此原则,最终统计出351种引书,引用次数为2296次,平均每条物产引用两次之多。引书中官修方志有33种(明代2种,清代31种),约占9%;总引频次为405次(明代128次,清代277次)。其他各书为私人著述和官修典籍。这351种引书中有14种(引用405次)无法确定作者和年代。5.2引书的成书年代分析为了便于统计,笔者参考中国农业科技史历史分期5,以及岭南丛述(物产)中的引书情况,将挖掘出的引书划分成先秦、秦汉等七个历史时期。因为岭南丛述成书于清道光年间,故清代指的是道光以前的清代。另外还有部分引书无法查知成书年代,无法归入上述七个历史时期,所以另外设立一“不明”项。历代引书种数、引书频次见表2。表2岭南丛述(物产)历代引书(种数、总引频次)分布表历史时期引书种数总引频次平均引用次数先秦17623.6秦汉211024.9三国两晋南北朝563666.5隋唐五代422185.2宋元884064.6明513637.1清6275612.2不明14231.6合计35122966.5为直观起见,笔者据表1画出各历史时期引书种数柱形图(图4)、总引频次柱表图(图5)。图4岭南丛述(物产)图5岭南丛述(物产)引引书(种数)的时代分布书(总引频次)的时代分布从表2、图4和图5可以看出,引书种数最多的是宋元时期,有88种(其中宋代82种),最少的是先秦,只有17种,引书种数从高到低的排列次序为:宋元、清、三国两晋南北朝、明、隋唐五代、秦汉、先秦。总引频次最多的是清代,达756次,最少的是先秦,只有62次,总引频次从高到低排列次序为:清、宋元、三国两晋南北朝、明、隋唐五代、秦汉、先秦。作者引用最多的是宋代文献,这说明宋代科技文化发达,图书内容质量高,史料价值大,保存也比较完好。宋代引书最多,从一个侧面印证了历史上宋代是我国封建社会科技文化高度发达的历史时期。清代的总引频次高,是因为作者所引清代的文献内容与作者所撰述的内容相近,且年代近,文献散佚少。全部引书高达2296次,清以前达1517次,说明作者邓淳博览群书、学识渊博,岭南丛述(物产)有着极高的学术水平与文化价值。5.3高频被引书分析一种著述的被引用频次高,说明该书内容对撰述者来说参考价值大,资料性强。一位作者有多种著述被引用,且所占整个引书种数的比例高,说明这位作者与引用者研究兴趣相关性大。表3列出前10种高频被引书(简称高引书)。表2岭南丛述(物产)前10种高引书序号引书名称总引频次作者1广东新语207(清)屈大均2黄志123(明)官修方志3岭外代答117(宋)周去非4本草纲目89(明)李时珍5岭表录异73(唐)刘恂6岭南杂记64(清)吴震方7粤东笔记64(清)李调元8南方草木状62(晋)嵇含9太平御览57(宋)李昉10粤中见闻47(清)范端昂表3表明,清代屈大均的广东新语被引频次最高,达207次,是邓淳撰著岭南丛述(物产)最有价值的参考资料。广东新语等10种高引书(仅占总引书的2.84)的总被引频次高达903次,占岭南丛述(物产)总引频次(除诗词引用)的39.29。由此可见,古代引书也符合科学引文索引创始人加费尔德提出的“文献集中定律”6。另外,需说明的是,表3同时又是被引频次最高的10位作者,兹不重复列表。5.4引书的地域分析地域角度的引书分析,首先根据识别出的引书查找作者,再查证籍贯,最后归入到地域分类表中。凡无作者或作者籍里不详的引书一律标为“不明”。据此,共查得309种引书的作者籍贯,占整个引书种数的88%,这309种引书的总引频次为2139,占所有引书总频次的93%。分类表设立岭南地区、长江下游、黄河流域等六大地域,这些地域无论在人文还是自然方面都具有域内相似性和稳定性。详细统计情况见表4。表4岭南丛述(物产)引书作者的地域分布作者地域引书种数总引频次平均引用频次所含省份岭南地区7678710.4广东、广西、海南、福建长江下游1025805.7浙江、上海、江苏、安徽黄河流域913964.4山东、河南、河北、山西、陕西、内蒙古、甘肃两湖流域262258.7江西、湖南、湖北西南地区1415110.9四川、重庆、云南东北地区000辽宁、吉林、黑龙江合计30921396.9从表4可以看出,长江下游作者的引书种数最多,达102种。究其原因是这个地域历史上发达的经济带动文化的大发展,撰著的典籍数量多且质量高,因而传播广泛、保存久远。黄河流域的引书种数居第二,一是因为这个地区范围广,从西北的甘肃到黄海之滨的山东,二是因为历史上山东、河南曾是中国科技文化的中心地带。但长江下游和黄河流域的平均引用频次低于平均数,是因为这两个地区的引书数量多,基数大。东北地区没有引书,可能的原因:一是由于该地域开发较晚,经济、科技、文化欠发达,撰述数量少;二是由于路途遥远,传播范围小,岭南无法获取,难以利用;三是东北地区与岭南地区地域差异性大,其物产差异性也大,因而有关物产著述的内容亦难以参考利用。岭南地区作者的总引频次最高,是因为岭南丛述(物产)引用的文献是为了记述岭南地区的物产,物产极具地域性,因而不得不大量征引地方文献(主要记述某一特定地域事物和事件的文献),这些地方文献主要是明清两代岭南官修方志(33种,405次),由于官府参与,保存完好、齐备,查找易得方便。但是,岭南地区作者的总引频次最高,并不能说明岭南地区历史上经济文化发达。一旦去除官修方志,岭南地区作者的引用情况立即发生了很大的变化(见图6),无论是引书种数(43种),还是总引频次(382次)都远低于长江下游(102种,580次),亦低于黄河流域(91种,396次)。这种情况也说明,记述某一地域事物和事件的地方文献,其参考资料很大程度上依赖于其地的官修方志。官修方志在岭南丛述(物产)的引用中占着举足轻重的地位。图6岭南丛述(物产)引书作者的地域分布(官修方志除外)5.5引书的学科分析岭南丛述(物产)引用了351种引书,涉及各个学科门类。笔者依据这些引书的内容与物产的关联程度,把它们分为官修方志、农书、杂记、诠释考证等10个类。诠释考证类包括字书、训诂、考证及为其他文献作注等解释性图书;杂记类包括四库史部、子部的杂史类、传类、杂家类、小说家类等具有多个主题且与物产关联程度不甚紧密的图书;其他类是指不能归入上述9的图书,如:郑氏曰、种树者等不能归类或是无法查证内容的引书。表5是这10个类的引书种数、总引频次的统计数据。表5岭南丛述(物产)引书分类统计表(按种数多少排列)序号类别引书种数总引频次平均引用频次举例1杂记类16311587.1岭表录异、岭外代答、游宦纪闻等2官修方志类3340512.3黄志、广州府志、南海县志等3诠释考证类271124.1尔雅注、正字通、山海经注、通雅等4农书类261315.0荔枝谱、龙眼谱、南方草木状等5物产博物类251576.3南州异物志、博物志、博物要览等6史地典籍类25492.0史记、五代史、马总通历等7其他类20482.4郑氏曰、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 幕墙材料性能检测与评估技术方案
- 专业能力评估题库及答案
- 广东省佛山市三水区2023-2024学年高一下学期期中考试语文考试题目及答案
- 数字经济产业园建设项目建筑工程方案
- 房屋建筑施工现场设备与工具管理方案
- 离婚协议彩礼退还与个人财产分割合同范本
- 离婚协议书多语种专业翻译与本地化合同
- 物业租赁合同范本:包含设施更新改造协议
- 私立幼儿园教师聘用合同中的师德师风建设协议
- 离婚诉讼财产分割与子女抚养权法律援助合同
- 养殖场水质监测管理制度
- 电厂运输煤炭合同模板
- 大学人工智能+教学试点课程立项建设申报书
- 登机桥应急撤桥
- 城镇供水排水行业职业技能竞赛化学检验员(排水化验员)赛项理论考试题库(含答案)
- 2024年普通考研-机械设计考试近5年真题集锦(频考类试题)带答案
- 中水合同模板
- 江苏省镇江市外国语学校2024-2025学年七年级上学期第一次月考数学试题(原卷版)
- 护理疑难病例讨论课件模板
- 同步课件4:改革开放和社会主义现代化建设的巨大成就
- 《电子邮件我收发》参考课件3
评论
0/150
提交评论