(语言学及应用语言学专业论文)先秦地名知识库构建.pdf_第1页
(语言学及应用语言学专业论文)先秦地名知识库构建.pdf_第2页
(语言学及应用语言学专业论文)先秦地名知识库构建.pdf_第3页
(语言学及应用语言学专业论文)先秦地名知识库构建.pdf_第4页
(语言学及应用语言学专业论文)先秦地名知识库构建.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(语言学及应用语言学专业论文)先秦地名知识库构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

燮壅 炒 中文摘要 随着信息技术特别是网络技术的发展,用信息处理手段对现存的古籍进行加 工处理具有现实意义,给传统古籍研究带来了生机和新的机遇:方面使以往繁 重的古籍整理工作变得更加便利、快捷;另一方面利用信息技术、网络技术,也 能使我们的古籍保护、展示和研究手段达到一个新的层次。 本文将对先秦地名知识库的自动构建方法进行研究。先秦地名知识库不仅提 供了丰富的文献地名知识,而且可以服务于基于内容的古代文献信息检索。这是 除了普通关键字检索、分类检索之外提供的一种极具特色的检索方式。将传统的 古籍文献检索由单一检索转换为多元检索、由定向检索转换为关联检索、由静念 检索转换为动态检索。 通过检索,我们不仅可以进一步得到丰富的地名信息,同时也将搭建起先秦 文献其他知识库之间在语义、语用等方面的关联,以此为基础进行多维信息上的 深度挖掘,建立历史事件、历史人物和历史地理等知识及其相互关系的检索,并 获得各种古籍资料在内容上的潜在相关性,从而可以为用户提供更全面、更准确 的检索结果。 为了实现这个目标,本文首先详细介绍了地名知识库的结构,包括构建知识 库的总体思路、数据项介绍、数据提取以及填充等过程。接着以左传为主要 实验语料,研究如何利用条件随机场模型对文献地名进行自动识别和分类。实验 结果表明:地名自动识别实验开放测试的准确率最高能够达到9 1 9 ,而召回率 最高只能达到7 0 1 。地名自动分类实验开放测试的准确率、召回率、f 值则稳 定在7 9 9 6 8 1 之间。在地名识别和分类的基础上,我们进一步利用最大熵模型抽 取地名之间的关系信息,得到文献中所有的实体之间层级关系实例。该实验的精 度大约在7 0 左右,通过实验分析,我们还可以进一步提高实验精度到9 0 左右。 本文的最后,提出了本课题在下一步研究中的工作以及改进方向。 关键词:地名知识库,条件随机场,最大熵,信息检索 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o 唧a t i o nt e c l l l l o l o g y ,e s p e c i a l l yt h ed e v e l o p m e l l to f n 酏釉r kt e c i u l o l o g y i ti s p o s s i b l et 0p r o c e s s 锄c i 饥tl i t e 咖r cb ya d v 锄c c d i n f o 加a t i o n - p r o c e s s i n g 印p r o a c h e s ,w h i c hi n 仃d d u c e sv i t a l i t ya i l do p p o r t l m i t i e st 0t h e a n c i e n tl i t e r a t u r cs t u d i e s b yt h i sm e a n s ,i ti sc o n v e n j e n tt 0p r o c e s sa i l dp r o t e c tt h e a n c i e n tl i t e r a h l r e t h ep a p e ri n v e s t i g a t e sm ea u t o m a t e dm e t l l o d st oc o n s 仇】c tak n o w l e d g eb 嬲eo f l o c “o nn 锄e si i lp r c q i nl i t e r a t w e t i l ek n o w l e d g eb a s ep r o v i d e sd c hh o w l e d g eo f l o c a t i o nn 锄e s 锄dc o n t e n t b a s e di n f o n n a t i o nr e t r i e v a lo fa i l c i tl i t e 船m r e ,w h i c hi s an o v dr e t r i e v a ls o l u t i o nb e s i d e s o r d i n a r yk e y w o r d b a s e d 锄dc a t e g o r y - b 勰e d m e t h o d s t h es e a r c hr 骼u l t se x t a l dt l l ek n o w l e d g eb 嬲eo fl o c a t i o nn 锄e si n p r e - q i n l i t e r a t u r c 趾db u i l d l es e m a n t i c 越dp r a g m a t i cr e l a t i o i l s h i p sa m o n gt l l ek n o w l e d g e b a s e s , w h i c hm a k e sm u l t i - d i m e l l s i o n a l d e 印m i n i n g i s a p p l i c a b l e t 0枷e v e l ( i l o w l e d g ea i l dr e l a t i o n s h i p si n1 l i s t o 巧e v e n t s ,f i g u r e s ,锄dg e 0 黟a p h y m o 瑚v i ti s a b l et 0a c q u i r ep o t e i l t i a lr e l “a n c eo fa l lk i n d so f 锄c i tl i t 蹦l t u r e ,a n dp r o v i d el l s 懿 w i t l lm o r ec o m p r c h s i v c 锄da c c u r a t es e 鲫c hr e s u l t s 1 1 l i sp 印_ e r 咖a t i c a l l yi d e i l t i 6 e s 觚dc l a s s i f i 鼯n l el o c a t i o nn 锄懿i n ”z l l o z l l u a l l ”l l s i n gc r f ( c o n d i t i o n a lr a i l d o mf i e l d ) t ob u i l dt 1 1 el ( 1 l o w l e d g eb 嬲e 5 - f o l d e x p e r i m e n t so ni d e n t i f i c a t i o ns h o w st i l a t l e1 l i g h e s tp 耐o 肌a i l c er e a c l l s91 9 w h e n w eu s et e s t i i 培d a t af b mac o r p u sd i 行e r c i l t 岔o mt r a i l l i l 坞d a t a ( o p 胁t 销t ) h 廿l e c l a s s i f i c a t i o ne x p 嘶m e n t s ,p r e c i s i o n ,r e c a l la n df1s c o r e sr a j l g eo v e rm ei n t e r v a lo f 7 9 a n d81 i i lo p c l lt e s t l e l l ,w e 觚h e rc x 廿a c tr e l a t i o nb e 呐e 锄l o c a t i o nn 锄骼 b yu s i n g l em a ) 【i m 啪锄缸d p ym o d e l t h ee x p 耐m e i l t a la o c i l r a c yr e a c h e sa b o u t7 0 锄dc 锄b e 咖r 0 v e dt oa b o u t9 0 m o r co v 、d e s 谢b em es 呐c h l r co fl ( 1 l o w l e d g cb 硒eo fl o c a t i o nn 锄铭i n d e t a i l ,i i l d u d i n gm eg 饥e r a li d e ao fc o i l s 咖矾n gak n o w l e d g eb a s c ,d a t ap r c s 饿t a t i o 玛 d a t ae x t r a c t i o n ,嬲w e ua sf i l l i n g ,锄ds 0o i l a n dm a d ea s t i l d yo f t l l i st o p i ci nt l l en e x t s t e pi i lm ed i r c c t i o no ft l l ew o r k 觚di m p r o v e m e n t f i i l a l l y ,w ep r o p o s e 向n h e r i r n p r o v e i i l 锄r t so fo u rw o r k 觚dp r e s e n tad i r e c t i o no f 如t l l r e 、0 出 k e yw o r d s :l o c a t i o nk n o w l e d g eb 嬲e ,c r f ,m a x i i i m m 翎蜘叩y ,i n f o m l a t i o n 州酬 - 第一章先秦地名研究综述 第一章先秦地名研究综述 随着计算机硬件的发展和海量电子文本的出现,利用计算机技术处理自然语言已 经成为研究的热点,并取得了丰硕的成果。当今是信息爆炸的时代,为了应对这个挑 战,需要一些自动化的工具帮助人们在海量的信息资源中快速地找到真正需要的信 息。现在的搜索引擎已经一定程度地满足了人们的需求,但是这些检索方式反馈的信 息中信息噪音过大,包含了很多无用的信息,降低了检索的效率。所以我们需要从语 义层次上对信息进行标引,从而满足用户在语义和知识上的需求。 知识库的形成采用了一种从语义上标引文章的技术,将信息或知识按照一定的方 式组织、储存,成为知识检索的对象。用户根据需求可从知识库中更有效地查询相关 信息。在自然语言处理领域,语言知识库的建设是最基本、最重要的应用基础研究。 涉及了语言知识的重新整理、发现、形式化、规范化等工作,许多国家的研究机构都 构建了一大批语言知识库,包括语音库、词库、语法信息库等。知识库里的知识是通 用的,使用知识库可以使自然语言处理系统更加具有通用性,适应能力更强。 近年来,自然语言处理研究逐步向古籍文献领域深入,这必然给古籍文献研究等 相关人文理论学科带来新的生机。在科学技术高速发展的今天,古籍文献资料的自然 语言处理也将成为影响社会经济文化发展进程的重要因素。 文献是知识载体,古籍文献中丰富的知识点是最基本最重要的数据,所有知识点 的集合正是历史发展进程的写照。为了有效地利用这些宝贵的文献资料,必须对文献 进行深度加工,使之成为结构化的知识集合。在已经电子化的文献基础之上,进一步 结构化处理,设计科学、合理的知识结构,能够根据需要迅速准确地提供各种重要数 据。 本文研究工作中,选用地名这个知识点作为研究对象,利用信息处理技术挖掘文 献中的地名知识,将静态的知识转化为包含丰富历史信息的动态知识库,并设计查询 系统,以期在此基础上,获得更为详细的历史信息,提高查询效率。不仅为古籍文献 理论研究领域提供宝贵的参考资料,同时也为古籍信息处理领域提供新的研究思路。 本章首先概述学界关于地名研究的相关理论,接着介绍本文研究的主要内容以及 所采用的主要方法,最后提出了本文研究的意义。 1 1 地名相关研究概述 古籍信息处理是用计算机对古代文献进行加工的科学,探讨有助于古籍文献研究 的信息处理技术。汉语信息处理的对象无论是现代汉语还是古代汉语,都是计算机技 术与汉语研究相结合的产物。因此,单靠文献语料与计算机技术是无法达到预期效果 的。要想计算机更有效地智能化处理问题,必须结合语言学、文献学等相关领域的研 第一章先秦地名研究综述 究成果。 古代地名信息处理是古籍信息处理研究的一部分。在这一小节中,我们首先列举 出历代涉及地名研究的文献,这是研究古代地名最为直接的素材;接着我们将介绍一 下地名学的相关理论:最后我们分别讨论古籍信息处理研究以及中文信息处理领域的 地名研究。 1 1 1 历代地名载录文献 中国从先秦起,就有研究地名的传统。这种传统一直延续下来,随着朝代的更替 和领域的扩大,地名数量日益增加,随之而起的是对地名的整理和研究,并获得了举 世罕见的成果,为后人的研究提供了宝贵的资源。 首先,先秦典籍中就有众多的文献对地名有所记载。例如:诗经、山海经、 周礼职方、山海经、古本竹书纪年、穆天子传、吕氏春秋、越绝书 等。有些文献是记录地名的专著。其中,值得一提的是山海经和禹贡两本世 界上最早的地名学专著,产生于战国中期的禹贡比山海经取得了更大的进步, 它是先秦最富于科学性的地理记载文献。它利用战国时期发达的地理学知识,超脱了 原始朴素的地理概念,以征实为目的,尚实的考察,记录了宝贵的地理知识,为后人 的研究提供了有价值的参考依据。 此外,大量的著作中也零星地记录了丰富的地名信息,对地理位置、地名沿革、 地名渊源等问题都有所提及。例如:古本竹书纪年魏今王下曾记载“二月,城 阳、向,更名为河雍,向为高平 ,说明先秦文献中已经注意到地名沿革变迁的问题。 谷梁僖公二十八年“水北为阳,山南为阳 的地名命名方法,这既是古代地名定 位的方法之一,也为历史上存在的许多“阴阳地名 说明了渊源来历。另外,越绝 书在地名渊源探讨方面卓有成就。 其次,先秦以后的各朝代的典籍中同样有丰富的地名研究资源。例如:史记货 殖列传中“邯郸,亦漳、河之间一都会也临淄,亦海、岱之间一都会也”,另外, 古人也采用计算几个地名之间的里程来确定这几个地名的地理位置。 现代也有众多学者对先秦地名进行理论探讨,研究主要集中在对地名的文化因 素、民族因素、命名原则、起名渊源、地理位置、地理变迁、地名改革、通名变化等 理论进行探讨。也编纂了许多典籍,例如:中国古今地名大辞典、中国地名辞源、 中国古今地理通名汇释等。这些都是前人已经做过的收集,具有很高的参考价值。 1 1 2 地名学的研究 地名学在我国的发展,历史悠久,成绩卓越。有关地名学的各种志书达数万余种, 专门著作仅以新版辞海所列就有1 4 6 种。地名学研究理论将为本文研究提供丰富 的理论知识。语言学研究通常只对地名的形、音、义感兴趣,地理学通常只研究地名 第一章先豢地名研究综述 的区域分布、地名所指地方的地名形念特征及其演变等,历史学则侧重于对名称沿革 的研究,地名学是与语言学、地理学、历史学、测绘学、民族学等有关的一门独立的 学科。 地名学的研究根据研究内容和目的不同,所用方法侧重不同,即采用综合研究法, 包括语言分析法、历史比较法、统计法等等。整理古今文献中的地名资料,也是地名 研究的重要方法。地名学以地理实体为考虑依据,通常地理实体可以分为两大类:一 是自然地理实体,一是经济地理实体。并对每一大类地名进行了细致地分类。地名学 研究中提出的地名分类方法,为本文研究提供了很好的思路。 此外,地名学在地名命名方式,地名命名原则方面,有很多经验值得借鉴,对于 地名学的研究方法,更是本文研究工作学习的宝贵经验。 1 1 3 古籍信息处理研究 随着中文信息处理技术的不断发展,学界已经相继出现了利用计算机对古籍文献 进行信息化处理的研究,其中,也不乏以先秦文献为语料的研究,主要做了一些基于 古文献的统计。 例如:张敏在用于信息检索的古文统计分析( 中文信息学报2 0 0 1 年第6 期) 一文中给出了信息处理中多个专用语料库的动态知识合并的方法。在三千五百万 字的大规模中文古籍语料库上对古汉语单字、双字频度、常用搭配信息、首字、尾字 信息、古汉语常用字信息等进行了统计分析,并把这些统计学习到的知识应用于古籍 信息检索系统。覃勤在先秦古籍字频分析( 语言研究2 0 0 5 第4 期) 一文中选 用2 7 部先秦时代的文献,对先秦古籍作穷尽式的字频统计,包括总字量、单字量、 字频及累计字频。并且参考现代汉语汉字频度统计的分级把先秦古籍8 5 5 1 个单 字划分为5 级,制出先秦古籍字频表,分析了频率分布特点以及其影响因素。曹艳在 古籍文本抽词研究( 图书情报工作2 0 0 8 年第l 期) 一文中选择齐民要术 一书作为试验文本,采取计算机辅助切词、词频统计,并结合停用词词典和抽词词典 提取出候选词汇,然后进一步采用机器剔除过滤操作,最后进行人工判别处理,从而 得出一批实义词和专有名词。 另外,要想利用计算机对古籍文献进行处理,一方面要推进古籍文献电子化的进 程;另一方面,要解决字符集的问题。众多学者在这些方面进行了深入地讨论。例如: 张彩录等在一个实用的古籍印刷汉字识别系统( 中文信息学报1 9 9 6 年第3 期) 讨论了古籍印刷汉字识别字域的选择所受的约束,汉字特征提取的性能限度,以及如 何用汉字的统计特性,进一步提高系统的识别率。在理论分析的基础上,经过大量实 验研究,所完成的古籍印刷汉字识别系统对已标注过7 2 0 万字的古籍录入显示了它的 优越性能。魏慧斌在基于x m l 的古籍信息标注( 汕头大学学报( 人文社会科学 第一章先秦地名研究综述 版) 2 0 0 6 年第5 期) 一文中用x m l 格式标注的电子文本具有清晰易读、传播方便、 平台通用、检索迅速等优点。我们使用x m l 格式进行了一些古籍的信息标注工作, 并研制了基于x m l 的软件m 诎& s e a r c h ,该软件能较好完成古籍信息的标注与检索。 同时,随着信息技术在古籍文献领域的研究不断深入,学界逐步开始探讨更为有 效的基于古代文献的信息处理技术。例如:邱冰的基于中文信息处理的古代汉语分 词研究( 微计算机信息2 0 0 8 年第2 4 期) 选取了包括国语、论语、商君书 等2 1 种古代汉语的典型语料,以一种定量、高效和客观的方式对其进行了词汇处理、 统计和分析。研究表明,计算机自动分词方法可以用于古代汉语词汇研究,而且较好 地弥补了人工分词方法的缺陷和不足。 虽然,古籍信息处理取得了一定的成果,但是目前古籍语料尚不完备,尤其是可 利用的古籍电子版资源还很少,计算机技术和理论大都集中在非基础性人文研究等领 域,因此古代文献的信息化处理相对缓慢,大体还处在字处理的阶段,主要解决的问 题是古汉字的输入输出、文献逐字索引等问题上。先秦文献的词处理也只有一些尝试 性的实践,对于专名的研究就更是少见。从这个角度出发,本文的研究开拓了古籍信 息处理的新视野,尝试将信息处理技术应用到更为广泛的领域。 1 1 4 中文信息处理领域的地名研究 计算语言学在现代汉语研究领域已经取得了较为丰硕的成果,而在古代汉语研究 领域,只是刚刚迈出了一小步。因此,我们需要借鉴现代汉语信息处理技术和理论, 并利用其已有的研究成果。计算语言学界对于地名的研究主要体现在命名实体识别、 地名数据库技术等方面。关于地名数据库技术我们将在第五章进行详细介绍,这里我 们主要讨论一下命名实体识别。 命名实体识别领域,主要是通过不同模型的实验效果比较,探讨最为有效的识别 方法。例如:李丽双,黄德根等人的s v m 与规则相结合的中文地名自动识别( 中 文信息学报2 0 0 6 年第5 期) 提出了一种支持向量机与规则相结合的中文地名自动 识别方法:按字抽取特征向量的属性,将这些属性转换成二值特征向量并建立训练集, 采用多项式核函数,得到s v m 识别地名的机器学习模型;通过对识别结果中的错误 进行分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全 面导致召回率偏低的不足。又如:刘杰在基于规则和统计相结合的地名实体识别的 研究( 佳木斯大学学报2 0 0 9 年第4 期) 一文中提出了一种在构造内部规则和外 部规则的同时采用概率统计的中文地名实体的识别方法,并利用这种规则和统计相结 合的方法对测试语料库进行识别测试,充分证实了通过该方法可获得较高的准确率和 召回率,具有可行性和合理性,同时也指出了它的局限性。钱晶在基于最大熵的汉 语人名地名识别方法研究( 小型微型计算机系统2 0 0 6 年第9 期) 中构建了一个 4 第一章先秦地名研究综述 基于最大熵原理的汉语人名地名自动识别混合模型。以最大熵方法作为基本框架,同 时结合基于动态词表与规则库的优化处理实现汉语人名地名的自动识别。实验达到比 较令人满意的自动识别效果。该方法除表明最大熵方法的独特优势之外,同时也表 明在语言无关的统计学方法基础上,适当应用一些语言相关的规则,将统计与规则相 结合,是提高自然语言处理系统性能的一种有效方式。 王铮( 2 0 0 8 ) 在基于c r f 的古籍地名自动识别研究以三国演义为例一 文中对基于条件随机场的古籍地名自动识别做了探索。首先介绍了自然语言理解和古 代文献电子信息化的研究现状和背景,阐述了中文命名实体识别的基础理论和方法。 详尽分析了条件随机场( c r f ) 这一统计模型以及如何利用c r f 模型进行命名实体 的识别,以三国演义为实例分三个阶段共1 3 个步骤详细地介绍了利用条件随机 域模型对古籍地名进行自动识别的实验研究过程。实现了一个基于c r f 模型的针对 古籍地名的实验系统。 综上所述,古今文献中的地名记载以及相关领域的地名研究成果,为本文研究提 供了宝库的参考资料,是我们工作的理论基础。同时,现代汉语信息处理技术研究中 提出的方法及理论为我们提供了技术指导。但是,古代地名与现代地名有着形式上和 句法上的差异,无论是地名结构本身,还是地名渊源来历都不大一样,因此,我们必 须另辟蹊径,探索出一种适合古代地名的信息处理研究方法。 1 2 本文的工作 1 2 1 任务介绍 本文的工作是在“先秦汉语词汇统计和知识检索 这个课题的总体思路指引下进 行的。此课题的主要任务是:利用信息处理技术,对选取的2 5 种先秦1 主要文献进行 词语切分、词性标注、个别常用字的词义标注,建立先秦汉语的词汇知识库以及先秦 文献的历史知识库等,并研制与之对应的检索系统。 本文的研究任务是根据先秦文献构建一个地名知识库。完成文献地名的自动识别 和自动分类,抽取主要地名关系,解决地名的“同名异指 和“异名同指等问题, 先秦地名知识库收录先秦主要文献的地名信息,包括“地理实体表一、“地名表、“地 理实体关系表以及“春秋三传经异名同指对照表 四个表,依据地名m 可以从知 识库中检索到地名首次出现的文献、首次出现的年份、地理实体关系、同名异指关系 以及异名同指关系等信息。 学界大多数地名研究工作将重心放在地名标注上,而在本文的工作中,我们的研 究目的在于发现并挖掘先秦文献的地名知识,使其成为结构化、可利用的有效资源。 l 历史7 种:尚书、左传、公羊传、谷梁传、国语、晏予春秋、吕氏春秋;韵文2 种:诗经、楚辞;诸子1 1 种:管 子、论语、孟子、老子、墨子、庄子、孙子、吴子、苟子、商君书、韩非子;其他5 种:仪礼、袍记、周礼、孝 经、周易 5 一 第一章先秦地名研究综述 而地名标注工作则成为本文研究中的一个预处理任务。但是,并不能因此而忽视该任 务的重要性,虽然传世的先秦文献,尤其是较为老的版本一般都对其中的专名做了诸 如下划线之类的特殊标记,这点区别于现代汉语地名研究的文本。但是,现行可利用 的先秦文献电子版本仍然较为匮乏,即使具备的,也通常没有对其中的专名进行标记。 因此,想要在电子版的先秦文献基础上对地名进一步研究,首先要解决的问题就是地 名标注。 1 2 2 本文研究内容 先秦文献中的地名知识十分丰富,我们不可能逐一探讨。因此,在研究之初,作 为一项探索性的工作,我们在选择实验语料和确定研究对象时,进行了以下筛选: 1 语料选取:本文只选用左传、公羊传、谷梁传、国语等几本先秦文 献作为最初的实验语料。选择的依据在于这几本文献中都包含了大量的地名。地名知 识库构建以先秦文献为对象,但并非所有的文献都适合地名研究,含有少量地名的文 献,或者是诸如尚书这样的晦涩难懂的文献都暂不考虑。我们选取的实验语料需 要具备可读性,易提取性,并且具备较多数量的地名,才具有研究价值。其次,这几 本文献所叙之事有相关性,尤其是春秋三传,它们都是解释春秋经的著作,因此,“经 的部分理论上是一样的,其中,左传叙事性较强,以之为基础,对三传进行对比 研究,为地名知识的挖掘提供了更多的信息。 2 研究对象:地名类别以及地名关系这两方面的内容范围较广,根据本文研究的 性质,我们在这两方面内容上做了适当的选择。 首先,我们借鉴现代地名研究中的地名分类成果,并在此基础上根据先秦文献的 特点,对先秦文献地名进行了分类。现代地名研究中,依据地名本身的差异性和共性, 对现行地名进行了较为细致的分类,包括指称范围较小的地名,诸如道路、街巷、车 站、公园等。本文研究中,对先秦地名的分类处理没有细化到这类指称范围小的地名, 而是筛选出数量较多的五类主要地名。它们是:国名、城邑名、山名、水名、部族名 等。这样筛选的原因主要是以下两点:第一点是这五类地名指称性强。其中,除了部 族名是古代地名中常见的一类以外,其他四类地名不仅在现代地名的研究中占有重要 的地位,是主要的研究对象,而且在先秦文献地名总数中同样占有很高的比例。尤其 是国名和城邑名,例如:通过语料统计,在一个含有5 6 0 6 个地名的语料中,仅国名 就占有6 5 ,城邑名占据2 7 左右。第二点是过细的类别划分不利于信息处理,降 低了信息处理的效率,增加了计算复杂度。 其次,先秦文献的地名知识十分丰富,地名关系错综复杂。例如:国名与山名 之间存在着山脉跨越国界的关系:山名和水名之间存在共属国的关系;城邑名与国名 之间存在从属层级关系等等。而本文在构建地名知识库过程中,首先对国名与城邑名 第一章先秦地名研究综述 的层级关系进行了探讨研究,使其得以有效地组织,并进一步结构化、系统化地处理, 从而形成v f p 可视化界面的地名知识库。因为我们研究之目的是探索更为有效的方 法,从而在此基础上,提高知识库的扩展性。 本文主要研究内容和研究成果如下: 1 语料库构建。我们首先对左传进行了分词及词性标注,并在此基础上,利 用c r f 模型对所选语料进行地名自动识别及分类实验,以期该模型能有效利用于古 籍文献的地名标注任务中。 2 关系抽取。在已经分类的地名基础之上,利用最大熵模型抽取文本中的地名关 系。本文中探讨的是“国名城邑名”的关系。一方面探讨模型在层级关系抽取任务 中表现出的有效性,为其它地名关系的抽取任务提供了有效的方法。另一方面,地名 关系信息在地名知识库中占有十分重要的地位,它不仅提高了知识库本身的可查询 性,而且在未来的工作中,也将成为人名、事件等综合知识库之间联系的重要桥梁。 3 根据所选文献,主要是左传文献,我们初步构建了一个地名知识库。首先, 解决地名的“同名异指和“异名同指 的问题,区分了“地理实体”和“地名两 个概念,使得库中每一个地理实体都被赋予一个i d 。表示同一地理实体的两个或两 个以上的地名被赋予同一个i d ,而有些地名根据其所代表的不同地理实体的个数被 赋予多个i d 。根据i d ,我们建立库中表与表之问的关系,并最终呈现出一个v f p 可 视化界面。 1 3 本文研究方法 1 基于语料库的方法。本文研究所选用的语料主要来自“汉达文库”的先秦电子 版文献,首先运用人工机器相结合的方法对其进行分词和词性标注,并在此基础上做 定量和定性的统计和分析。 2 基于统计的方法和基于规则的方法相结合。以统计方法为主,从大规模语料中 获取所需要的资源,利用条件随机场模型对地名进行识别,利用最大熵模型对地名关 系进行抽取。在构建知识库的过程中,对“同名异指和“异名同指现象进行规则 总结。 3 p 数据库技术。利用该技术使知识库呈现为可供查询的可视化界面。 1 4 研究意义 讨论本文研究意义之前,首先了解一下静态文本中的地名知识在整个地名研究工 作中起到的重要作用。先秦文献中含有丰富的地名知识,如果将这些静态的地名知识 以动态的形式呈现,将成为宝贵的资源。我们主要以左传地名为例,列举几个常 见的地名知识,并阐述它们的潜在应用价值: 例1 : 7 - 第一章先秦地名研究综述 ( a ) 冬十月,楚子以褚侯及柬夷伐吴。越大夫常毒遇舯师舍楚子于琐。( 昭公五 年) ( b ) 冬十一月丁卯,越溅吴。( 哀公二十二年) 从上面的例子可以看出越国于昭公五年开始伐吴国,而于哀公二十二年灭吴国。 春秋各国征战,文献中记载交战的篇章随处可见,利用这样的地名知识,我们可以了 解到列国交战的大致情况,从而勾勒出诸侯国存亡图。 例2 : 王取邬、到、蔫、汗之田于鄞,而舆鄞人酥忿生之田:温、原、缔、樊、隰邸、 横茅、向、盟、州、陉、随、傻。( 隐公十一年) 从上面的例子可以得知,“邬、到、蔫、汗 在这一年被周天子割取。而“温、 原、稀、樊、隰郎、横茅、向、盟、州、陉、隈、俊 这一年又归属郑国。从这样的 描述中,我们可以清晰的看到列国疆域割地的变更情况。 例3 : ( a ) 三月,公及邾饿父盟于蔑。( 隐公元年) ( b ) 三月,公及邾宴俄父盟于昧。( 隐公元年) 从上面的例子可以看出,“蔑”和“昧”代表了同一个地理实体。通过同一种文 献不同版本中的相关内容比较,可以挖掘出地名的“异名同指”现象。 例4 : ( a ) 请京,使居之,谓之京城大叔。( 隐公元年) “京”:郑国地名,在今河南荥阳县东南。 ( b ) 群王子追之,罩子毅遗、姑、骚、弱、觳、延、定、稠,子朝奔京。( 昭公 二十二年) “京”:周国地名,在今河南洛阳市西南。 上例中两个句子显示出地名的“同名异指现象,即郑国和周国都有一个地方叫 做“京”。 通过上述内容,我们可以了解到,文本中的地名知识具有潜在的应用价值。而且 文献中有待挖掘和利用的地名知识远不止这些。然而,这些地名知识都是静止的,并 没有成为有效利用的资源,而且要发现这些地名信息,仅仅通过查阅文献是很难办到 的,即便是可以通过人工审阅搜集的方法,不仅要花费大量的人力资源,而且也会受 到主观因素的影响。因此,我们所做的工作正是考虑如何用计算机发现并挖掘出这些 知识,使其结构化呈现,更加便捷而广泛地得以利用。 1 4 1 对传统领域古籍研究的意义 如今,古典文献与现代信息化手段的结合必然代表着未来古籍整理的新方向。因 8 第一章先秦地名研究综述 而,本文的研究成果可以有效地应用于语言学、文献学、历史学等领域的古籍研究中 去。这些领域的研究中,无一不对地名有所关注。例如:民族学、文化学等领域中根 据地名特点、起源等因素考察其民族文化特点的研究颇多。历史学中,根据地名的疆 域变迁来推测考证历史进程,分析历史特点的研究比比皆是。语言学中,通过地名用 字等考察反映古籍文献的语言特点。诸如此类,地名知识广泛地应用于考古学,文献 学等其他诸多领域。本文利用信息处理等技术,更为便捷地获取这些地名知识,使这 些领域中所要得到的知识更加自动化,智能化。例如:通过地名出现年代统计可以很 快地了解某地名的兴衰史,通过同名异指和异名同指现象可清晰地了解地名与地理实 体之间的关系等等。一方面,为古籍研究中非地名知识的研究提供了新的思路和新的 研究方法,即如何有效地利用信息处理技术完成古籍研究各项工作。另一方面,古籍 地名知识库为各领域古籍地名研究提供便捷的可查询资源,同时,建库技术将为地名 研究提供技术支持。 1 4 2 对古籍信息处理领域研究的意义 目前,中文信息处理技术在大量领域中取得了极大的发展,然而其研究对象主要 针对现代汉语,在古代汉语处理领域仍存在不足。一方面由于古代汉语在文字、词汇 和语法等诸多方面与现代汉语有所不同,很多现代汉语研究成果无法直接应用到古代 汉语研究中去。另一方面,中文信息处理技术发展时间较短,它在古代汉语研究中的 应用价值还没有被充分挖掘出来,整个古典文献领域的信息化进程相对缓慢,研究相 对缺乏。目前,由于汉字字符集规模过小,而且缺乏处理古代文献复杂信息的方法, 所以计算机辅助汉语工作进展缓慢。 本文的研究是古籍信息处理的一个研究方面,类似于语料库建设工作,是一个基 础性工作,有其研究的必要性:首先,同现代汉语信息处理研究类似,古籍文献信息 处理中,自动分词都是首当其冲,至关重要的一步,汉语分词面临的困难之一就是由 于汉语词和词之间没有自然界限。古代汉语这个问题就更加明显,因为古籍文献的处 理有些甚至会涉及到句读问题。在分词阶段,未登录词的识别成为许多分词系统发展 缓慢甚而走向应用瓶颈的主要原因之一,地名在未登录词中占有一定的比例,解决地 名识别问题为古典文献自动分词提供了帮助。 此外,随着语料库语言学近年来在国外的迅猛发展,语料库的内容及其知识表达 形式应该趋于多样化,并且努力将语言数据资源集成一个综合型的语言知识库。要从 语料库获取语言知识,必须在各个层次上对汉语语料库进行加工。本课题建立结构化 的地名知识库,将地名知识转化为计算机可操作的数据格式,为地名信息抽取和信息 检索做必要的预处理,便于地名知识获取,这是建立任何语言知识库的必经之路和最 终目的所在,因此本课题对地名专名知识库以及综合型知识库的建设起到了积极的作 第一章先秦地名研究综述 用。 1 4 3 对信息检索的意义 当前,信息检索技术逐步发展起来,随着古籍数字化处理的兴起,出现了众多古 籍检索系统。而古籍文本检索目前大多局限于篇、章及目录。现有的许多大型的古代 文献检索平台,往往由商业公司开发设计,仅仅提供信息服务的“全文检索 ,而且 一般是基于单汉字的检索,古籍分析系统研究缺乏,分析系统是由计算机提供经过分 析筛选的条理化的信息,带有智能化的特点,可以直接完成一些重要的课题,从而完 成人力无法完成的任务。例如:字频统计、格律分析、用韵分析、话语系统分析等等。 古籍文献地名的识别抽取是实现古籍文本标引和检索从单汉字层次向词、概念层次的 过渡,最终应用于古籍全文检索系统、图像检索系统,将现有古籍检索系统逐字匹配 的模式改进至基于词的层面,从而为提高检索的查全查准率提供了有效的工具和手 段。同时,对构建和完善古籍词典、标引古籍文献、编制索引等都有着重要的意义。 建立电子语料库、知识数据库等,不仅可以服务于文献的数字化进程,还可以延 伸成为高效检索系统的重要依据。 1 5 章节安排 第一章首先概述了与本文内容相关的研究成果,接着介绍了本文的研究内容、研 究方法,并讨论其研究意义。第二章主要介绍了先秦地名知识库的结构,包括建库构 思,基本数据准备,库结构的制定,地名知识的提取和入库等内容。第三章完成基于 条件随机场模型的左传地名自动识别任务,并选取国语一万字语料作为测试。 第四章在第三章的基础之上,对已识别地名进行自动分类。第五章利用最大熵模型抽 取地名关系,主要是对“国名一城邑名 层级关系进行抽取。 第二章先秦地名知识库的结构 第二章先秦地名知识库的结构 这一章主要介绍了地名知识库的构建流程。第一节首先介绍了与本课题研究相关 的两个基本概念,即:数据库和知识库,以及它们的区别。第二节界定了本研究中的 地名知识库的概念及体系。第三节详细介绍了地名知识库构建的步骤,包括需求分析、 语料选取,数据项的选取和库结构的构建、数据的抽取以及填充等。 2 1 相关研究的介绍 本文旨在构建一个可供查询的地名知识库,涉及到知识库和数据库的相关研究。 这一小节中我们主要介绍一下学界有关知识库的定义,并对先秦地名知识库进行界 定。同时,数据库技术广泛应用于众多领域,包括图书馆数据库建设、档案数据库建 设、专家数据库建设等。本节主要提及与本文相关的地名数据库建设的内容。 2 1 1 知识库和数据库 近年来,计算机应用进一步深入到知识处理领域,对知识库的研究以及对知识库 管理系统的构建也同趋增多。一方面,提出了知识库的相关理论;另一方面,着重对 知识库模型、知识发现技术的应用等问题进行深入探讨。知识库发展的趋势是朝着综 合型知识库的方向迈进。这旱值得一提的是,北京大学计算语言学研究所完成了一项 科研成果“综合型语言知识库。该成果是以汉语为核心的多语言知识库建设中最全 面、最重要的研究成果,总体上达到了国际领先水平。其包括5 项语言数据资源和两 个应用系统:( 1 ) 现代汉语语法信息词典( 8 万词语) 、( 2 ) 汉语短语结构知识库( 6 0 0 多条规则) 、( 3 ) 中英文概念词典( 1 0 力概念) 、( 4 ) 现代汉语大规模基本标注语料库 ( 5 0 0 0 多万汉字) 、( 5 ) 汉英双语平行语料库( 8 0 万句对) 、( 6 ) 基于语料库的双语词 典编纂平台、( 7 ) 信息提取系统,含词语切分和词性标注软件。该“综合型语言知识 库为以汉语为核心的多语言信息处理事业提供了研发经验。 综合考虑前人研究中对知识库及知识库系统的界定,总结有以下几个特点: 1 知识库构建的目的是某一( 或某些) 领域问题求解的需要。 2 内容上讲:知识库是关于某一领域的知识的集合,包括陈述性知识、过程性知 识和策略性知识。形成一个知识域,该知识域中除了事实、规则和概念以外,还包括 各种推理、归纳、演绎等知识处理方法。 3 形式上讲:知识库是知识片的集合,知识片包括与领域相关的理论知识、事实 数据,由专家经验得到的启发式知识等,采用某种( 或若干) 知识表示方式在计算机 存储器中存储、组织、管理和使用,并且互相联系互相依赖。 4 应用上讲:知识库的构造必须使得其中的知识在被使用的过程中能够有效地存 取和搜索,库中的知识能方便地修改和编辑。同时对库中知识的一致性和完备性能进 1 1 第二章先秦地名知识库的结构 行检验。 5 知识库系统的实现主要涉及知识的表示、利用和获取,以实现知识的检索,满 足用户需求。 构建知识库的过程中,需要有效地结合数据库技术。知识库系统的研究要充分利 用数据库系统的研究成果和开发经验。数据库和知识库是有区别的:数据库存储的是 大量的数据,而知识库存储的是大量的事实、规则和大量完整性约束。数据库结构简 单,数据类型少,一般人员即可更新,而且是即时查询;知识库结构复杂,数据类型 多,需要专家更新。数据库是历史数据,是静态的。知识库动态数据,既有历史的又 有现在的;数据库系统的研究重点是数据模型,知识库系统的主要研究目标是如何有 效地实现知识的表示和获取问题。 将数据库技术与知识库技术结合起来,构造大规模的知识库系统,其知识量可达 海量条规则与事实,而且从知识库中存取知识如同从数据库中存取数据一样迅速方 便,这将是知识库系统的发展趋势。 2 1 2 地名数据库 现代社会是电子信息化社会,地名信息作为国家基础地理信息的一部分,是国家 信息化建设不可或缺的内容。而地名数据库建设作为开拓地名信息化的基础性工作, 受到广泛地重视。学界关于建立地名库的讨论也日趋增多。 江春发在城市地名库的建立一文中提出地理信息系统中一个实体如某栋大楼 的定位依据是该实体所处的地理位置,即经纬度或地方坐标。计算机正是根据地理位 置来组织实体,把现实世界展现于计算机屏幕上的。地名数据库就是要为一条条的地 名赋予一对对坐标值。经过外业调查、数字化和汇总处理目前已初步建成了厦门岛( 含 鼓浪屿区、思明区、开元区、湖里区) 1 3 2k l i l 2 的地名数据库,该库大约有地名3 5 0 0 0 条,合6 m 大小。该库以e o o ,d b f ,d x f 等格式提供给厦门市各专业全球定位系统使用。 郜卫红在建立地名数据库的有关技术问题一文中提出了建立地名库的几项主 要技术问题,同时探讨了相应的解决方法。对地名数据结构的设计提出了几点建议: 1 用户需求分析;2 数据项;3 数据逻辑结构。指出数据库实际过程中可设计三种查 询方式:定性、定位、综合。文中地名库基于使用需求和建库能力两种原因总体上采 用分级的系统设计思想,为尽可能大的减少一次性建库的工作量,而使得各级地名库 能够利用有限的系统资源容量、速度及软件实现对地名信息的输入,管理与应用。因 此,有关专家根据目前及可预测的未来对地名信息的应用需求,从实际建库能力出发, 提出了地名数据库总体上采用分级的系统设计思想。 从上文介绍可以看出,前人的研究中提出了很多地名数据库的构建方法和理念, 这些都将是我们借鉴和参考的宝贵资料。但是,这些研究的重点大多放在地理位置信 第二章先秦地名知识库的结构 息的组织和统计上,目的是为了城市规划建设,为民政全方位服务社会搭建一个新的 平台。鉴于处理对象的不同,本文的地名知识库将目光主要投向地名的知识性信息。 从语言学角度出发,借鉴历史学、文献学中的地名研究成果,利用信息处理技术,挖 掘地名知识,从而建立一个地名知识库。我们不对古代地名所涉及的地理方位等因素 进行讨论,而是就地名本身,包括地名构成结构,地名知识应用等等。这样不仅可以 提供地理实体信息,而且也能从文本中挖掘到更为丰富的地名知识,丰富知识库的内 容。 2 2 地名知识库界定 我们借鉴知识库和数据库等领域的相关研究中的概念,进一步求同存异,在分析 本课题研究内容的基础上,提出了适合本课题研究中的地名知识库的相关概念。首先, 从以下几个角度界定“地名知识库”: 1 处理对象:先秦古籍文献中的地名。 2 应用对象:用户问题求解;历史学、文献学、出版学等研究领域查询资源;智 能信息处理系统等。 3 研究目标:利用信息处理技术挖掘先秦文献地名知识,有效实现地名知识表示 及结构设计,提高查询效率。 4 应用技术:中文信息处理技术,包括:机器学习、信息抽取、数据挖掘等,以 及p 数据库技术的应用。 5 操作形式:v f p 可视化界面,数据表关联原则,用户根据个人需求进行表问查 询获取相关知识。 6 特点:结构化

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论