(地图学与地理信息系统专业论文)中文文本空间关系标注方法研究.pdf_第1页
(地图学与地理信息系统专业论文)中文文本空间关系标注方法研究.pdf_第2页
(地图学与地理信息系统专业论文)中文文本空间关系标注方法研究.pdf_第3页
(地图学与地理信息系统专业论文)中文文本空间关系标注方法研究.pdf_第4页
(地图学与地理信息系统专业论文)中文文本空间关系标注方法研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(地图学与地理信息系统专业论文)中文文本空间关系标注方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 自然语言与g i s 的集成是目前g i s 的重要研究方向之一。由于自然语言的 词汇、句法和语义都存在不确定性,通过设计标注体系和语料标注实现自然语言 的形式化,有助于计算机获得更丰富、更有价值的空间信息,从而提高语言处理 水平。不同应用中的空间语言存在很大差异,研究者通常根据不同目的选择不同 的结构化方式。面向g i s 的空问语言形式化需要充分考虑g i s 和自然语言中地 理信息的表达方式。空间关系是地理信息的重要组成部分,本文围绕中文文本中 空间关系标注方法展开的研究,主要研究内容和成果包括三个部分: ( 1 ) 设计面向中文文本的地理命名实体和空间关系标记语言。标记语言是 构建空间关系语料库的基础,本文参考现有地理信息标记语言,在分析中文文本 和g i s 中地理命名实体和空间关系的表达特点的基础上,设计了相应的标记语 l 口o ( 2 ) 制定中文文本中地理命名实体和空间关系标注规范。通过分析和实际 标注地理命名实体和空间关系,将其在中文文本中的多种描述方式总结归类,并 举例说明不同情况如何标注,以规范语料库标注,使标注方式尽可能统一。 ( 3 ) 构建地理命名实体和空间关系标注语料库。为验证本文的标注方法, 选取中国大百科全书( 地理分册) 为数据源,自然语言处理软件g a t e 为标 注平台,构建地理命名实体和空间关系标注语料库。该语料库为文本中地理信息 抽取、空间场景构建等研究提供了数据基础。 本文研究表明,在充分考虑中文文本和g i s 中空间关系描述特征的基础上, 制定中文文本空间关系标记语言和标注规范,可以有效地标注中文文本中的空间 关系,为文本中空间关系抽取和场景构建提供了数据基础。 关键词:空间关系;标注方法;标记语言;标注规范:中文文本 a b s t r a c t a b s t r a c t n o w a d a y st h ei n t e g r a t i o no fn a t u r a ll a n g u a g ea n dg i sh a sb e e nap o p u l a rf i e l d o fr e s e a r c h b e c a u s eo ft h eu n c e r t a i n t yo fl e x i c a l ,s y n t a xa n ds e m a n t i ci nn a t u r a l l a n g u a g e ,m a r k u ps c h e m ea n dc o r p u st a g g i n ga r en e e d e dt o f o r m a l i z el a n g u a g e k n o w l e d g e ,t om a k ei tf u r t h e r , m u c hm o r ev a l u a b l ei n f o r m a t i o nw i l lb e a b s o r b e db y c o m p u t e r , w h i c hl e a dt oa na d v a n c e dl e v e lo fl a n g u a g ep r o c e s s i n g h o w e v e r , t h e u s e so fs p a t i a ll a n g u a g ea r em u c hd i f f e r e n tf r o me a c ho t h e ra st h ea p p l i c a t i o n sc h a n g e , r e s e a r c h e ru s u a l l ym a k eu s eo fs t r u c t u r em e t h o df r o mh i so w np u r p o s e g i so r i e n t e d s p a t i a ll a n g u a g ew h i c hb a s e do nf u l l yc o n s i d e r e do ft h ec h a r a c t e ro fg i sn e e d st ob e u n i f o r m e d g e o g r a p h i c a li n f o r m a t i o ni n c l u d e sg e o g r a p h i cn a m e de n t i t i e s ( g n e ) , p h y s i c a lp r o p e r t i e s ,s p a t i a lr e l a t i o n sa n ds p a t i a lo p e r a t i o n i nt h i sp a p e r , t h ea p p r o a c h o fh o wt os t r u c t u r eg n ea n ds p a t i a lr e l a t i o n si nn a t u r a ll a n g u a g ei sd i s c u s s e da sa n e x a m p l eo fg e o g r a p h i c a li n f o r m a t i o n 。刀) em a i nw o r k si n t h i sp a p e ra r el i s t e da s f o l l o w s : ( 1 ) d e s i g no fm a r ku pl a n g u a g ei nn a t u r a ll a n g u a g eo r i e n t e dg n ea n ds p a t i a l r e l a t i o n s t oa c h i v et h i s ,t h es t r u c t u r eo fg u ma n ds p t i a l m la r er e f e r e n c e d a f t e r c o m b i n i n gt h eg e n e r a lc a t e g o r yo fg n ea n ds p a t i a lr e l a t i o na n dt h ec h a r a c t e r so f s p a t i a le x p r e s s i o ni nc h i n e s et e x t ,am a r ku pl a n g u a g ei sm a d e i tm a i n l yc o n s i s t so f g n e ,d l i n k ,t l i n kw h i c hr e f e r r e d t og e o g r a p h i cn a m e de n t i t i e s ,d i r e c t i o n r e l a t i o nw h i c hc o n t a i n sd i s t a n c ei n f o r m a t i o ni ft h e ye x i s ti nt h et e x t ,a n dt o p o l o g y r e l a t i o n b e s i d e s ,t h ec o n j u n c t i o n sa n ds i g n a l st h a tc a ni n d i c a t es p a t i a lr e l a t i o n sa r e a l s oc o n s i d e r e d ( 2 ) s p e c i f i t i o nw h i c hd e s c r i b e sh o w t ot a gg n ea n ds p a t i a lr e l a t i o n si nc h i n e s e t e x t i nt h ed o c u m e n t ,t h ea n n o t a t i o ng r a n u l a r i t yo fg n ea n ds p a t i a lr e l a t i o n s ,w h a t k i n do ft e x tc a nb em a r k e d ,a n dh o wt om a r km u l t i - d i m e n s i o n a lo rn e s t e ds p a t i a l r e l a t i o n s h i p sa n ds oo na r ed e m o n s t r a t e d ( 3 ) c o n s t r u c t i o no fc o r p u st h a tc o n t a i n sl a b e l so fg n ea n ds p a t i a lr e l a t i o n s t ov a l i d a t et h es c h e m aa n d i n s t r u c t i o n s ,ac o r p u s i sm a d e u s i n g t h e ”e n c y c l o p e d i a - g e o g r a p h yo fc h i n a ”a st h ed a t as o u r c e ,a n dt h en a t u r a ll a n g u a g e p r o c e s s i n gs o l w a r eg a t ea sap l a t f o r m 1 h es a m p l ei n c l u d e s7 16 5c a s e so fg n e , i i a b s t r a c t 2 3 5 5c a s e so fs p a t i a lr e l a t i o n s h i p s i tc a nb eu s e da sr e s e a r c hm a t e r i a li nv a r i o u sw a y s s u c ha ss t r u c t u r eo fs p a t i a li n f o r m a t i o ni nn a t u r a ll a n g u a g e ,e x t r a c t i o no fg e o g r a p h i c i n f o r m a t i o n ,c o n s t r u c t i o ns p a c es c e n e sf r o mt e x ta n ds oo n t om a k ei ff u a h e r ,t h e o r a c l ed a t a b a s ei su s e dt os t o r et h ec o r p u s ,t h i ss t e pf i n a l l yi m p l e m e n tt h es t r u c t u r eo f g e o g r a p h i ci n f o r m a t i o ni nc h i n e s e t e x t t e x tr e s e a r c hs h o w st h a ts p a t i a lr e l a t i o n sc a nb el a b e l e do u te f f e c t i v e l y , b a s e do n t h es p a t i a lr e l a t i o nm a r k u pl a n g u a g ea n dt a g g i n gs p e c i f i c a t i o nt h a tt a k i n gf u l la c c o u n t o ft h ec h a r a c t e r i s t i c sd e s c r i b e di nt h ec h i n e s et e x ta n dg i s ,w h i c hw i l lp r o v i d ed a t a b a s i sf o re x t r a c t i n gs p a t i a lr e l a t i o n sa n dr e c o n s t r u c t i n gs c e n e sf r o mt e x t k e yw o r d s :s p m i mr e l a t i o n ;t a g g i n gm e t h o d ;m a r k u pl a n g u a g e ;s p e c i f i t i o no f t a g g i n g ;c h i n e s et e x t 1 i i 第1 章绪论 1 1 研究背景和意义 第1 章绪论 地球空问信息的认知是构成2 l 世纪地球信息科学理论体系的重要内容【l 】。 对空间信息的认知影响到地理信息的广泛使用【2 】。智能g i s 是g i s 在计算机智能 化发展大背景下的必然发展趋势【3 】。作为人工智能领域与g i s 结合的产物,智能 g i s 必须解决从“现实地理世界一地理空问认知一自然语占一地理语言一计算机 语言”之间的无缝语义链接问题,其中自然语言理解是智能g i s 的核心。人类对 现实世界的认识表现为语音、图像、文字等多种自然语言形式。文本作为最常用 的自然语言,从中获取未分析的、非显示的空问知识已成为当前地理信息科学迫 切需要解决的问题【4 】。非结构化文本到结构化空间信息的转换是g i s 智能化的重 要基础。 空问知识的内在结构、表达及理解机制则是实现空问信息获取、管理和处理 的重要基础【5 】。近年来,计算语言学迅速发展。人们可以对自然语言进行词性标 注、句法分析及语义框架标注等处理,为信息检索、信息抽取带来了极大便利。 语料库是以计算机为工具建立、存储和使用的语言素材集合,并可对其中的语言 素材进行检索、分析和处理,得出语言的特征和规律,是对语言某个方面进行研 究的基础扣,n 。基于大规模真实语料,一方面可以对汉语进行定性与定量相结合 的分析研究,为计算机汉语处理提供系统的数据和规则,另一方面又可直接支持 基于语料库的各类计算机应用系统的开发,丌拓特别领域应用的市场【8 】。自然语 言应用技术,尤其是自动、移动辅助系统,处理空间信息的能力不可避免。命名 实体分析和其它很多空间语言处理技术都受益于知识资源。人们不能仅依赖聪明 的算法,也需要标注语料库,地名词典以及其他机器可读的参考资料来驱动系统 【9 】。语料库的构建则需要对语言中特定信息进行分析,制定该领域信息的结构化 表达方案,以及结合语言特点的标注规范。地理信息的结构化在g i s 领域和自然 语言领域都可以发挥重要作用,结构化的数据使人们更高效地发现空间语言的表 达规律,将这些信息与g i s 结合,可以进行自然语言查询或空问推理,或辅助 g i s 进行决策,拉近g i s 与大众的距离。 1 2 国内外研究现状 目前自然语言与g i s 的结合多集中在受限前提下,语言学角度的空间关系描 第l 章绪论 述与g i s 的描述应该有更灵活的关联。语料库是发现自然语言表达规律,充分挖 掘空间关系描述模式的重要手段。标记语言是非结构化信息转换成结构信息的必 要手段,并且便于数据共享,近年来,标记语言被大量用于标注非结构化信息, 从而实现标注语料库的构建。地理标记语言和地理信息标注语料库的探讨为本文 的研究提供了基础。 1 2 1 自然语言与g i s 集成 为了提高空间信息的大众普及性,自然语言越来越多地应用于g i s 领域【l o l , 如基于自然语言的空间数据库查询,基于文本的空问场景重建等。一些学者提出 用自然语言处理技术提高信息系统管理的方法 1 。徐爱萍、孟小峰通过语义依存 树,将自然语言查询语句转换为s q l 语句,从而实现对数据库的查询【1 2 l3 1 。f a n g j u w a n g 提出了基于可能性理论的g i s 数据库模糊语义查询接口研刭1 4 】。利用规则 和模式库解析自然语言语句是比较常用的数据库查询方法( 1 5 。17 1 。数据库查询通常 涉及空间关系,许多学者对汉语描述各种空间关系的空间词汇及其句法模式, g i s 中自然语言空问关系查询请求的句法模式及其解析方法进行了研究【1 8 , 1 9 1 。马 林兵提出了基于上下文无关文法规则的自然语言查询语句形式化方法,并给出移 动终端原型系统实现,文章中对空间关系的类型、各类型查询模式、空间谓词进 行了研究 19 1 。张翎研究了基于受限自然语言的g i s 人机对话关键技术,通过受 限自然语言实现自然语言与g i s 的双向转换【2 例。自然语言也可以直接驱动 a r c g i s 。s h a p i r o 等人实现了一个基于s n e p s ( 语义网处理系统,s e m a n t i c n e t w o r k p r o c e s s i n gs y s t e m ) 的a r c i n f o 自然语言操作界面叫u b r i c o n 【2 1 1 ,许琚研究 了线状地理特征空间关系的自然语言描述的形式化表达,并使用s n e p s 建立了 a r c g i s 的自然语言操作界面【2 2 ,2 3 1 ,r a u s c h e r t 等人设计实施的用于紧急情况处理 的d a v eg ( d i m o ga s s i s t e dv i s u a le n v i r o n m e n tf o rg e o i n f o r m a t i o n ) 采用语音识 别和虚拟现实技术,可以通过自然语言和手势相结合的方式来操作a r c g i s 2 4 】。 李晗静对基于方向词的空间内实体的自动摆放进行了研究,该研究基于方向 介词、方向词词库抽取出实体间空间关系 2 5 1 。场景重建是指根据文本描述自动生 成静态或动态场景。a t & t 实验室丌发的w o r d s e y e 系统,能够根据文本的简单 描述生成静态的三维场景,由于英文文本中表达空间关系的词汇比较固定,如i n 、 u n d e r 、o n 等,面向英文的场景构建系统并不需要研究复杂的文本描述方式【2 q ; 瑞典l u n d 大学研制的c a r s i m 系统,是专门恢复交通事故描述场景的平台,该 系统使用交通事故报告作为语料库,研究交通事故的结构化方式和场景构型2 7 1 。 以上系统都能够一定程度的理解自然语言,具有句法分析、依存关系分析、实体 关系抽取等功能,在一定程度上,直接处理解决了自然语言的歧义性、部分性。 2 第l 章绪论 可以看出,自然语言已在空间领域得到广泛应用,但是绝大多数的描述仍然 只是属于自然语言子集合。自然语言与g i s 的集成研究在不同方面,不同程度受 限,包括词汇受限,句型受限,语义受限,语用受限等。空问关系构成了空间环 境一个极其重要的概念领埘2 羽,如何采用有效方式丰富自然语言空间关系与g i s 的交流,具有重要的研究意义。语料库是对语言某个方面进行研究的基础【2 9 1 。基 于大规模真实语料,一方面可以对汉语进行定性与定量相结合的分析研究,为计 算机汉语处理提供系统的数据和规则,另一方面又可直接支持基于语料库的各类 计算机应用系统的开发,开拓特别领域应用的市场【8 】。 1 2 2 地理信息标记语言 g m l ( g e o g r a p h ym a r k u pl a n g u a g e ) 以一种互联网上容易共享的方式来描 述、表达现实世界中的地理信息。g m l 以地理特征( f e a t u r e ) 作为现实世界对 象的一个抽象,地理特征由一系列属性( p r o p e r t i e s ) 及几何信息( g e o m e t r i e s ) 组成,其中几何信息必不可少。此外,g m l 还可以通过坐标表达地理要素间的 方向关系,对象之间的关系表现为两个对象的属性。但是,这种描述方式仅限于 结构化地理数据【3 0 1 。g o o g l e 基于g o o g l ee a r t h 丌发的k m l ,用来描述和保存地 理信息( 包括点、线、图片、折线) 等,具有丰富的展示功能。与g m l 类似, 他们均致力于精确表达地名和方向关系。 t r m l 和m e t a c a r t ag e o t a g g e r 都用于标注文档中的地名,在通过某些智能 化手段确定用户所指地名之后,从g a z e t t e e r 中提取出对应地名相关信息,主要 包括要素名称、几何类型、经纬度、上层实体等,形成标记文件 3 1 , 3 2 】。 t e s l a 用于标注实时路径描述的语音语料。比如,某车上的乘客为告诉朋 友如何到达目的地,就以录音形式记录行车路线,并提醒朋友一些明显的标志物 ( 例如大型商业中心,博物馆,学校等) ,同时记录下g p s 返回的坐标信息。与 语料中地名相关联的g p s 坐标信息将被视为语料的一部分。该系统可以与g i s 数据库进行集成查询,查询结果在g o o s ee a r t h 上展示【3 3 】。 g u m 构建了专门的空间本体,并基于此本体进行自然语言空问表达式的形 式化。表达形式如下: s p a t i a l l o c a t i n gs l ( 1 0 c a t u mx x ,p l a c e m e n tg l ( h a s s p a t i a l m o d a l i t yx x , r e l a t u mx xi h a s s p a t i a l m o d a l i t yx x ,r e l a t u mx x + q u a n t i t a t i v e d i s t a n c e e x t e n tx x , r e l a t u mx x ) 必要时辅以n a m e r e l a t i o nn r ( a t t r i b u t ex x ,v a l u ex x ) 。g e n e r a l i z e d p o s s e s s i o n ( p o s s e s s o rx x ,p o s s e s s e dx x ) 。s p a t i a l m o d a l i t y 是指连接、相离、左、右、远等 关系状态。 第1 章绪论 s p a t i a l m l ( a n n o t a t i o ns c h e m ef o rm a r k i n gs p a t i a le x p r e s s i o n si n n a t u r a l l a n g u a g e ) 提供了一种自然语言中空问表达式的标注方案。它使用p l a c e 、l i n k 、 r l i n k 、s i g n a l 分别标注地理命名实体、拓扑关系、方向和距离关系、关系特 征词【3 5 , 3 6 】,对本文的研究有重要参考价值。 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩充置标语言) 是s g m l 的一个子集, 被广泛地用做语料库标注的元语言,通过s c h e m a 和d t d ( d o c u m e n tt y p e d e f i n i t i o n ,文件类型定义) 来规范x m l 文件,从而使表现与内容分离,规范与 实现分离,具有良好的扩缩性。我幽语料库的建设将一定会采用通用置标语言作 为描述语料库的元语言p 。 1 2 3 标注语料库 人类j 下在进入信息时代,语言文字的信息处理是我国信息化建设的“瓶颈”, 这是我国信息化进程中的必决之役、必胜之剧3 8 】。2 0 世纪8 0 年代以来,语料 库的建设得到了世界各国的广泛重视。建立高质量的、深加工的语料库,是自然 语言处理技术不断发展的重要的基础【3 9 】。 国内外大型语料库主要包括: r a n d o l p hq u i r k 建立的语言科学史上第一个 较大型的电脑语料库( j a ns v a r t v i ke ta 1 1 9 8 2 ) ,布朗语料库( b r o wc o r p u s ) ,兰开 斯特一奥斯陆卑尔根语料库【加j ;国家语言文字应用委员会主持建立的“国家现 代汉语语料库 ,台湾中央研究院建设的含分词和词类标记的平衡语料库,中港 台汉语语料库【3 9 】。这些大型语料库多从语言学角度出发,并不关注地理空间信 息。 1 9 9 2 年以来,大量语料库在研究中文信息处理的单位建立起来,北京大学计 算语言学研究所、清华大学等1 5 所单位建设了大规模真实文本语料库。北京 大学计算语言学研究所和富士通研究开发中心有限公司共同制作的人民日报 标注语料库,对地名、机构名以及其他专有名词进行了标注,并形成现代汉语 语料库加工词语切分与词性标注规范,语料库正确率达到了国内最高水平。 山西大学标注了2 8 0 万字的地名语料库和5 0 力字的机构名语料库。上海师范大 学根据北京大学的标注规范建立了3 0 0 万字的标注语料库【37 。微软亚洲研究中 心建立的微软语料库对地名、人名、机构名做了标注。以上语料库只是简单标注 地名,并未标注地名的类型或其他属性。a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 评 测提供的语料库对地名及其类型进行了较为细致的标记,实体间关系亦有标注, 其中两种关系属于空间关系范畴。李晗静以场景构建为出发点,以中文版伊索 寓言4 3 2 篇为数据样本,标注地名、人、物等实体,实体之间的空间关系 用于指代实体间的空间结构,分为部分整体和容器两种( 纠。乐小虬对空间实体, 4 第l 章绪论 空间关系为主题进行的标注比较符合本文对地理命名实体和空间关系的定义,但 他仅标注了3 0 篇文档进行初步研究,并未形成讵式规范】。另外,语料库的构 建普遍存在自动化程度不高,成本大,周期长,更新困难等问题【4 3 j 。 p u r s u i t 是以t e s l a 系统建立的语音空间语言标注语料库。比如,行车路 线录音,其中包括一些明显标志物( 例如大型商业中心,博物馆,学校等) 或地 理实体( 包括街道、交叉口和地址) 的坐标信息,这些信息来源于g p s 实时返 回或特定g i s 数掘岸3 3 】。 综上所述,地理信息标记语言、地理数据的语义标注已得到广泛研究,为文 本中地理信息的结构化提供了研究基础。但是不同标记语言有不同的适用范围, 标注语料库也各有侧重,面向自然语言的地理信息结构化仍然需要解决如下问 题: ( 1 ) 自然语言与g i s 结合的研究多集中在受限语言领域,要想进一步深化 两者的集成,语料库是一个重要的解决方法; ( 2 ) 目前的地理信息标记语言多用于标注结构化信息,非结构化信息的标 注主要集中在英语类语言领域,面向中文的地理信息标记语言需要进一步研究和 改进; ( 3 ) 文本中地理命名实体和窄间关系的描述灵活多变,错综复杂,即使制 定了标记语言,在进行中文标注时仍会遇到很多不确定性问题。目前还没有系统 化的空问关系标注规范,人民同报语料库的制作者编写了细致完善的标注细 则,为本文标注规范的制定提供了很好的参考; ( 4 ) 语料库在自然语言处理中的重要作用已得到广泛认可,但现有汉语语 料库针对语言学领域的居多,面向专门领域的很少,空问关系语料库具有重要研 究价值,具有一定规模的空间关系标注语料库尚待完善。 1 3 研究内容与技术路线 本文参考现有地理标记语言,地理信息语料库构建方法,研究中文文本中空 间关系语料库的构建方法。结合g i s 中空间关系分类和自然语言空间关系表达特 点,设计空间关系标记语言;参考现有语料标注规范,结合实际语料标注操作和 中文空间关系描述模式,制定和完善空间关系标注规范。为验证标注方案的有效 性,本文以大百科全书( 地理分册) 为数据源,以g a t e 为标注平台,在语 料库制作理论的指导下,构建空间关系标注语料库。并进一步提取标注信息,将 其存入关系数据库进行统计分析。分析结果反馈的信息再进一步帮助改善语料库 标注方案。由于地理命名实体是空间关系的必要组成部分,本文对空间关系标注 第1 章绪论 方法的研究已默认包含地理命名实体的标注研究。 本文研究的技术路线如图1 1 所示: 图1 - 1 论文技术路线图 ( 1 ) 标记语言设计。标记语言也可称作标记s c h e m a ,提供非结构化信息的 结构化框架,是信息标注的前提。本文首先分析了g i s 领域常用空间关系类型, 然后结合自然语言的表达特点,去掉在自然语言中不常见的关系类型,最后按照 s c h e m a 的格式制作地理命名实体和空间关系标记语言。 ( 2 ) 标注规范制定。由于中文文本表达灵活多变,文本中地理命名实体和 空间关系的描述随描述者文化背景,个人特征等的不同存在很大差异。标注规范 提供语料标注的约束,中文文本地理命名实体和空间关系标注规范通过两种途径 完善,一是充分分析文本中各种表达式,二是通过实际语料标注发现问题并不断 改善标注规范。 ( 3 ) 标注语料库构建。语料库构建是检验标注方案的有效手段。本文制作 了中国大百科全书( 地理分册) 标注语料库来验证空间关系标注方案,同时 通过实际标注发现问题,以不断改善标注方案。 6 第l 章绪论 1 4 论文组织 全文共分五章,第一章介绍本文的选题背景和意义,并对国内外相关方向的 研究现状进行阐述;第二章介绍地理命名实体和空间关系在中文文本和g i s 中的 不同表达特点,在此基础上制定各自的标记语言:第三章针对中文文本复杂多变 的特点,制定详细的标注规范;第四章以g a t e 为平台进行地理命名实体和空间 关系的语料库构建,并开发语料库管理系统进行语料的系统管理 = f i 杯注结果的结 构化存储;并对语料库进行统计分析,同时也是对文本中空间关系表达特点和标 注特征的分析,进而引发出文本中地理信息结构化仍然存在的一些题;第五章 总结本文研究内容,并对自然语言地理信息结构化和地理信息语利f ,| :的应用前景 进行展望。 7 第2 章面向中文文本的空间关系标记语言设计 第2 章面向中文文本的空间关系标记语言设计 2 1 空间关系描述特点 i s o t c2 1 1 中将地理信息定义为与地球上的位置直接或i 日j 接相关的现象的 信息l ( 全国地理信息标准化技术委员会,2 0 0 4 ) ,表示地表物体及环境固有的数 量、质量、分布特征、联系和规律。在g i s 中,地理空间的描述通常围绕空间实 体、空间关系及时空过程三个方面展开【4 5 1 。本文围绕空问关系开展语料库构建研 究,地理命名实体是空间关系的组成部分,所以在描述空间关系时,一律以地理 命名实体为| j 提。 2 1 1 地理命名实体描述特点 命名实体是指现实世界中的具体的或抽象实体的标识符( 特殊短语) ,通常 用唯一的标志符( 专有名称) 表示【4 6 , 4 7 1 。地理命名实体( g e o g r a p h i c a ln a m e d e n t i t i e s ,简称g n e ) 是指运用自然语言描述的具有地理位置特性的命名实体, 包括地名、地址、机构名、邮政编码等等。 作为地理命名实体的最重要组成部分,地名具有浓厚的语言表达特征。根据 地名学概论中的定义,地名是人们对具有特定方位、地域范围的地理实体赋予的 专有名称,是区别某一特定地理实体与其他地理实体的一种标志。地名命名、结 构形式是人类的认识成果,积淀了人类的思维方式和心理特征,反映了民族文化, 民族认知的特点【4 8 ,4 9 1 。当然,地理命名实体的范畴大于地名,它包含了除地名之 外的无具体名称或具体所指的地理实体。空间实体往往具有模糊性、不确定性和 多维动态的特点【5 0 1 。自然语言中的地理命名实体表达主要有以下特点: ( 1 ) 地理命名实体用字比较自由、分散,同时又有相对集中的覆盖能力【”】; ( 2 ) 地理命名实体结尾经常有地名特征词出现,如“省、路、山”,这对地 理命名实体和地理命名实体类型起到一定的标识作用。如江苏筑文苑膨; ( 3 ) 地理命名实体可由地名加方向词构成。如盈短达丝塑7 x l 景很美; ( 4 ) 大多数情况下,地理命名实体作为名词出现,偶尔作为形容词修饰其 它实体。如者群槐蜜,虏磅盐水鸭。, l g e o g r a p h i c a li n f o r m a t i o n :i n f o 姗a t j 伽c 伽c e r n i n gp h 即o m 铋ai m p l i e i t l yo r 既p l i e i t l ya s s o c i a t e dw i t hal o c a t i o n r e l a t i v et ot h ee a r t h s p a t i a la t t r i b u t e :f e a t u r ea t t r i b u t ed e s c r i b i n gt h es p a t i a lr e p r e s e n t a t i o no f t h ef e a t u r eb y c o o r d i n a t e s ,m a t h e m a t i c a lf u n c t i o n sa n d o rb o u n e a r yt o p o l o g yr e l a t i o n s h i p s ( i s o t c2 1 im u l t i l i n g u a lg l o s s a r y o f t e r m s h t t p :w w w i s o t c 211 o r g ) 第2 章面向中文文本的空间关系标记语言设计 2 1 2 空间关系描述特点 空间关系是指地理实体对象之间存在的具有空间特性的关系,主要描述具有 一定位置、形态和属性的空间对象( 包括单目标和群目标) 之间的各种几何关系 【5 2 1 ,是客观世界里一种基本的存在关系5 3 1 。作为人类对地理现象或环境的认知 概念在g i s 中的直接反映,空间关系在现实世界空间知识中占有很高的比例【5 3 1 , 其描述和应用离不丌空间认知。要达到这一目标,g 1 s 必须能够接受人们对地理 现象或环境的认知和描述,能正确理解用户输入的概念,并且能把处理的结果按 照符合认知要求的形式输出【5 0 1 。基于认知原则的空间关系是高度复杂的 5 4 1 。 文本中空| 日j 关系主要包括“目的物”、“参照物 和“空问参照系统”等要素 5 5 , 5 6 1 。空间方位参照反映语言与认知空间中方位关系的认知过程和认知方式,是 一种立体的、抽象的、深层的认知结构。根据空间方位参照理论可将方位关系分 为三类:绝对的( 东南西北等) 、相对的( 上下左右前后等) 和基于观察者的【5 7 】 或外部的( e x t r i n s i c ) 、直接的( d e i c t i c ) 和内部的( i n t r i n s i c ) 。地球表面 的外部参考框架经由投影转换到二维甲面上,一般可以得到以东、南、西、北四 个主方向描述的方向系统;直接参考框架是基于观察者的观点建立,一个观察者 以他自己的前前、后、左、右等对空间进行划分,建立空问方向判断的参照系统; 内部参考框架是一个目标在自身内部建立的方向参照系统,多用前、后、左、右 等术语描述。内在关系将两个或多个物体作为构成成分,按照其它物体( 参照物) 来指定某个物体( 目标物) 所处的位置。在日常生活中,空间方向关系是一类比 拓扑关系使用频率更高的空问关系【5 8 1 。现代汉语中方向包含三层含义:一是指东 南西北等;二是指正对的位置,i i 进的目标;三是情势。空间层面的方向分为水 平方向、垂直方向、辐辏方向、泛方向等【5 9 】。 近年来,人们对汉语中空问关系的词汇、语义、演变、性质和作用等进行了 较为广泛的研究咖彤】。一些学者对空间关系的语义特征进行研究,指出动词类、 形容词类、方位词类、量度词类、名词类词汇具有空问关系语义,如穿越、附近 的、东边、距离、支流等。空问关系词汇有两大功能,一是做句子的动词,反映 主语和谓语的关系,如“桥梁跨过河流;二是作为各级无语义的、同义的语言 单位之问的组合约束,成为词法和句法的一部分【6 6 , 6 7 。词语之间存在并置关系, 有些词经常在一起,有些词却很少在一起,空问关系与参与者存在这种关系,这 种并置关系有助于人们发展自然语言表达空间关系时的潜在规律【6 7 】。方位词通过 一定的语法结构表达物体之间的拓扑、方向两类空间关系。比如,“( 在+ ) 名( + 的) + 空间方位词( + 距离) 的语法结构可以表达距离关系【5 9 1 。自然语言中空间 关系的另一典型特征就是有程度副词修饰,如“非常”、“大概”、“差不多 等【5 0 1 。 9 第2 章面向中文文本的空间关系标记语言设计 空间实体类型和层次上的多种多样,以及实体本身的模糊性、不确定性和多 维动态特点决定了实体间空间关系的模糊性和复杂性【5 4 1 。自然语言中空间关系的 描述不仅与空间实体的类型、几何特征有关,而且受描述者本身的影响,例如描 述者的个人特征和文化差异,不同语言对物体的空间关系的认知过程和认知方式 及其表达结构有所不同1 6 8 , 6 9 】。习惯的空间术语影响表达方式,比如南方大学生在 表达空间方位时更多相对参考框架,而北方大学生更多使用绝对参考框架【7 0 1 。 n c g i a 较为深入地研究了英语词汇与拓扑关系之阳j 的对应关系。研究表明,同 一词汇在不同环境下可以表示不同的空间关系,而同一种拓扑关系可以由不同词 汇来表达【6 引。 2 1 3 中文文本和g l s 中地理信息表达方式对比 g i s 领域的空间关系一般指简单实体间空间关系,即拓扑关系、度量关系、 顺序关系 1 4 , 7 1 - 7 3 】。距离关系和方位关系分别为度量关系和顺序的主体,在空间关 系分类时,通常以距离代替度量,方位代替顺孚【5 7 , 5 8 , 7 4 - 7 6 1 。g i s 软件通常以结构 化的方式精确表示地名及其空间关系,自然语言则以非结构化方式描述地理命名 实体和空间关系。中文文本与g i s 中空问关系的对比见表2 1 ,2 2 。 表2 1中文文本与g i s 中地理命名实体表达对比表 中文文本g i s 文本形式的坐标,或者是文本描坐标,每个地名均有明确坐 位置 述的相对位置标 属性非结构化的文字结构稳定的关系表 实体维度受到描述者、参照物等实体按照点、线、面、体精 维度影响确分为0 维、l 维、2 维、3 维 范围一般带有模糊性,可以表达具有确定,各地名均有确定界限 模糊边界的区域,如浙北 存储方式方式灵活,可存储文本的任何格文件+ 关系表;不同类型可 式能分层存储 标识符无唯一标识符,但实体结尾通常每个地名都有唯一标识符 有特征词 第2 章面向中文文本的空间关系标记语言设计 类型丰寓:包含、穿越、环绕、类型同定:邻接、包含、关 类犁 替置联 绝对方向、或以人为中心的相对人地坐标,地理坐标 参考框架 方向 存在如“a + 在+ b + 方向词”此类存储文件的同时记录空间 描述方式规律关系,且一种空间关系只存 在丁特定维度要素之间 除每化表达外,存在如“远、近” 尺度 以数据来量化尺度 此类模糊尺度 深加t :空间推理 空问分析 对比中文文本和g i s 中对地理命名实体和空间关系的不同描述方式,可以更 加确定自然语言中地理命名实体和空间关系的标注需要充分考虑一种语言的表 达特点,然后制定相应的标记语言。 2 2 地理命名实体分类 地理命名实体分类是地理信息实现管理、存储、查询、集成与共享的基础。 恰当的分类体系,是实现文本、语音、视频、电子地图或其它信息系统中地理命 名实体的解析、查询、集成、共享和互操作等的重要基础【7 7 】。美国亚历山大数字 图书馆( a l e x a n d r i ad i g i t a lli b r a r y ,a d l ) 整合并创建的“地理主题词表”( f e a t u r e t y p et h e s a u r u s ,f t t ) 是目前较完整的地理命名实体分类体系。f t t 概念粒度大, 只有两个等级层次,不包括地址和组织机构等,主要用于全球范围地名的分类 【9 5 1 。“地名分类与类别代码编制规则”( g b t1 8 5 2 1 - - 2 0 0 1 ) ,分“自然地理实 体”和“人文地理实体”两大类,小类中有5 1 个类名为“其他的类目,导致 分类专指性不强【矧。“基础地理信息要素分类与代码 ( g b t1 3 9 2 3 2 0 0 6 ) 综 合考虑了各级比例尺地形要素,可以满足大、中、小不同比例尺基础地理信息数 据的采集、建库以及数据交换、应用等需求,是国内目前较完善的地理要素分类。 由于不同的地名分类体系在颗粒度、侧重点上均有差异,标记语言中的地理 命名实体类型应该根据实际应用选择合适的分类体系。考虑到自然语言的表达错 综复杂,有些类别的地理命名实体在自然语言中很少出现,有些类别定义则界限 模糊。为便于语料库标注工作,本文引用虚拟地理环境实验室制作的地理命名 实体要素类型分类体系( g n e c ) 的两级顶层分类作为分类参考1 7 7 1 ,该分类体 系通过分析大量中文文本来进行修改和完善,比较适合于自然语言中地理命名实 体的标注。其顶层分类如表2 - 3 所示: 第2 章面向中文文本的空间关系标记语言设计 表2 - 3 地理命名实体要素分类人类 分类代码 要素类型 水系 居民地及设施 交通 管线 境界、政区与其他区域 地貌 组织机构 其他 2 3 空

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论