(计算机应用技术专业论文)从大规模中文语料中获取知识模式的研究.pdf_第1页
(计算机应用技术专业论文)从大规模中文语料中获取知识模式的研究.pdf_第2页
(计算机应用技术专业论文)从大规模中文语料中获取知识模式的研究.pdf_第3页
(计算机应用技术专业论文)从大规模中文语料中获取知识模式的研究.pdf_第4页
(计算机应用技术专业论文)从大规模中文语料中获取知识模式的研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)从大规模中文语料中获取知识模式的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

厂 丫llii1i18li11hi19i4ii17llll6ll 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名萎易晤 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向 国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权首都师 范大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印 或扫描等复制手段保存和汇编本学位论文。 本论文属于保密,在2 年解密后适用本授权书。 不保密口。 ( 请在以上方框内打“一) 学位论文侈者签名粜曼嗍 日期:2 0 0 8 年5 月2 2 。日 。 指导教师签名: 日期:2 0 0 8 年5 月2 2 日 本文受 国家8 6 3 项目脚本驱动的动画制作方法和系统研究” ( 项目编号2 0 0 7 a a 0 1 2 3 3 5 ) 国家自然科学基金项目非规范知识处理的基础理论和核心技术研究 ( 项目编号6 0 4 9 6 3 2 6 ) 国家自然科学基金项目基于知识的多角色群体行为和情绪模型研究 ( 项目编号6 0 5 7 3 0 6 3 ) 资助 _ _ _ _ _ _ _ _ 。_ _ _ _ 。1 摘要 知识获取被认为是一项非常困难和耗时耗力的任务,几十年来一直是阻碍智 能系统等研究和开发的瓶颈问题。互联网时代,大量的信息都以非结构化的文本 形式存在。由于自然语言处理的歧义性( a m b i g u i t y ) 和非规范性( i l l f o r m e d n e s s ) 两大类问题,使得计算机自动文本知识获取被认为是一项非常困难和费时的任 务。基于模式的方法在文本知识获取系统中被普遍使用,并取得很好的结果。因 此如何获取所需的模式成为重要的研究问题。本文主要研究如何从大规模语料中 获取语义模式,开展了如下的工作: 1 ) 非监督的介词动词模式自动获取。动词介词模式是自然语言表述关系型 知识的一种主要形式,通过“什么”疑问词的引入降低模式获取的复杂性。首先 引入了基于条件概率的过滤规则对介词动词组合进行过滤;然后构造查询项,通 过g o o g l e 搜索引擎从i n t e m e t 上获取语料;最后从“概念词和概念词之间的相关 性 、“概念词和模式词之间的相关性 和“模式词和模式词之间的相关性 的角 度定义了六种度量,并基于这几种度量对获取的模式进行评价。实验结果证明, 这六种度量是很好的模式定量特征。 2 ) 模式库的扩充。按照类比学习的思想提出了模式扩充的方法。以模式的词 汇语法层相关性为基础进行模式的扩充。最后沿用了模式获取阶段的模式评价方 法对模式进行评价。 3 ) 提出模式专一性的度量方法。模式的适用范围大小是基于模式进行知识获 取过程中重要的信息。适用范围体现在模式能表达的概念的类别集合上,而模式 不同位置( ) 能表达概念的类别集合是不同的,为此需要对模式的的不同位置 分别进行度量。我们将这种适用范围的大小的度量定义为专一性。本文分别通过 深度、概念集抽象和墒的方法度量专一性。通过分析发现这三种度量基本上与人 感觉的专一程度吻合。 关键词:国家知识基础设施,信息抽取,文本知识获取,模式获取,模式扩 充,模式专一性。 h a b s tr a c t k n o w l e d g ea c q u i s i t i o ni sc o n s i d e r e da sad i f f i c u l ta n dt i m e - c o n s u m i n gt a s ki na r t i f i c i a l i n t e l l i g e n c e , w h i c hb l o c k st h er e s e a r c ha n dd e v e l o p m e n to fi n t e l l i g e n ts y s t e m sf o rd e c a d e s i nt h e mo fi n t e r a c t ,al a r g ea m o u n to fi n f o r m a t i o ne x i s t si nt h ef o r m a to fu n s t r u c t u r e dt e x t t h e a m b i g u i t ya n di l l f o r m e d n e s so fn a t r u a ll a n g u a g e sm a k ea u t o m a t i ck n o w l e d g ea c q u i s i t i o nf r o m t e x td i f f i c u l t p a t t e r n - b a s e dm e t h o d sa r cc o m m o n l ya d o p t e di nk n o w l e d g ea c q u i s i t i o n ,a n dm a n y g o o dr e s u l t sh a v eb e e na c h i v e d h e n c e ,h o wt oa c q u i r et h ep a t t e r n sf o rk n o w l e d g ea c q u i s i t i o n f r o mt e x tb e c o m e e sa ni m p o r t a n tp r o b l e m ,a n di st h em a i nr e s e a r c ht o p i co ft h i st h e s i s 1 1 l et h e s i sc o n t r i b u t e si nt h ef o l l o w i n ga s p e c t s 1 a nu n s u p e r v i s e da u t o m a t i c a c q u i s i t i o n o fp r e p o s i t i o n - v e r b p a t t e r n si sp r o p o s e d p r e p o s i t i o n v e r bp a t t e r n sa l eam a i nf o r mw h i c hi su s e dt oe x p r e s sr e l a t i o n a lk n o w l e d g ei n n a t u r a ll a n g u a g e t h ec o m p l e x i t yo fp a t t e r na c q u i s i t i o ni sd e c r e a s e db yc o n s i d e r i n gt h e w h a t ”i n t e r r o g a t e f i r s t ,w ec o n s t r u c tt h ef i l t e r i n gm l e sb a s e do nc o n d i t i o n a lp r o b a b i l i t yt o f i l t e rp r e p o s i t i o n v e r bp a i r s t h e nw ec r e a t ea n ds u b m i tq u e r ys t r i n g st ot h eg o o g l es e a r c h e n g i n et oo b t a i nr e l a t e dt e x tf r o mt h ei n t c r n c t a tl a s t ,s i xm e a g u r e sa r c ( 1 e f i l l e d 谢t ht h e c o n s i d e r a t i o no ft h er e l a t e d n e s sa m o n gc o n c e p tw o r d s ,t h er e l a t e d n e s sa m o n gp a t t e r nw o r d s a n dt h er e l a t e d n e s sb e t w e e nc o n c e p tw o r d sa n dp a t t e r nw o r d s 1 1 圮p a t t e r n sa c q u i r e da e v a l u t e dt h r o u g ht h e s es i xm c a s u l 麓硼1 ee x p e r i m e n t a lr e s u l t si n d i c a t et h a tt h e s es i x m e a s u r e sa l ep r o m i s i n gq u a n t i t i v ef e a t u r e s 2 am e t h o do fe x p a n d i n gp a t t e r nb a s e si sp u tf o r w a r d t h ep a t t e r ne x p a n s i o ni sb a s e do n a n a l o g y t h er e l a t e d n e s si nt h el e x c i a l - s y n t a xl a y e ro fp a t t e r n si st a k e na sab a s i s t h e a p p r o a c ht ow a l u a t i n gp a t t e r n si si na c c o r d 、i t l it h ea p p r o a c ho f p a t t e r na c q u i s i t i o n 3 am e t h o do fm e a s u r i n gp a t t e r ns p e c i a l i t yi sp r e s e n t e d t h es p e c i a l i t yo fp a t t e r n sm e a s u r e s t h ea p p l i c a b i l i t yo fp a t t e r n s t l 地a p p l i c a b i l i t yi si m p o r t a n ti n f o r m a t i o nf o rp a t t e r n b a s e d k n o w l e d g ea c q u i s i t i o n t h ec l a s ss e to fc o n c e p t s ,w h i c hi se x p r c s g e g ii nap a t t e r n ,d e t e r m i n e s t h ea p p l i c a b i l i t yo ft h ep a t t e r n t h ec l a s sa c te x p r e s s e da td i f f e r e n tp o s i t i o n so ft h ep a t t e r ni s d i f f e r e n t ,s ot h ea p p l i c a b i l i t yi sr e l a t i v et ot h ep o s i t i o n sw h o r ec o n c e p tw o r d sa p p e a ri nt h e p a t t e r n w ed e f m et h i sa p p l i c a b i l i t ya ss p e c i a l i t y i nt h i sp a p e r , w ei n t r o d u c et h r e et y p e so f s p e c i a l i t y , w h i c ha g ob a s e dc o n o o p th e i g h t ,c o n c e p ts e ta b s t r a c t i o n ,a n de n t r o p h y w ef m dt h a t t h e s et h r e em e a s u l e 8a l ec o m i s t e n tw i t hh u m a n j u d g e m e n t k e y w o r d s :n a t i o n a lk n o w l e d g ei n f r a s t r u c t u r e ,i n f o r m a t i o ne x t r a c t i o n ,k n o w l e d g ea c q u i s i t i o n f r o mt e x t ,p a t t e r na c q u i s i t i o n ,s p e c i a l i t yo fp a t t e r n i i v 目录 摘要i a b s t r a c t i i i 目录1 0 r 爿曼格目录v i i 图目录v i i i 第一章引言1 1 1 文本知识获取介绍l 1 1 1 文本知识获取含义l 1 1 2 文本知识获取的目标与手段1 1 1 。3 国家基础知识设施2 1 1 4 模式的作用3 1 2 国内外研究现状与分析3 1 2 1 命名实体识别3 1 2 2 语义关系获取4 1 2 3 主要的关系知识获取的研究项目5 1 2 4 研究现状的分析与比较7 1 3 本文的主要研究内容8 1 4 本文的组织8 第二章语义模式获取的框架9 2 1 获取语义模式的目的9 2 2 基本假设l0 2 3 语义模式的表示1 l 2 3 1 语义模式的结构1 2 2 3 1 1 词汇语法结构。1 4 2 3 1 2 词汇语法限制l5 2 3 1 3 定性限制1 6 2 3 1 4 定量限制l6 2 3 1 5 特性描述。i7 2 4 评价的标准1 8 2 4 1 精度召回率标准1 8 2 5 模式获取系统的结构1 8 2 5 1 模式获取单元1 9 2 5 2 模式扩充单元1 9 2 5 3 模式分析单元2 0 2 5 4 模式评价单元2 0 2 6 ,j 、结:1 0 第三章动词介词模式的获取方法2 l 3 1 获取动词一介词模式的目的2l 3 2 “什么”疑问词的作用2 l 3 3 介词一动词模式的特征2 2 3 3 1 简单表示能力度量2 3 v 3 3 2 概念词集合投影度量2 3 3 3 3 潜层语义度量2 4 3 3 4 概念词之间句子级互信息度量2 5 3 3 5 概念词之间文档级互信息度量。2 6 3 3 6 概念词和模式词之间相关性度量2 7 3 4 p v 模式获取的步骤。2 7 3 5 小结2 9 第四章模式的扩充3 0 4 1 目的3 0 4 2 扩展方法3 0 4 3 模式扩充算法3 2 4 4 特征构造3 3 4 5 ,j 、! i :1 3 第五章模式的性质分析3 4 5 1 目e f ,3 4 5 2 上下位概念空间3 4 5 3 专一性需要满足的性质3 9 5 4 专一性的几种定义4 0 5 4 1 基于深度的专一性定义。4 0 5 4 1 1 概念集合上位扩展4 l 5 4 1 2 基于深度的专一性性质分析4 2 5 4 2 基于概念集抽象的专一性定义4 2 5 4 2 1 基于概念集抽象的专一性分析。4 3 5 4 3 基于熵的概念集抽象定义。4 4 5 4 3 1 熵概念的引入4 5 5 4 3 2 类概念集合的分布构造4 5 5 4 4 专一性示例及分析4 6 5 4 5 模式的专一性定义4 8 5 5 符号说明4 8 5 6 ,j 、结4 9 第六章实验结果及分析5 0 6 1 实验结果。5 0 6 2 实验结果分析5 0 6 3 ,j 、结5l 第七章结束语。5 3 7 1 本文总结5 3 7 2 今后的工作及改进5 4 参考文献5 5 j l i :谢6 0 作者简历。6 l 表格目录 表l 常见语义关系类型列表9 表2 词汇语法结构限制谓词1 5 表3 疑问词对应关系2 2 表4p v 模式表示概念示例2 3 表5 基于熵的专一性计算示例4 6 表6 上下位概念空间的相关定义4 8 表7 模式分类试验结果一5 0 v h 图目录 图1 语义模式的表示1 3 图2 精度召回率图示18 图3 模式获取系统结构图1 9 图4 类比求解问题的一般模式。3 0 图5 模式扩充算法3 3 图6 概念空间片断示意图3 7 图7 添加最大上位下位的上下位概念空间示例3 8 图8 模式概念关联示例4 1 图9 上下位空间抽象示例4 3 图1 0 上下位概念空间片断示例。4 4 图1 1 权重分配示例4 5 图12s c l a s s 分布构造示例4 6 图1 3 专一性计算示例4 7 图1 4 特征维数精度变化曲线5 1 v 1 i l 1 1 文本知识获取介绍 1 1 1 文本知识获取含义 第一章引言 知识获取( k n o w l e d g ea c q u i s i t i o n ,k a ) 一词最早出现于人工智能领域, b u c h a n a n 等人对知识获取的定义是:“从特定的知识源获取可能有用的问题求解 知识和经验并转换为程序的过程 【b u c h a n a n1 9 8 3 。 文本知识获取( k n o w l e d g ea c q u i s i t i o nf r o mt e x t ,简称k a t ) 是指将自然语 言描述的文本知识变为计算机可理解的形式。文本知识获取是一个与语言学、计 算机科学技术、数学、心理学、信息科学与系统科学、认知科学等相联系的边缘 交叉性研究领域。 1 1 2 文本知识获取的目标与手段 文本知识获取主要研究对文本大量知识的提取和表示,并力图使这些知识能 应用于完成某种特定的智能任务。文本挖掘的目标是通过对文本进行分析,进而 推理出新知识。它的优势在于能够分析人工无法处理的数量庞大的信息 p o t t e r 2 0 0 0 1 。 普遍认为,知识获取研究的主要目标是为基于知识的系统( k n o w l e d g e - b a s e d s y s t e m ,k b s ) 获取高质量的知识,从而建立起健全、完善、有效的知识库。 互联网时代,大量的信息都以非结构化的文本形式存在。由于自然语言处理 的歧义性( a m b i g u i t y ) 和非规范性( 1 1 1 f o r m e d n e s s ) 两大类问题,使得计算机 自动文本知识获取被认为是一项非常困难和费时的任务,一直是阻碍智能系统研 究和开发的瓶颈问题。歧义性是指断句、断词、词汇、语法、语义、语用等六方 面的歧义。非规范性体现在自然语言的形态( f o r m s ) 和来源( s o u r c b s ) 两个方 面。自然语言形态的非规范性包括未登录词、不合乎文法句子、语义约束冲突等 方面的问题。 1 1 3 国家基础知识设施 国家知识基础设施( n a t i o n a lk n o w l e d g ei n f r a s t r u c t u r e ,简称n k i ) 这一概念 首先由曹存根博士在1 9 9 5 年提出 c a o1 9 9 8 ,c a o2 0 0 1 。1 9 9 8 年,世界银行的 一份研究报告中也提出了同样的概念,指出了 n k i 在知识经济、科技发展和国 民教育中的战略意义。概括地说,n k i 由一个庞大的、可共享的知识群和各种 知识服务所构成,它不仅集成了医学、军事、物理、数学、化学、生物、历史、 考古、地理、音乐、美术、信息科学、宗教等学科的专业知识 c a o2 0 0 4 ,z h o u2 0 0 3 , l e i2 0 0 1 ,g u2 0 0 1 ,z e n g2 0 0 3 ,w a n g2 0 0 3 ,g a o2 0 0 4 ,z h a n g2 0 0 4 ,还融入了 各学科专家的个人知识。它将在科研、教学、科普等公共领域,为各类知识请求 者提供开放的、全方位、多样化和多层次的知识服务。 知识的可操作性是国家知识基础设施与目前许多国家正在建设的数字化图 书馆的本质不同之处。在知识基础设施中,所有的知识均被显式地、细粒度地表 示出来,从而使得其具有可操作性 c a o2 0 0 2 ,c a o 2 0 0 3 ,c a o2 0 0 4 。 1 ) 国家知识基础设施将给传统的学校教育带来一次深刻的革命。n k i 中的 知识不仅丰富,而且经过了标准化和可操作化。这为在n k i 的基础上大 批量开发各学科和跨学科的教学设施提供了有效的支持。 2 ) 国家知识基础设施将为社会提供全方位、多样化和多层次的知识服务。 n k i 可以通过相应的应用系统为社会提供全方位和多样化的服务。例如, 利用n k i 中的各种医学知识,可以建立各类医疗咨询、法律咨询、各国 地理和历史的咨询、宗教问题咨询等等。 3 )国家知识基础设施建设将对我国的计算机理论和技术的发展起到巨大 的推动作用。国家知识基础设施将为许多基础研究和应用开发研究提供 必要而又广泛的知识基础。它们包括自然语言理解、机器翻译、模式识 别、专家系统、计算机辅助教学、计算机辅助决策、知识发现、自动推 理等等。n k i 的研制成功必将带动这些领域的长足的进步。 4 )国家知识基础设施是人类知识共享和知识保护的最佳途径。国家知识基 础设施提供的知识是经过标准化的知识,不同学科的科技人员可以按照 统一的标准存取所需的知识、增加和修改知识基础设施中的知识,而那 些新增加的知识可直接为别的系统所使用。国家知识基础设施所提供的 2 知识获取工具将充分吸收人类各种专家的宝贵经验,供后人使用或发展。 1 1 4 模式的作用 基于模式的方法在知识获取系统中被普遍使用 h e a r s t1 9 9 2 1 9 9 8 r i l o f f 1 9 9 6 l i u2 0 0 5 t i a n2 0 0 6 。虽然人们在使用自然语言表述知识的时候有着很大 的随意性和不确定性,但是自然语言在表述的时候,依然遵循着一定的规则,并 且这些规则是可以被人脑理解的。 如果能通过可以被机器理解的模式近似的刻画自然语言中表述时遵循的规 则。就可以运用模式找到包含感兴趣的知识的文本,近而获取我们感兴趣的知识。 基于模式的知识获取方式不仅可以用于构建海量知识库,而且会在知识库更新的 过程中发挥重要的作用。 1 2 国内外研究现状与分析 相关的研究领域包括命名实体( n a m e de n t i t y ) 识别、概念消歧( c o n c e p t d i s a m b i g u a t i o n ) 、语义关系获取( s e m a n t i cr e l a t i o na c q u i s i t i o n ) 和语义关系分类 ( s e m a n t i cr e l a t i o nc l a s s i f i c a t i o n ) 等。 1 2 1 命名实体识别 【a n d r e i1 9 9 9 a a n d r d1 9 9 9 b 利用规则和统计结合的方法,考虑几类命名实 体( 人名、地名、机构名、数字表达式、时间) 的内部短语结构特征和外部上下 文环境信息,从新闻类文本中获取这三类实体。在规则方面,主要考虑英语实体 概念的构造特征、上下文出现的一些特征词;统计方面,主要利用对实体概念的 上下文特征进行最大熵建模。他们的实验还证明,依靠已有的辞典,对人名、机 构名的识别并没有太大的提高,但对地名影响较大。他们的系统获得了m u c 7 命名实体识别最好的测评结果,f 值为9 3 3 9 。不足之处在于,手工规则不易 移植到不同领域的语料和不同的语种。 【d e k a i2 0 0 2 利用b o o s t i n g 技术,将多个决策树的结果综合在一起,取得比任 意单个分类器更好的结果。实验中,利用了一下特征:窗口为4 ( 前后各2 ) 的 词汇和词性特征,前后缀,大写特征,窗口为4 的词性联合串,前面两个词的标 注特征。实验结果表明,利用b o o s t i n g 方法,比m a x e n t 方法具有更高的效果, 在西班牙语上f 值为7 6 6 l ( m e 为7 2 8 4 ) ,荷兰语为7 5 3 6 ( m e 为 3 6 8 0 8 ) 。【d e k a i2 0 0 3 利用s t a c k i n g 和v o t i n g 的方法,将多个识别系统结合在一 起,试图构造一个更好的系统。在英语和德语测试集上分别取得了8 2 6 9 和 6 6 3 4 的f 值。类似的,【e r i k2 0 0 0 a m 结合多个系统来提高基本名词短语识别 的性能。结合多个系统以获得更好的结果的工作还包括 t s u k a m o t o2 0 0 2 a b 、 【r a d u2 0 0 2 、【r a d u2 0 0 3 。 1 2 2 语义关系获取 最早的使用模式的思想去获取语义关系开始于1 9 9 2 年,h e a r s t 通过一些暗 示语义关系的模式词来获取大量的上下位关系,他使用了四个句型:“s u c ha s ”、 “( a n d o ro t h e r ) 、“i n c l u d i n g 一和“e s p e c i a l l y ”来获取上下位关系,他认为不需 要对语料做出细致的理解,就能获取语料中的上下位关系。实验中使用非标记的 语料,但是在获取流程中需要较多的人的参与,他使用了w o r d n e t 作为评价获取 到的上下位关系的一种工具,但是这种他没有把这种方法成功的运用与其它类型 的关系 h e a r s t1 9 9 2 ,1 9 9 8 。 r i l o f f 基于模式方法提取信息,但是模式的评价工作是人工完成的 r i l o f f 1 9 9 6 。 f u j i n o 把数据挖掘的方法应用于p a t t e r n 的获取,他使用了f r e q u e n tp a t t e r n 的概念,把频率作为合法的p a t t e r n 的一个标准,所使用的语料不需要语法方面 的处理,成功的把算法的时间复杂度下降到接近线性的水平 f u j i n o2 0 0 0 。 y a n g a r b e r 采用了非监督的模式获取方式,引入了对应训练( c o u n t e r - t r a i n i n g ) 的思想。把待获取的语义关系分成不同的场景,如:公司合并、法律案件、政治 选举、破产和灾难等,不同场景的模式相互监督,在一定程度上避免了当r e c a l l 超过一定阈值后p r e c i s i o n 迅速下降的情况 v a n g a 而e r2 0 0 3 。 g e l e i j n s o 等人在获取表层文本模式( s u r f a c et e x tp a t t e r n ) 的过程中,使用 i n t e r n e t 搜索引擎作为重要的工具【g e l e i j n s e2 0 0 6 。 y a r o w s k y 在1 9 9 5 年提出在处理词义消歧的算法中,把小部分标记语料和大 部分非标记语料结合起来,取得很好的效果 y a r o w s k y1 9 9 5 ,b l u m 等人在此基 础上论证了这种思想的理论基础并提出c o - t r a i n i n g 的方法 b l u m1 9 9 8 ,a b n e y 在”b o o s t r a p i n g 一文中,进一步完善了c o - t r a i n i n g 的理论。后续的许多关于这 方面的研究都是借鉴了c o - t r a i n i n g 的思想。 s u r d c a n u 等使用了一种混合的方法获取信息抽取模式,他了使用了 c o - t r a i n i n g 的方法,把文档中出现的词汇和文档中出现的模式,作为两种条件 4 独立的视角,从这两个视角出发训练出两个一致的文档分类器,当两个分类器都 收敛时,模式的获取过程结束 s u r d e a n u2 0 0 6 。 刘磊等人使用基于中文的“是一个 的模式从大规模中文语料库中获取上下 位关系,并引入了概念验证和上下位关系验证的机制。在抽取概念关系对的过程 中使用了,外层剥离( o u t s i d el a y e rr e m o v a l ) 和内部结合( i n s i d el a y e rg a t h e r ) 的策略; 在验证上下位关系的过程中采用了自身特征( s e l f f e a t u r e s ) 和上下文特征( c o n t e x t f e a t u r e s ) 相结合的方法 l i u2 0 0 7 。 田国刚等人使用预定义的同指关系模式和多特征约束的方法从大规模中文 语料库中获取同指关系,包含有两个基本过程:候选同指关系的提取和候选同指 关系的验证。候选同指关系的提取利用了同指标识词的相对分布距离、词条模式 同质和并列分布等特征;候选同指关系的验证利用了同指标识词的语义特征和同 指关系图的结构特征 t i a n2 0 0 6 。 1 2 3 主要的关系知识获取的研究项目 m a e d c h e 和s t a a b m a e d c h e2 0 0 0 从领域文本中获取概念间的非分类关系:首 先对领域文本进行表层语法处理,识别存在语法关系的词对( p a i r so f w o r d s ) , 对获得的语法信息单元进行统计计算,借助本体定义的分类结构在合适的层次上 建立概念之间的关系。概念间的关系是通过计算支持度和置信度发现关联规则而 获得的。 h a s e g a w a 等人 h a s e g a w a2 0 0 4 从语料中发现命名实体之间的关系,这些关 系可以是从属关系、角色关系、位置关系、部分整体关系、社会关系等等。其 基本思想是:标注文本语料中出现的命名实体,获取同时出现的命名实体对及其 c o n t e x t ,计算命名实体对之间c o n t e x t 的相似性,对命名实体对进行聚类并给聚 类指定类标签。 m o l d o v a n 等人 m o l d o v a n2 0 0 0 a b 从文本中获取领域概念和关系扩充 w o r d n e t ,获取的知识类型包括概念、词汇句法模式( l e x i c o s y n t a c t i cp a t t e r n ) 和关系。基本的方法是从一个具体的领域选出一些概念作为种子概念,依据这些 种子概念从领域文本中获取新的概念;确定某类语义关系,选择满足这种语义关 系的一组概念对,在语料库中找出同时包含这组概念对的句子,提取词汇句法 模式;根据新获取的概念和词汇句法模式,在语料中发现新的概念,并建立概 念间的关系。这种方法的缺点是获取的关系和概念的数量有限。 b r i n b r i n1 9 9 8 使用d i p r e ( d u a li t e r a t i v ep a a e r nr e l a t i o ne x t r a c t i o n ,双重迭 代模式关系抽取) 方法从w e b 上获取关系。由一组模式可以得到一组关系;相 反,由一组关系也可以获得一组模式,模式关系具有二重性。d i p r e 获取关系 的过程如下:用户给定一个目标关系的小样本集合;在文档集合中找出包含目标 关系的所有原始信息,并记录它们的c o n t e x t ;根据c o n t e x t 的共性发现新的模式; 在文档集合中搜索与新模式相匹配的目标关系,将满足条件的关系作为获取的结 果,如果还需获取的话,只需在新的目标关系上再作一次迭代。d i p r e 提取的 知识表示为元组的形式,例如b 0 0 k 的“( t i t l e ,a u t h o o 信息。 s n o w b a l l 系统 a g i c h t e i n2 0 0 0 通过元组与模式的相互迭代,不断获取新的模 式与元组。其具体过程是提供一组种子元组和一个文档集合,据此生成一组模式, 然后根据生成的新模式在文档集合中提取新的元组,如此不断反复,获取更多的 新模式和元组。s n o w l b a l l 的实现借鉴了d i p r e 方法,与d i p r e 的区别在于 s n o w b a l l 的模式包含了一些命名实体标记,例如 - b a s o d ,形式地,s n o w b a l l 模式定义为一个五元组t p - ,t a g l 和t a 9 2 是命名实体标记,i p 、m p 和r p 是出现在t a g l 和t a 9 2 左、 中、右部分的词条构成的词条权重向量,相应地,待提取的两个命名实体对应 的文档部分也定义为一个五元组t s i s ,t a g l ,m s ,t a 9 2 ,r s ,其中t a g l 和t a 9 2 是两个特定的命名实体,i s ,m s ,r s 是文档中出现在t a g l 和t a 9 2 左、中、右部分 的词条构成的词条权重向量。要生成一个新模式,系统首先在文档集合中找到 t a g l 和t a 9 2 的所有出现( t a g l 和t a 9 2 实际上是两个特定的实体,它们构成一个 已知的种子元组) ,对每一次出现生成相应的五元组,然后将所有这些五元组进 行聚类,最后将聚类的左、中、右部分取中心向量以此作为新模式对应部分的向 量。在提取新元组时,系统首先使用命名实体标注器将出现在文档中的命名实体 识别出来,生成相应的元组向量,然后与模式向量进行匹配,满足阈值条件的元 组向量被选出来,最后根据该向量生成特定的元组。由于引入了匹配度的计算, 因此s n o w b a l l 可以获得更多符合条件的元组,从而提高了系统的覆盖率。另外, s n o w b a l l 提出了模式和元组的支持度与置信度的概念,用于评价模式和元组的质 量。s n o w b a l l 系统提取的知识类型是元组知识( 例如组织及其所在地,或者总部 及其所在地,表示为 ,其中o 表示组织,l 表示所在地) w e b - k b 系统 a p p e l t1 9 9 9 从w e b 上获取知识并构建知识库,获取的知识类 型主要是类和关系的实例。基本思想是在训练语料的基础上,通过机器学习获得 多种信息提取方法,从而在不同类型的w e b 文档中提取类和关系的实例信息。 w 如 k b 建立在本体和手工标注语料的基础上,本体包括了要获取的类和关系, 标注语料描述了类和关系的实例信息。w e b - k b 能够实现:对超文本进行分类 6 以识别类的实例;对超链接进行分类以识别关系的实例;从w e b 页面中提取一 部分文本信息识别类和关系的实例。采用的信息提取方法主要是统计和关系学习 算法,在进行获取时同时考虑了页面的内容及页面间的链接信息。w 曲 k b 处 理的页面来自于几个大学的计算机系站点,内容涉及人员组成、教学信息、研究 项目、研究方向及兴趣等。 k n o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论