(计算机软件与理论专业论文)半结构化文本信息抽取系统.pdf_第1页
(计算机软件与理论专业论文)半结构化文本信息抽取系统.pdf_第2页
(计算机软件与理论专业论文)半结构化文本信息抽取系统.pdf_第3页
(计算机软件与理论专业论文)半结构化文本信息抽取系统.pdf_第4页
(计算机软件与理论专业论文)半结构化文本信息抽取系统.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机软件与理论专业论文)半结构化文本信息抽取系统.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 我的论文的题目是“半结构化文本信息抽取系统”,该项目得到了国家自然 科学基金、北京市自然科学基金的资助。本文是对研究和实现信息抽取系统所做 的工作总结。 i n t e r n e t 的发展使越来越多的信息以网上文本的形式存在,这使得人们能够 便捷地获取信息,但也使得网上文本信息不断激增。从网上海量文本数据中获取 所需信息非常困难。信息抽取系统就是能够自动从文本中抽取出人们所需信息的 文本处理工具。它能够从文本中抽取出有固定格式且意义明确的信息。随着互联 网的发展,将网上文本信息转化为数据库数据就成为网上信息处理的一个重要的 发展方向。 信息抽取系统能够提高人们从文本中获取信息的效率,它可以作为许多其它 文本处理工具的基础或辅助工具。作为信息检索的下一步操作,信息抽取可以在 查询粒度上使用户更加满意。 为了对信息进行更清晰地描述,网站发布的很多信息属于半结构化文本。本 文介绍了我们研制的半结构化信息抽取系统b w i e x t r a c t i o n 系统。其中,抽取规 则的生成和算法的选择是信息抽取系统的关键技术,所以我们详细介绍了 b w i e x t r a c t i o n 系统的规则体系及一个基于b o o s t i n g 的有监督的学习算法的实现。 本文还给出了这个系统分别在中英文数据集上的测试结果,并讨论了它与其它国 际同类系统相比的优点。 关键词信息抽取;半结构化文本;有监督的学习算法 a b s t r a c t m yg r a d u a t et h e s i si s “i n f o r m a t i o ne x t r a c t i o ns y s t e mo ns e m i - s t r u c t u r e dt e x t ”, w h i c hi s s u p p o s e db yt h en a t u r a ls c i e n c ef o u n d a t l o no fc h i n a ( n s f c ) ,b e i j i n g m u n i c i p a ln a t u r a ls c i e n c ef o u n d a t i o n ( b m n s f ) t h i sp a p e ri sac o n c l u s i o no fo u r r e s e a r c ha n dr e a l i z a t i o no fi n f o r m a t i o ne x t r a c t i o n s y s t e m t h ed e v e l o p m e n to fi n t e r a c tm a k e sm o r ea n dm o r ei n f o r m a t i o ne x i s ta st e x to n t h ew e b p a g e s a l t h o u g hp e o p l e c a l la c q u i r ei n f o r m a t i o n c o n v e n i e n t l yi nt h i sw a y ,t h e a m o u n t so fw e bp a g e sa r ea m a s s e d s i g n i f i c a n t l y i t i s v e r yd i f f i c u l t t o a c q u i r e i n f o r m a t i o nf r o mt h ee n o r n l o u st e x ts o u r c e so nt l l ew e b i n f o r m a t i o ne x t r a c t i o n s y s t e mi sak i n do f t e x to p e r a t i n gt o o l sw h i c hc a l lj u s te x t r a c ti n f o r m a t i o nt h a tu s e r s n e e d e df r o mt e x ta u t o m a t i c a l l y t h eo u t p u ti si n f o r m a t i o nw h i c hh a sf i x e df o r m a ta n d c l e a rm e a n i n g a st h e n t e m e td e v e l o p s i tw i l lb ea l li m p o r t a n td i r e c t i o nt ot u r nt h e t e x to nt h ew e bt od a t ai nt h ed a t a b a s e a si n f o r m a t i o ne x t r a c t i o ns y s t e mc a r lm a k e p e o p l ea c q u i r ei n f o r m a t i o n m o r ea n d m o r ee f f i c i e n t l y i tc a nb eab a s i co ra s s i s t a n tt o o lt oo t h e rt e x to p e r a t i n gt o o l s a st h e n e x t s t e p t oi n f o r m a f i o n r e t r i e v a l ,i n f o r m a t i o n e x t r a c t i o nc a r lm a k eu s e r sm o r e s a t i s f i e do nt h eq u e r yg r a n u l a r i t ya s p e c t t om a k et h ei n f o r m a t i o nm o r ec l e a r ,m u c ho fi n f o r m a t i o no nt h ew e bi sf o r m e d a ss e m i s t r u c t u r e dt e x t w ei n t r o d u c ea l li n f o r m a t i o ne x t r a c t i o ns y s t e m i ti sc a l l e d b w i e x t r a c t i o na n dc a nd e a lw i t hs e m i s t r u c t u r e dt e x t b e c a u s et h ed e s i g no fr o l e sa n d t h es e l e c t i o no fa l g o r i t h m si st h e k e yt e c h n o l o g y ,w e i n t r o d u c eh w i e x t r a c t i o n s y s t e m sr u l ea r c h i t e c t u r ea n d a s u p e r v i s e dl e a r n i n ga l g o r i t h mb a s e d o n b o o s t i n g w e a l s ol i s to u tt h ee x p e r i m e n tr e s u l t so nb o t he n g l i s ha n dc h i n e s et e x td a t a s e t i nt h e e n d ,w ec o m p a r eb w i e x t r a c t i o n t oo t h e rs y s t e m sa n dd i s c u s si t sm e r i t s k e y w o r d si n f o r m a t i o n e x t r a c t i o n ;s e m i s t r u c t u r e dt e x t ;s u p e r v i s e d m a c h i n e l e a r n i n ga l g o r i t h m i i 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 虢巷皇吼翌坐:) 毕 关于论文使用授权的说明 本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部 分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名 家鏖 导师签名: 第1 章绪论 第1 章绪论 1 1 信息抽取的研究背景 随着i n t e r n e t 的迅猛发展与广泛应用,万维网( w v ,1 ,) 已经成为人们数据 资源共享和信息交流的重要平台。人们通过万维网发布信息,同时能够从网上得 到想要的信息。虽然网上数据资源的存在形式有很多,如文本,图像,声音,动 画等等,但是应用范围最广的还是以文本形式存在的网页资源。人们不仅习惯于 从文本中获取信息,而且不断开发处理工具来协助自己从文本获取信息。 早在二十世纪5 0 年代,z e l l i gh a r r i s 就提出了将文本信息简化为结构化元组 形式信息的思想,同时在纽约大学由n a o m is a g e r 开发出了处理医学文本的信息 抽取系统。然而,由于文本内容涉及的范围相当广泛,针对某一类内容文本的抽 取系统并不能满足越来越多的文本处理需要。 信息抽取系统在2 0 世纪8 0 年代末由美国提出,其前身是文本理解。人工智 能研究者一直致力于建造能把握整篇文章精确内容的系统。这些系统通常只在很 窄的知识领域范围内运行良好,向其它新领域移植的性能却很差【1 1 。有两个推动 信息抽取系统发展的因素:一个是在线和离线文本数量的几何级增加,另一个 是m u c 2 l ( m e s s a g eu n d e r s t a n d i n gc o n f e r c n c e ) 会议( 信息理解会议) 近十几年来 对该领域的关注和推动。 m u c 是美国政府支持的一个专门致力于新闻文本理解的例会。八十年代以 来,美国政府一直支持m u c 对信息抽取技术进行评测。经过各界会议的不懈努 力,m u c 终于制定出了评分标准。各届研讨会的测试主题各式各样,包括拉丁 美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。目前大部 分的信息抽取技术研究都只有英语和其它几种主要的语言。 1 2 信息抽取技术 1 2 1 定义 1 9 9 1 年,m u c 就给出了信息抽取的定义:一个典型的信息抽取系统可以被 看作输入不可预知的文本,输出有固定格式且意义明确的数据的系纠引。也就是 说,信息抽取系统的输入是各种类型的文本,而输出是可以存入数据库的信息。 北京i 、叱大学工学硕士学位论文 1 2 2 处理对象 由于信息抽取技术起源于自然语言处理,所以它最开始是处理自由文本的重 要工具。但是,随着互联网的广泛兴起,结构化文本和半结构化文本的数量不断 激增,致使科学家将信息抽取技术广泛应用于这两种文本。 1 ) 自由文本( f r e e t e x t ) 信息抽取最初的目的是开发实用系统,从自由文本中抽取有限的主要信息。 这类信息抽取技术通常借助n l p ( n a t u r el a n g u a g ep r o c e s s i n g ,自然语言处理工 具) ,其中包括词法分析,实体名称识别( 如人物、公司) ,部分句法分析等等。 规则可由人工编制,也可从人工标注的语料库中自动学习获得。 2 ) 结构化文本( s t r u c t u r e dt e x t ) 这种文本是指数据库里的文本信息,或者是根据事先规定的严格格式生成的 文本。从这样的文本中抽取信息是非常容易的,准确度也高,通过描述其格式即 可达到目的。所用的技术因而相对简单。网上通过数据库实时生成的网页大都属 于这种文本。 3 ) 半结构化文本( s e m i s t r u c t u r e dt e x t ) 这种文本界于自由文本和结构化文本之间,既缺少语法也没有严格的格式, 几乎不存在完整的句子,比如电报报文。因其缺少规范的语法结构,传统的n l p 技术对抽取半结构化文本信息并不是很有用。而且,n l p 方法的处理速度通常 比较慢,所以不能用传统的信息抽取技巧或结构化文本处理方法进行半结构化文 本信息抽取。这对于网上海量的信息来说是个大问题。 关于网页 i n t e r n e t 上含有大量网页,有些研究者把所有网页都归入半结构化文本,但 h s u 【3 6 1 对网页类型做了颇有用的定义:若能通过识别分隔符或信息点顺序等固定 的格式信息即可把“属性值”正确抽取出来,那么,该网页是结构化的。半结 构化的网页则可能包含缺失的属性,或一个属性有多个值,或一个属性有多个变 体等例外的情况。若需要用语言学知识才能正确抽取属性,则该网页是非结构化 的。 第l 章绪论 1 2 - 3 信息抽取技术的组成 信息抽取技术需要解决两个问题:如何描述文本,如何学习这些表达形式。 1 ) 如何描述文本特征 用特征( f e a t u r e ) 描述文本是信息抽取的重要工作,它可以使我们将对文本 的学习转化为对特征的学习。目前信息抽取技术已经作了很多这方面的尝试【4 , 许多描述文本特征或文本间相互关系的技术不断出现并发展,给信息抽取技术带 来了新的力量。 符号化5 1 符号化是文本数据处理的第一步。一个符号是信息抽取系统 处理文本的最小单元,通常是一个单词或- d , 段文本。符号化包括:识别句子边 界,分割标点符号等等。 变异词归类这种工具能够将表达一个意思的词的不同变体结合为一类, 同时能够检查到拼写错了的单词。如u n i x 中的i s p e l l 工具。 词汇集词汇集就是根据某种目标生成一类或几类单词的集合 4 , 6 1 ,相当 于一个自定义的字典,将某些词( 如:要抽取的目标文本或非常规词) 存为一个 集合,用于描述这些词的特征。 句法分类即词性标注。使用p o s 7 , 8 1 技术将文本标注为数字基数( n p ) , 名词( n n ) ,专有名词( n n p ) ,动词( v b ) ,标点符号( ) ,介词连词( i n ) 以及其它种类( s y m ) ,用词性特征描述文本。 句法分块 6 ,9 】依据造句法将文本分为名词短语,动词短语,介词短语等 等,用短语类型特征描述文本。 大小写和词长特征这是被许多研究者都使用过的一种简单的形式特征 方法,如s r v t 2 8 , 2 9 , 3 0 系统。 语义特征它是对文本语义的描述,语义特征具有重要意义,特别是 识别人名,地名,地址的不同部分。如现在许多系统都使用w o r d n e t 1 语义网工 具。 h t m l 和x m l 标志语言描述符结构化文本中的标志语言可以表达出文本 的相对位置,从而生成能够表达文本相对位置信息的模板。 2 1 如何学习特征 在信息抽取系统算法设计方法上,主要有两大类【1 】:一是知识工程方法 北京工业大学工学硕士学位论文 ( k n o w l e d g ee n g i n e e r i n ga p p r o a c h ) ,二是自动训练方法似u t o m a t i ct r a i n i n g a p p r o a c h ) 。 知识工程方法主要靠手工编制规则。这种方法要求编制规则的知识工程师对 该领域有深入的了解。这样的人才有时找不到,且开发时耗时耗力。自动训练方 法主要通过学习已经标记好的语料库获取规则。对该知识领域比较熟悉的人就可 以根据事先约定的规范来标记语料库。系统可以根据标记后的语料库生成训练 例。经训练后的系统能处理没有见过的新文本。这种方法要比知识工程方法快, 但需要足够数量的训练数据,才能保证其处理质量。 由于信息抽取的目的是从大量文本信息中找到能够描述所有实例的一般规 则,所以自动训练方法大多采用归纳方法。在最高层次,归纳学习法是从一些实 例中生成未知目标概念,是对现象的一种概括。主要思路是,如果归纳出来的规 则能解释观察到的实例,或者在新实例出现时能做出准确的预测,那么,这种归 纳是成功的。用于信息抽取的机器学习方法有很多,如符号化学习法,i l p ( 归 纳逻辑设计法) ,分装器( w r a p p e rg e n e r a t i o n ) 归纳法,统计法和语法归纳法。 1 2 4 信息抽取系统 从上面的介绍中我们能够看出,信息抽取系统主要有几个关键问题: 1 ) 实现文本的预处理,将文本转化为系统能够处理的最基本文本单元序列 比如,分割句子或中文分词工作; 2 ) 使用特征描述文本,将文本表示成可以学习的特征; 3 ) 设计规则及训练例的表达形式; 4 ) 从训练例中根据一定的学习算法学习规则。 系统的结构如图1 1 所示。 输入文本 l 生成抽取模l : lil _ - - - - - _ - - - - - - - - - - - - - 一 f 扳式的规则j : ill 11 图1 - 1 信息抽取系统结构图 f i g l 1 :t h e s t r u c t u r eo fa g e n e r a li n f o r m a t i o ne x t r a c t i o ns y s t e m 1 2 5 与其它文本处理工具的关系 信息抽取虽然起源于文本理解,但它并不同于完全的文本理解。文本理解技 术致力于以清楚的方式表达一篇文章中的所有信息。与此相反,在信息抽取中我 们定义了输出的语义范围:即只要求抽取某几类语义项,同时希望发现这些语义 项的关系。 搜索引擎或者说信息检索( i n f o r m a t i o nr e t r i e v a l ) 引擎是最为常见的网上文 本处理工具,它“2 1 通常是根据用户提供的关键字进行查找匹配,将可能存在该类 信息的网页提供给用户。由于i n t e m e t 具有开放性、动态性和异构性,网上的文 本信息结构不固定、组织也欠规整,使用户得到网页,并不等于得到信息资源。 用户只有读过网页的内容才能够知道自己所需要的信息的位置。而且,用户无法 对这些信息二次利用,对网上信息的利用效率低。虽然搜索引擎难以在查询粒度 上使用户满意,信息抽取技术却能够改善这一现状。信息抽取可以说是信息检索 蚕嚣器圜圜圉 北京工业大学工学硕上学位论文 的下一步工作。 1 3 信息抽取技术的挑战和发展趋势 1 3 1 信息抽取技术发展面临的挑战 由于中文与英文文本表达形式的差异,使得英文的处理技术难以应用于中文 处理。虽然,许多处理英文文本的信息抽取系统不断出现,但是处理中文的信息 抽取系统还很少。主要的障碍在于无法用英文词法的特征描述中文文本,且中文 词之间没有分隔标志,难以描述文本相互位置关系。所以将分词技术与信息抽取 技术相结合就成为中文信息处理的一个重要发展方向。中国科学院计算技术研究 所研制出了基于多层隐马模型的汉语词法分析系统i c t c l a s ( i n s t i t u t eo f c o m p u t i n gt e c h n o l o g y ,c h i n e s e l e x i c a la n a l y s i ss y s t e m ) 1 3 , 1 4 1 。该系统的功能有 很多:中文分词;词性标注;命名实体识别等等。这个词法分析系统为我们实现 中文半结构化信息抽取功能构建了平台。目前,该系统已经被应用于中文自由文 本的处理,比如报纸信息1 3 , 1 4 1 ,而在半结构化文本方面的应用还很少。 在科学研究领域,信息抽取技术可以应用于许多领域。如新闻组文章,网页, 科学文章,分好类的广告,医学笔记等等。但是目前,信息抽取还只能停留在处 理某一特殊领域,而不能广泛适用于任何领域的内容,本文介绍的模式匹配方式 可以很好地处理不符合英文词法的单词,对信息抽取系统在不同领域的推广起到 一定的促进作用。 1 3 2 信息抽取技术的发展趋势 新出现的s o c i a i n e t w o r k 就是个依赖于信息抽取的发展领域。s o c i a l n e t w o r k 来源于社会学领域的研究。s t a n l e y m i l g r a m 在1 9 6 7 年作了一个实验【l ”, 让几个人从内布拉斯加州传递封信到波士顿。他们只能将信传递给自己知道名 字的人,结果发现平均经过六个人这封信就能传递到目的地,所以得出任何两个 美国人间有着“六个分隔度”的距离。科学家们发现网络也有相似的结构,所以 可以将社会学研究领域的技术应用于网上研究,以加强网上搜索能力。将互联网 看作w e bc o n u n u n i t y ( 网上社团) ,这个社团的形式可以是显式的:如新闻组 或某一问题的讨论组;也可以是隐式的,如:网页集合或具有相同特征的人群。 s o c i a ln e t w o r k 就是要将这些网上社团的组织结构以图的形式表达出来,这种工 第l 章绪论 具建立在从相应的网上文本资源准确地获取信息的基础上,即将网页或文本资源 转化为信息,依赖于信息抽取技术。 在现实生活中,许多借助信息抽取技术的实用系统也应运而生。比如:e i p ( e n t e r p r i s ei n f o r m a t i o np o r t a l ,中文全称”企业信息门户”) 是一个企业的信息门 户,它使企业能够释放存储在企业内部和外部的各种信息,使企业员工、客户和 合作伙伴能够从单一的渠道访问其所需的个人化信息。这些用户利用从这个渠道 获得的信息做出合理的业务决策并加以执行。这个单一的访问渠道就是网络浏览 器( i e 或n e t s c a p e ) 。e i p 对已有系统的信息进行集成,用户通过单一的入口就 能访问所需信息。其中,将多种格式的文本信息集成为同一种格式借助了信息抽 取技术。 信息抽取能够作为进一步精化l r 的结果的一个工具,提高信息检索的精度; 而且它在智能浏览、问答系统( q a ) 等方面都具有较为广阔的发展前途。 1 4 本课题的来源 本课题在实践的基础上,对信息抽取系统作了大量自动训练方法方面的实践 和尝试。我们在信息抽取领域所作的工作集中在构造半结构化文本信息抽取系 统,并研究抽取规则自动生成方法以及描述文本特征的方法,同时,我们尝试借 助分词工具处理中文文本。 这个课题得到国家自然科学基金,北京市自然科学基金资助项目,北京市教 育科技发展项目的支持。 1 5 本论文的组织形式 本论文的组织结构如下: 第二章介绍信息抽取发展过程中有代表意义的系统,这几个系统都利用机器 学习算法学习文本特征。从中,我们可以对信息抽取系统的功能以及当前所使用 的主要技术有更加深入地理解,这对我们自己构造半结构化信息抽取系统有很大 的帮助。 第三章介绍半结构化信息抽取系统b w i e x t r a c t i o n 的整体框架结构,其中在 学习规则过程介绍系统的输入输出、预处理、生成训练例集以及规则的形式;在 抽取信息过程分别对系统的输入输出、测试例和抽取实现过程予以说明。最后是 本章小结。 北京 :业大学工学硕士学位论文 i ii ii ii 第四章介绍半结构化信息抽取系统b w i e x t r a c t i o n 的算法与实现,包括: b o o s t i n g 算法、b o o s t i n g 算法在信息抽取系统中的应用和规则学习的实现,最后 是本章小结。 第五章介绍半结构化信息抽取系统b w i e x t r a c t i o n 在三个数据集上的实验结 果以及该系统与其它系统的比较。最后是本章小结。 论文的最后是本文对b w i e x t r a c t i o n 系统的结论。 第2 章典型的信息抽取系统 第2 章典型的信息抽取系统 应用于传统的信息抽取源于文本理解。其处理对象是自由文本。其特点是规 则的表达需要借助于语法或语义约束,所以在生成规则前要进行语法或语义分 析。而半结构化信息抽取无需借助自然语言处理工具。两种文本除了在是否使用 自然语言处理工具上有所差别,其它诸如学习算法,表达文本的方法上都有相通 之处。 下面,我们就从基于规则的学习和基于概率的学习两方面对典型信息抽取系 统进行介绍。我们介绍的重点在于系统用何种特征描述文本、使用何种规则形式 以及使用何种算法进行学习。至于这些系统的具体实现细节:读者可以参照参考 文献。 2 1 基于规则归纳的信息抽取方法 在信息抽取领域,应用归纳方法学习信息抽取规则是一个发展时间较长的途 径。这些系统的重点是用机器学习方法来解决i e 问题。所用的方法以归纳逻辑 编程( i n d u c t i v el o g i cp r o g r a m m i n g ) 或关系学习( r e l a t i o n a ll e a r n i n g ) 为基础,而 且与归纳算法有关。抽取规则可以是只抽取一个信息的单抽取类型的,也可以是 能够抽取多个信息的多抽取类型的【1 8 】。 2 1 1p a l k a ( k i m & m o l d o v a n 1 9 9 5 ) 1 9 】 p a l k a 系统的规则被称为f r a m e p h r a s a l ( f p s t r u c t u r e ) ,规则含有一个 有意义的框架和些短语的模式,属于多抽取类型的规则( m u l t i s l o t ) 1 8 1 。p a l k a 系统使用类似于版本空间( v e r s i o ns p a c e ) 的算法( m i t c h e l l1 9 8 2 ) 2 1 】生成抽取规则。 例如,欲从以下句子中抽取被袭击目标: t h ep a r l i a m e n tw a sb o m b e d b yt h eg u e r r i l l a s 在p a l k a 系统中用到的f p s t r u c t u r e 如下: f p s t r u c t u r e = m e a n i n g f r a m e + p h r a s a l p a t t e m m e a n i n gf r a m e :( b o m b i n ga g e n t : a n i m a t e t a r g e t :p h y s o b j i n s t r u m e n t :p h y s _ o b j e f f e c t : s t a t e ) 一9 一 鼍。,寰,堡型鳖篓篓鹜箜彗圣,曼兰! 。,一 p h r a s a lp a t t e r n :( ( p h y s o b j ) w a sb o m b e d b y ( p e r p ) ) f p s t r u c t u r e : f b o m b i n g t a r g e t :p h y s o b j a g e n t :p e r p p a t t e r n :( ( t a r g e t ) w a sb o m b e db y ( a g e n t ) ) 其中,在m e a n i n gf r a m e 中描述了用户感兴趣的所有抽取内容以及其所属类 别,例如被攻击的目标属于物理实体。而例句的f p s t r u c t u r e 中仅包含了两个可 以抽取的内容,攻击目标和攻击者。 p a l k a 系统将所有学习到的f p s t r u c t u r e 以及其中涉及到的概念,例如 p h y s o b j 等组织成网状。在进行信息抽取时,根据p h r a s a lp a t t e r n 确定用哪个 f p s t r u c t u r e ,然后抽取出其中涉及的要素,例如在b o m b i n g 这个f p s t r u c t u r e 中涉及的要素为t a r g e t 和a g e n t ,它们都由各自确定的语义所限定。 2 1 2c r y s t a l ( s o d e r l a n de t a 1 1 9 9 5 ) 2 3 l c r y s t a l 从大量的训练例中得到概念节点( c o n c e p t n o d e s ) 形式的抽取规 则。它使用c o v e r i n g 算法学习这些概念。c r y s t a l 产生的抽取规则是多抽取 类型的( m u l t i s l o t ) 【1 8 ,即在个规则中包含应被抽取的所有信息;另外, c r y s t a l 允许两种类型的约束:语义的或某个具体单词的约束。c r y s t a l 产 生的抽取规则如下: c o n c e p tt y p e : b u i l d 【n gb o m b i n g s u b j e c t :c l a s s e si n c l u d e : ,t e r m si n c l u d e :b i ,i i d i n g e x t r a c t : v e r b :r o o r : m o d e : p r e p o s p h r a s e :p r e p o s i t i o n : t a r g e t b o m b p a s s i v e b y c l a s s e si n c l u d e : e x t r a c t :p e r p e t r a t o r n a m e 其中,主语和介词短语的约束是语义约束,分别为p h y s i c a l t a r g e t 和p e r s o n n a m e 。而动词则使用了具体的单词进行约束,在本例中为b o m b 。另外,t e r m s 一1 0 第2 章典型的信息抽取系统 i n c l u d e 表示:主语必须出现在p h y s i c a l t a r g e t 中的一个限定的b u i l d l n g 类中。 同p a l k a 所产生的多抽取类型的规则相比,在c r y s t a l 系统中不被抽取 的内容也可以给其施加语义约束,而不仅仅是个具体的单词或短语,例如 p r e p o s - p h r a s e ,可以由具体的单词进行约束,也可以被一个语义类所约束。 2 1 3r a p i e r 饵c a l i f f 1 9 9 7 ) 2 5 1 r a p i e r ( r o b u s ta u t o m a t e dp r o d u c t i o no f i n f o r m a t i o ne x t r a c t i o nr u l e s ,健壮 的信息抽取规则自动生成系统) 的输入是标注好的半结构化文本,输出是学习到 的抽取规则。属于单抽取类型的规则( m u k i s l o t ) i s l 。 信息抽取规则的形式是“文档一充实模板”( f i l l e dt e m p l a t e ) ,由三部分组 成: 前填充子( p r e f i l l e r ) :一个应匹配目标文本之前的文本的模式( p a t t e r n ) ; 填充子( f i l l e r ) :一个应匹配目标文本的模式; 后填充子( p o s t - f i l l e r ) :一个应匹配紧接目标文本之后的文本的模式。 应用规则时抽取“填充子”的内容。一个模式是一串模式信息点( p a t t e r n i t e m s ) ,每个信息点是对一个词的约束。文本必须满足模式规定的条件才算匹 配成功。信息点约束可能是: 1 ) 一组单词,其中的每个单词都必须匹配文本中出现的某个单词,例如 w o r d : f o r m ,c o m p a 【l y 】; 2 ) 组对单词的词性标注:例如t a g s :i n n ,r m s l 。对单词词性的标注借助了 p o s t a g g e r 系统( b f i l l1 9 9 4 ) 2 6 j ; 3 1 一个对单词语义的列表,即该单词的语义必须属于某个特定的语义集。 这个工作借助了w o r d n e t 系统( m i l l e r e ta 1 1 9 9 3 ) f 2 7 1 。 学习算法由一个从具体n - 般( 即自下而上) 的搜索,从训练集中与目标槽 匹配的最具体的规则开始。随机从规则库中抽取一对规则,然后横向搜索( b e a m s e a r c h ) ,以图找到这两条规则的最佳概括,采用最少概括的概括方法( al e a s t g e n e r a lg e n e r a l i z a t i o n ) ,增加限制条件,不断重复后直到不再有进展为止。r a p i e r 的抽取规则建立在分隔符和内容描述的基础上,借助了词性标注和语义类别词 典。 例如:对于如下文本: 北京工业大学工学硕士学位论文 文本:l e a d i n ga i f i r mi nn e e d o fa n e n e r g e t i ci n d i v i d u a lt o 为了得到领域信息“a i ”,r a p i e r 系统的抽取规则如下: a r e ae x t r a c t i o n p a r e m : p r e _ f i l l e rp a t t e r n :w o r d :l e a d i n g f i l l e rp a t t e r n :l i s t :l e n :2 t a g s : n n ,n n s 】 p o s t f i l l e rp a t t e m :w o r d : f m n 】 对规则的解释是:被抽取信息必须满足: 1 ) 前面是单词l e a d i n g ; 2 ) 被抽取信息长度为2 ,且它的词性标注是名词或名词复数形式; 3 ) 被抽取信息的后面必须紧跟f i r m 单词。 2 1 4s r v r d f r e i t a g1 9 9 8 ) 【2 8 ,2 9 ,3 0 1 s r v ( s e q u e n c e r u l e s 、v i t l lv a l i d a t i o n ,带确认功能的次序规则) 的输入是一系 列的网页,上面标记了待抽取区域的实例( i n s t a n c e ) ,以及一系列基于字s g o k e n ) 的特征。输出是一系列的抽取规则。属于单抽取类型的规则( m u l t i s l o t ) 1 8 1 。 s r v 把信息抽取问题看成是一种分类问题。它将文本分为小的短语,这些 短语是实例。文档中的候选实例被提交到分类器。系统会给每个短语赋一个信任 度,信任度的值在范围 0 ,1 中,用于反映该短语作为被抽取信息的信任度。 s r v 使用的归纳方法类似于f o i l 的自上而下的办法。从学习所有正反例子 开始。所谓反例是没有被标记为实例区的字串。归纳过程也是用正排除法,即当 一条规则覆盖的例子全部是正例,或该规则已无法继续具体化时,所有与之匹配 的正例将被从训练集中删除。然后重复以上过程。 s r v 利用的特征分两种:简单特征和关系特征。字词的长度、类型、拼写、 词性等属于简单特征。其中,使用w o r d n e t 系统得到词的语义类信息。w o r d n e t 是一个词库的调用系统,它提供了英文单词的词性、词义、同义词、反义词等内 容并提供相应的访问方法。关系特征反映字词的相邻度。 例如对于以下文本段,希望获得其中的公司名称: a c q u i r ea n o t h e r2 4 m i n r o a c h s h a r e s 抽取规则: 一】2 一 a c q u i s i t i o n :一l e n g t h ( 2 ) s o m e ( ? a c a p i t a l i z e dt r u e ) , s o m e ( ? a n e x t t o k e n 】a l l l o w e r c a s et r u e ) , s o m e ( ? a 陋g h t a n w n - w o r d s t o c k ) 对规则的解释是:抽取的公司名称是: 1 ) 一个单词; 2 ) 开头字母是大写字母; , 3 ) 其它字母都是小写字母; 4 ) 是w o r d n e t 系统中s t o c k 的同义词。 2 1 5w h i s k ( s s o d e r l a n d1 9 9 8 1 1 1 8 1 w h i s k 系统能处理的文本对象包括结构化程度很强的文本、网页等半结构 化文本和自由文本。当然,处理自由文本时,w h i s k 需要使用句法和语义标注 这些自然语言处理工具。 系统采用有监督学习算法。开始时,输入的文本是未标注的,训练集是一个 空集。接着,系统生成实例集。如果输入文本为自由文本,则用句子分析器得到 句子,实例的形式就是句子。如果输入文本是结构化或半结构化文本,则用h t m l 符分割网页的内容,实例就是网页文本段。然后系统从文本中挑选一批实例,让 用户把需抽取的部分加上标记。训l 练实例上的标记将指导抽取规则的生成,并且 检验规则的效果。 w h i s k 属于机器学习算法家族中的覆盖学习法类归纳法。首先,找到一个 最宽泛( g e n e r a l ) 的规则,然后一次加一个条件,直到错误率为零或满足一个事 先设定的标准为止。用来衡量新条件增加的标准是规则的l a p l a c i a n 期望错误值, 0 + 1 公式为:群西。n 是训练集中抽取出来的字串数,e 是这些字串中应用规则所 产生的错误数。学习过程一直进行,直到覆盖所有该覆盖的抽取字符串。最后删 除过适( o v e r f i t t i n g ) 规则。 例如:希望从下面的文本中抽取出卧室的数量和租金。 文本: c a p i t o lh i l l b rt w n h m e d ww d p k gi n c l $ 6 7 5 3b ru p p e r f i rn o g a r $ 9 9 5 ( 2 0 6 ) 9 9 9 9 9 9 9 1 3 北京z , j k 大学工学硕七学位论文 抽取规则为:+ ( ) b r + $ ( ) 输出: r e n t a l b e d r o o m s 1 p r i c e 2 ) 对规则的解释: 其中b e d r o o m s l 表示卧室的数量,其必须满足d i # t ,即阿拉伯数字的要 求;而p r i c e 2 表示租金,其必须满足n m b ,即数字的要求。其中的b r 和$ 都是必须出现在文本中的内容,而+ 表示文本中任意长度的任意内容。 2 1 6b w i ( d f r e i t a g ,n k u s h m e r i c k 2 0 0 0 ) 1 6 , 3 7 b w i ( b o o s t e dw r a p p e ri n d u c t i o n ) 将抽取问题看作是分类问题。b w i 方法将一 篇文本看作一个字符的序列,一个字符可以是:一个文字数字,一个标点符号或 是一个连续字符串。该方法没有将欲抽取信息的文本特征作为学习目标,而是把 判断字符间的边界是否为欲抽取信息的边界作为学习目标。既学习两个分类器 x 嘲。和x 。d :两个由边界n o ,t 映射的函数。设边界的位置为i ,如果该边 界是欲抽取信息的开始位置,则x b 。g i 。( i ) 值为1 ,否则值为0 。 b w i 学习边界探测器来识别欲抽取信息的开始和结束位置。边界探测器的 形式为:d = 。其中,p 是边界前字符串的文本特征;s 是边界后文本的字符 串特征。可见一个边界探测器就是一个识别边界的规则。一个抽取文本的w r a p p e r 是一个三元组: 。其中,f 和a 分别代表了两个边界探测器:分别识别 欲抽取信息的前,后边界。而h 是一个欲抽取信息字符串的长度值。 该方法使用一些通配符来描述文本特征,这些通配符包括: 指那些只包含字母的字符; 指那些只包含数字的字符; 大写开头的字符: 小写开头的字符; 指那些只包含一个 字母的字符; 指那些只包含阿拉伯数字的字符; 指一个标点符 号; 指任何字符。 例如:对于字符串: w h o :d r j o b _ ns m m l 可以生成一个边界探测器 ,然后用上面列出的通配符重新表达 这个边界探测器。 使用a d a b o o s t 算法学习边界探测器。这个方法与顺序c o v e r i n g 算法相比, 有两点不同:顺序c o v e r i n g 算法删除新规则覆盖的正例,而a d a b o o s t 算法仅仅 一1 4 笙:兰墨兰兰篁垦兰翌至釜 一_ 重新设定训练例的权重;顺序c o v e t i n g 算法在训练集为空时就停止学习,而 a d a b o o s t 算法则达到预定的循环数目时才停止学习。这使得该方法总是将当前 学到的规则不能很好覆盖的实例作为学习对象,改变弱学习

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论