




已阅读5页,还剩53页未读, 继续免费阅读
(计算机应用技术专业论文)基于机器学习的web信息提取技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 一= = = ;= = = = = = = = = = = ;= = = = = = = = = = = ;= 摘要 l 、随着w j r l dw i d ew e b 逐步成为全球最大的信息知识库,如何高效迅速地从这个知 识库中提取有用信息已经成为信息处理领域的研究重点。传统信息提取技术的研究侧 重于通过一定的语义分析,对规范、结构化的文本进行信息分类和处理。但w 曲信息 不属于规范的结构化文本范畴,它是介于结构化文本和非结构化文本之间的半结构文 本,其文本结构无法确定,传统的语义分析也不再适用,于是设计能够适用于w e b 信 息的提取方法势在必行。 , 机器学习的介入为w e b 信息的提取开辟了新的研究方向,其自适应机制能够较好 的适应w e b 信息的动态性和松散性,使系统在提取w e b 信息时可根据反馈信息自动完 成旧规则的修改和新规则的推导。目前国内外对基于机器学习的w e b 信息提取有一些 研究,但这些算法在实际应用中表现出种种缺陷,因此改进已有算法和提出新的算法 显得尤为重要。 通过一定的分析和比较,给出了两种新的基于机器学习的w e b 信息提取算法并且 对原有f o i l 算法进行了有效改进,并在实验基础上对每个算法的性能进行了全面的分 析和评估。针对f o i l 算法在学习不相邻网页间复杂联系时表现出来的不确定性,提出 了一种基于网页间联系的新的路径学习算法;多策略学习算法将多个学习算法相结合, 解决了单一机器学习算法推导提取规则时的片面性问题,所得规则能更全面地反映 w e b 信息的分布规律:基于模板填充标记的学习算法采用自底向上推导规则的模块层 叠方法,通过在提取模板中填充一定数量的有助于识别信息类别的s g m l 标记,使算 法能覆盖w e b 页中的不可见信息,可有效控制学习过程中信息的遗漏和溢出,实现智 能化w e b 信息提取。 此外,将研究的算法应用于国家药品监督管理总局“i n t e m e t 上药品信息及电子 商务监管系统”的开发中,实验结果表明上述三种算法在信息查全率和提取精确度上 较现有算法有较大的提高。 关键词:机器乌;w e bf 施提取;f o i l 叠法;多秉略学习;填君蒜记 a b s t r a c t w o r l dw i d ew e bi sb e c o m i n gt h el a r g e s t i n f o r m a t i o nb a s ei n t h ew o r l d ,h o wt o e f f e c t i v e l ya n dr a p i d l ye x t r a c tu s e f u i n f o r m a t i o nf r o m t h i si n f o r m a t i o nb a s eh a sb e c o m ea n e m p h a s i si nd o m a i no f i n f o r m a t i o n t r a n s a c t i o nr e s e a r c h t r a d i t i o n a li n f o r m a t i o ne x t r a c t i o n t e c h n o l o g y , w h i c hi sb a s e do ns o m eo fs c r n a n t i ca n a l y s i s ,o n l yc l a s s i f i e s a n dd e a l sw i t h n o r m a t i v ed o c u m e n tc o l l e c t i o n s w e bi n f o r m a t i o ni sn o tb e l o n g t of o r m a ls t r u c t u r e dt e x t , b u t i st h es e m i s t r u c t u r e dt e x tt h a tf a l i sb e t w e e ns t r u c t u r e dt e x ta n df r e et e x t i t s s t r u c t u r ei s u n c e r t a i na n dt r a d i t i o n a ls e m a n t i ca n a l y s i si su n s u i t a b l e s od e s i g n i n gan e wi n f o r m a t i o n e x t r a c t i o nm e t h o do nt h ew 曲i si m p e r a t i v e t h ei n t r o d u c t i o no fm a c h i n e e a r n i n ge x p l o i t s an e wr e s e a r c hd o m a i nf o rw e b i n f o r m a t i o ne x t r a c t i o n n l es e l f - l e a r n i n ga b i l i t yo fm a c h i n el e a r n i n gi ss u i t a b l et od y n a m i c a n dl o o s ew e bi n f o r m a t i o n i tc a na u t o m a t i c a l l ya m e n do l dr u l e sa n di n d u c en e w o n e sb y f e e d b a c ki n f o r m a t i o nw h e ne x t r a c t i n gw 曲i n f o r m a t i o n a l t h o u g ht h e r eh a sb e e ns o m e r e s e a r c h0 nw e bi n f o r m a t i o ne x t r a c t i o nb a s e d0 nm a c h i n el e a r n i n ga tp r e s e n t ,t h o s em e t h o d s a l w a y sh a v em a n yl i m i t a t i o n s s oi m p r o v i n ge x i s t i n ga l g o r i t h m sa n db r i n g i n gf o r w a r dn e w o n e sa r es e e m e dm o r ei m p o r t a n t n l i st h e s i s p r e s e n t s t w on e wm a c h i n e l e a r n i n ga l g o r i t h m s f o rw e bi n f o r m a t i o n e x t r a c t i o n ,i m p r o v e sf o i l ,a n da n a l y s e sa n de v a l u a t e st h ep e r f o r m a n c eo f e a c ha l g o r i t h m r o u n d l yb ye x p e r i m e n t s f o i l si m p r o v e m e n ta n da n a l y s i sa r er a i s e db yt h eu n c e r t a i n t y w h e n f o i ll e a r n st h ec o m p l e xr e l a t i o n sa m o n g n o n n e i g h b o rw e bp a g e s a n d p r e s e n t sa n e w p a t h f i n d i n gm e t h o db a s e do nr e l a t i o n so fw e bp a g e s ;m u l t i s t r a t e g yl e a r n i n ga l g o r i t h m c o m b i n e ss e v e r a ll e a r n i n ga l g o r i t h mr e a s o n a b l y , r e s o l v e st h eo n e - s i d ep r o b l e m i na p p l y i n ga s i n g l el e a r n i n ga l g o r i t h mt o e x t r a c tf l e x i b l ew b bi n f o r m a t i o n a n dm a k e st h er e s u l tr u l e s s h o wt h ew b bi n f o r m a t i o ni na l la s p e c t s ;l e a r n i n ga l g o r i t h mb a s e do nf i l l i n g - t a gp r e s e n t sa b o t t o m u pl e a r n i n ga l g o r i t h mb a s e do nm o d u l ec a s c a d e ,f i l l sl o t so fs g m lt a g s ,w h i c hi s h e l p f u l t of m di n f o r m a t i o nt y p et oc o v e ru n s e e ni n f o r m a t i o no nt h ew e b ,c o n t r o l s i n f o r m a t i o n sl o s eo ro v e r f l o wi nt h ep r o c e s so fl e a r n i n g ,a n dr e a l i z e s i n t e l l i g e n tw e b i n f o r m a d o ne x t r a c t i o n 、 m o r e o v e r w h e nw e a p p l yt h e s el e a r n i n ga l g o r i t h m st oap r o j e c tf o rs f d a ( s t a t ef o o d a n d d r a ga d m i n i s t r a t i o n ) ,n a m e d “w e b - m o n i t o r i n gi n f o r m a t i o no f d r a g “,t h ee x p e r i m e n t a l r r 华中科技大学硕士学位论文 = = ;= = = = # = ;= = = = ;= ;= = = ;目= = 。= r e s u i t si n d i c a t et h a tt h et h r e ea l g o r i t h m sa l la b o v e h a v el a r g e ri m p r o v e m e n t so nr e c a l la n d p r e c i s i o n t h a nt h ee x i s t i n go n e s k e y w o r d s :m a c h i n el e a r n i n g ;w e bi n f o r m a t i o ne x t r a c t i o n ;f o i la l g o r i t h m ;m u l t i 。s t r a t e g y l e a r n i n g ;f i l l i n g - t a g n i 华中科技大学硕士学位论文 1 绪论 1 1 课题背景 随着i n t e r n e t 及其相关技术的飞速发展,w o r l dw i d ew e b 已经变成了世界上最大、 最丰富的信息资源库。如果按每张网页大约仅有5 - 1 0 k 字节计算,那么w w w 仅是文 本数据就至少有好几万亿字节。与此同时,整个w w w 中的数据量更是以每月1 5 ( 每 年5 3 倍) 的速度增加。目前需人工参与的半自动数据处理速度远小于新数据的产生速 度,而i n t e r a c t 本身的非结构化、动态性、不完全性、混沌的特点又使得w e b 中的信 息大多表现为半结构化形式,即无固定数据结构,不完全、不规则的松散状态。综合 起来,主要表现为以下四个方面的问题:第一、用户难以确定所需信息的位最;第二、 对个人或企业有用的数据混杂在无数其他数据中,这样对于数据统计和数据分析人员, 从各个网页中收集信息将是个不小的负担;第三、从网上得到的数据都是h t m l 文件, 很难把其中包含的信息用于和其他网页信息进行组合和交叉比较:第四、h t m l 文件 无法被目前流行的分析软件直接使用,除非通过人工荐输入一次来完成数据格式的转 换。因此,如何从这个海量、无序的w e b 资源中高效、迅速的找出有用信息是所有 w 、) i w ,研究人员共同面临的问题。 8 0 年代以来机器学习发展较为迅速,它已被视为解决专家系统中知识获取这个“瓶 颈”问题的关键。机器学习是研究如何使机器通过识别和利用现有知识来获取新知识 和新技能的一门科学。它是一个有特定目的的知识获取过程,其内部表现为从未知到 已知这样一个知识增长过程:其外部表现为系统的某些性能和适应性的改善,使得系 统能完成或更好地完成原来不能完成的任务。因此它既注重知识本身的增加,也注重 获取知识的技能的提高。 将人工智能中的机器学习方法应用于w e b 信息的提取技术( i n f o r m a t i o ne x t r a c t i o n t e c h n o l o g yu s i n gm a c h i n el e a r n i n g ) 是解决如何在以不同形式存储的海量w e b 数据资源 中发现有价值的信息或知识的有效途径,是基于w e b 的数据挖掘技术的重要组成部分。 基于机器学习的w e b 信息提取技术的研究对推动基于w e b 的信息集成和构造基于w e b 的知识库都具有极其重要的意义。 药品涉及人民身体健康和生命安全, 行约束和规范,是对人民生命安全负责。 药品广告属于特殊商品广告,对药品广告进 为此,国家药品监督管理局制定了一系列的 华中科技大学硕士学位论文 法令、法规加强对药品广告的监管。但是由于互联网的开放性和自由性,对于网上药 品广告及电子商务的监管仍然得不到有效的执行。 本课题正是来源于本课题组为国家药品监督管理局所开发的“i n t e m e t 上药品广告 及电子商务监管系统”的项目。该项目主要是对i n t e r n e t 药品广告、电子商务等进行信 息监管,主要监管内容涉及:已授权的站点及授权的广告信息管理,包括授权发布药 品广告的站点管理;i n t e m e t 上其它有关药品的广告、介绍,以及软广告( 包括图像、 声音等) 信息的内容正确完整性检查、管理以及药品电子商务的监管等。由于网站的 发展十分迅猛,不仅是网页布局、内容更新,网站的服务也在更新,而且不停地有新 网站产生,因此只有采用基于机器学习的智能化信息提取方法才能将系统设计的足够 灵活以应付这种变化。 整个系统大体由网页搜索模块、信息提取模块和数据库模块组成。其中信息提取 模块是本课题研究的重点,该模块预计达到的目标是: 1 对所有可能包括药品广告的网页逐一遍历,自动地找到药品广告的相关信息( 如 药品名称、功能主治、生产厂家等) 并依次提取出来: 2 将提取出的药品广告信息整理成结构化的数据存入数据库。 1 2 相关技术及国内外现状 机器学习是研究使用计算机模拟或实现人类学习活动的- - f - j 科学,是人工智能研 究领域的一个重要分支。传统的机器学习系统如图1 1 所示【1 2 翔,环境向系统的学习部 分提供信息,学习部分利用这些信息修改知识库,以增进系统执行部分完成任务的效 能,执行部分根据知识库完成任务,同时把获得的信息反馈给学习部分。其中,学习 部分是整个学习系统的重点,它应表现出: 1 整合性:学习应尽可能多地提取信息的特征,将其和称为适用面广的知识: 2 前瞻性:学习应能够从有限的特殊实例中归纳出一般规则,并具有一定的预见 能力; 3 理解性;学习过程和获取知识应以人与机器都易理解的形式表示: 4 演化性:在执行循环中,性能好的学习行为和结果应不断积累和进化,而笨拙 的行为和错误结果应不断被遗忘和退化。 华中科技大学硕士学位论文 i 系统 l 一一一j 图i 1 机器学习系统 目前机器学习已有许多不同的方法,从认识科学的角度可将机器学习分为1 4 5 j : 1 演绎学习系统:从一般到特殊的推理学习系统。通过公理系统或推力定理法 则,可以从已知前提推出有效结论; 2 归纳学习系统:从一般到特殊的推理学习系统。归纳有完全归纳与不完全归 纳,在不完全归纳系统中又有简单枚举归纳与因果关系归纳。因果关系归纳就是根 据事物的因果关系,推出该类事务中所有对象对具有某一属性,又名“科学归纳法”: 3 类比学习系统:从特殊到特殊的一种推理与学习系统,又成为模仿系统。根 据特定事例,通过寻求一般规律( 类比关系、推理规则等) ,再联系到新的事例中去。 其中,归纳学习系统是机器学习最核心、最成熟也是应用最广泛的一个分支。 信息提取技术最初是为了在帮助用户在一个文档集合中找出相应的文本段以对这 个文档集里所定义的标准查询做出回答 6 , 7 , 8 1 。随着计算机处理能力不断提高,文本数据 积累不断增大,尊重真实文本语言成为当前各种信息处理技术的基本立场和出发点。 信息提取的研究和应用被列为与信息检索、文档归类与摘要、语音识别等并重的语言 工程项目。 信息提取的目标是让计算机不但找到相关的文档,而且还要找到相关的内容。它 通常涉及两方面的因素: 1 用户指定感兴趣的信息特性以及待分析的文本集( 数据源) ; 2 系统过滤文本集并以一定的格式输出匹配的信息( 关系记录) 。 提取的信息一般可以分为这样几类:命名实体的提取、模板内容信息提取、各个 实体之间关系的提取和预置事件的信息提取。 1 命名实体的提取:包括组织机构、人名、地名的提取,时间、日期、货币的提 华中科技大学硕士学位论文 取,专有名词的提取,隐含指代名词和集合名词的提取。 2 模板内容信息的提取:用户预先设置模板,自动提取用户关心的详细内容。 3 实体关系信息的提取:某些事件发生的因果关系。 4 预置事件信息的提取:比如通告、宣传中发布的消息等。 信息提取的过程主要包括以下几个步骤f 9 ,1 0 l l 】: 1 用一组信息模式描述用户感兴趣的信息。信息模式通常可表示为一个简单的句 式,系统可以针对某一领域的信息特征,预定义好一系列的信息模式,存放在模式库 中供用户选择: 2 对文本进行“适度的”( 浅层、非完整的) 词法、句法及语法分析,并作各种文 本标记; 3 用模式匹配方法识别指定的信息( 即找出信息模式的各个部分) ; 4 进行上下文关联、指代、引用等分析和推理,确定信息的最终形式: 5 输出结果。 在对信息提取的定义、类别和过程分别进行阐述之后,下面重点介绍在该领域几 个比较有代表性模型系统: 1 基于结点语义关系的信息提取系统 该系统将信息提取的整个过程定义为四个阶段:文本预处理阶段、语法制导分析 阶段、语义提取阶段、结构化存储阶段。 文本预处理阶段包含过滤处理、分词、名称识别等过程;语法制导分析阶段是对 语句进行语法分析,加以语义子程序,得到带有语义关系信息的语法树的阶段:语义 提取阶段包含语法树处理、语义跟踪分析、模板匹配与生成等;结构化存储阶段包含 语义码存储、数据库操作等。其中,语义提取是最核心也是最复杂的,语义信息提取 的流程如图1 2 所示: 4 华中科技大学硕士学位论文 = = = = = = = ;= = = 2 = = = = ;= = ;= ;= = = = ;= 一 语法制导分析的语法树 语义关系树的生成 节点语义关系遍历 语义跟踪匹配提取 结构化信息存储 图1 - 2语义信息提取的流程 2 多语种信息提取系统 该系统是上海交通大学与德国人工智能研究中心d f k i 合作研究的基于多种语言 的信息提取系统,目标是建立一个面向中、英、德三种语言并具有良好的语种扩充性 和领域移植性的特定领域信息提取模型。整个系统的模型如图l - 3 所示。1 孙。 图1 3多语种信息提取系统模型 预处理模块的作用是首先对文档进行词法分析,然后进行句法和语义标注。所谓 语义标注是指根据多语种语义类词典和领域的语义层次网络将文本中的关键名词、动 华中科技大学硕士学位论文 = = = = = = = ;= = ;= = = ;= = 2 = = = = = = = = = = = = = = = = = = = j 词标注上语义码,是一种简单和浅层的语义处理。信息提取模块则是调用模板库中响 应的填充模板对经过预处理的文档进行信息提取,并转换为语义表示存入信息库,这 是系统的核心部分。在得到提取结果后,用户可以通过自然语言接口模块用不同语种 的自然语言句子提出查询,系统对查询句进行分析后得到用户的需求,通过信息库接 口向信息库提交查询,最后将用语义码表示的查询结果转化成用户使用的语言输出a 3 基于文本理解的自动文摘系统 该系统利用全信息词典有效的组织语言学知识、背景知识和领域知识,利用部分 分析器算法,实现语法语义语用分析一体化,从文本中提取重要信息,将任一篇文章 转换为计算机内的个信息提取框架实体。整个系统的工作流图如图1 4 所示1 4 1 。 图l - 4文摘系统工作流程图 全信息词典是整个系统的工作基础,它将多种知识源有机的组成一体,用统一的 文法进行描述,很好的解决了自然语言中知识表示和知识运用的问题:智能分词器将 分词所得的词的各种信息送入控制缓冲区,供部分分词器使用,引导其分析的运行; 主题过滤器根据文本内容,确定文本主题:部分分析器与全信息词典一样,也是文摘 系统最有特色的部分,在文摘框架的约束下,在控制缓冲区的各种词信息的引导下, 对于文摘框架填充有关的句子或短语进行必要的语法、语义分析:文摘框架填槽器则 实现输入文本对文摘框架的实例化,它把获得的信息根据文摘框架填入相应的槽部件; 最后的文摘生成器根据文摘框架的填充情况,按既定的文摘模板,填充模板中的空白 6 华中科技大学硕士学位论文 部分,生成文摘输出,完成文摘信息的提取。 从以上介绍的几个有代表性的信息提取系统中可以看出信息提取通常都涉及到一 些基于语义的词法、句法分析的预处理过程,然而在很多领域里语义的预处理是十分 复杂的,因此机器学习被引入到这个研究领域 1 5 ”j 。采用了机器学习的信息提取不再 是人工的分析语义、描述信息模式、构造提取模板,而是预先从待提取的文档集合中 标记出部分文档,构成一个实例文档集合,一方面通过机器学习在已构成的实例文档 集合中推导部分提取规则,另一方面将已推导出的规则用于尚未标记的文档集合中来 继续推导新规则,具体过程如图1 5 所示f 1 7 j s j g , 2 0 j 。 图1 - 5 基于机器学习的信息提取系统模型 自1 9 8 4 年b r e i m a n 等人提出零阶学习系统c a r t 2 i j 以来,基于机器学习的信息提 取的研究已经开展了将近2 0 年。p a l k a l 2 2 】和a u t o s l o g 1 是从做过标记的离散文件集 合中推导信息提取模式,然后对这些信息提取模式进行检查,最后安装到一个更大的 信息提取系统中c r y s t a l ( 2 4 1 和r a p i e r ? 封都证明了机器学习技术能够学习出能自 动完成信息提取的规则。c r y s t a l 是一个覆盖算法,它将解析注释后的句子作为输入, 从该句子中推导提取生成规则。r a p i e r 则使用的是关联学习的思想,释放对语法进 程的部分依赖。从大量已定义的提取规则出发,两个系统都是通过先去约束后合并方 式来推导新规则。 而今面对烟波浩渺的i n t e m e t ,研究者已经注意到从w e b 和其它i n t e m e t 资源中提 取文本信息的问题f 2 印7 j 3 堋。w 曲信息提取可以帮助企业( 或其他信息提供商) 或个人 从w e b 上获取有用信息( 包括与企业有业务往来的客户、供应商、代理人以及政府和 其他机构发布在w w w 上的信息) 。它可以自动地把所需的网页信息提取出来,从而 避免了用户自己搜索信息的繁琐与时间的耗费;并把提取出来的网页信息转存于数据 库中,使非结构或半结构化的数据转化为结构化数据,以利于用户对数据进行分析。 7 华中科技大学硕士学位论文 斯坦福大学提出的o e m 模型( o b j e c te x c h a n g em o d e l ) f 3 0 川非常适于描述结构松散 或结构不固定的半结构化数据,被广泛的应用于半结构的w e b 信息的检索和提取。o e m 用有向图的节点和边的标识表示被描述对象。每个对象由一个对象标识符来唯一指明, 对象分为原子对象和复合对象两种:原子对象的值是一个原子类型的值,如整型、实 型、字符串型等,复合对象的值是二元组( 标记,子对象标识符) 的集合。同时,在 o e m 图中有一个根( 唯一命名对象) ,从根节点出发,图中任节点都是可以到达的。 图l - 6 是一个o e m 图的简例。其中& r ,& 1 ,& 2 ,& 7 是8 个对象:& r 是根对象( 根 节点) ,4 ,& 6 是原子对象,“l u ”、“w u h a n ”是对应的值:& 5 是复合对象,它的值 是 ( c i t y , 6 ) ,( e m a i l ,& 7 ) ) ;对象可以用路径表达式表示,如r e l a t i o n p r o f e s s o r n a l i l e , 注意路径表达式可能表示对象的集合,因为o e m 并未限制复合对象的各标记名唯一。 图卜6o e m 的一个简例 2 8 5 佐治亚理工的d a v i db u t t l e r 等设计的o m i n i 系统是一个应用于w w w 的全自动对 象提取系统,如图1 7 所示 3 2 1 。o m i n i 系统的独特之处在于其适应算法以及从包含大量 对象实例的动态或静态的网页中自动学习信息提取规则来发现和提取对象。该系统将 网页解析成树结构,通过两个阶段来完成对象提取。首先使用一组子树提取算法来确 定包含所有感兴趣对象的最小子树:然后用一套对象提取算法来找到正确的对象划分 标记,这些标记能有效的进行对象划分。两个阶段都是完全自动的,子树提取阶段大 大减少了在对象提取阶段需要考虑的可能性。 8 华中科技大学硕士学位论文 = := = = = = = = = = ;= = ;= ;= ;= 目= = = = = = ;= ;目= ;= = = 一 巴皇旦! 堕一一 图l - 7o m i n i 系统结构 此外,通过与已知信息进行比较来学习在线数据库输出语义的i l a p 3 l 系统;议价 猪头代理s h o p b o t 3 钔,通过从h t m l 中学习规则来提取在线商品目录中价格信息; w e b f o o t 3 5 1 则是对c r y s t a l 的一个修改,即将分列的句子片断由h t m l 的片段代替; w h i s k 3 6 1 是c r y s t a l 和w e b f o o t 的性能结合,是最普遍规则提取系统,它将规则的 表达作为提取模式,能够从半结构或无结构的文本中学习提取规则。w h i s k 使用自顶 向下的覆盖算法推导规则,从最基本的规则开始,通过逐步添加规则术语来完善。 1 3 论文的内容与组织 本文主要对采用机器学习的w e b 信息提取技术进行了研究,探讨了将智能化的机 器学习应用于w e b 信息提取领域的可行性和优越性。研究内容大体可分为两个部分: 第一部分从w e b 信息的特点入手,针对半结构化w e b 信息松散、动态的特点,在深入 分析了信息提取的特点、原理的基础上,确定了将具有较强演化性、理解性和自适应 性的机器学习技术应用于半结构化w 曲信息提取的可行性和合理性:第二部分从基于 静态文本的信息提取技术入手,在分析了已有的静态文本提取技术在面对动态w e b 信 9 华中科技大学硕士学位论文 息时存在的弊端后,对其进行了有效的改进并提出了新的机器学习方法,使得机器在 学习w e b 信息提取规则时表现出了更强的适应性和更广的覆盖度。 全文一共分成六章。 第一章为概述,介绍了课题的来源、目的、意义及相关技术的国内外现状。 第二章阐述了本课题在w e b 信息提取和机器学习两方面所涉及的理论基础。 第三章至第五章是本课题的创新部分和研究重点,提出了对f o i l 算法的改进和分 析、多策略学习算法以及基于模板填充标记的学习算法等三种各有特色的w e b 信息提 取学习算法,并且对三种算法的性能都进行了实验性的分析和评估。 第六章是本课题的总结与展望,对现阶段已完成的工作做出总结,对下一步将要 进行的工作和可行的研究方向进行了展望。 1 0 华中科技大学硕士学位论文 2w e b 信息提取技术的理论基础 w w w 可以被看成是一个巨大的、异构的、分布的、由超文本链接所连接的文档 集合,对这样的数据进行信息提取与传统的文本信息提取有着明显的不同。首先,已 有的数据模型不能很好地适应网上数据的特点,需要引入新的数据模型;其次,由于 i n t e m e t 上的许多数据经常缺乏明确的模式,存在不规则的数据形式,这就给信息提取 提出了新的挑战。w e b 信息的提取是依据w e b 信息在网页中的描述风格来进行的a 没 有强制性的模式限制使得w e b 信息具有很大的灵活性,因此w e b 信息提取的关键是从 数据中得到模式以生成一组能识别所提取信息的规则集合a 2 1 信息提取的形式化定义 信息提取( i n f o r m a t i o ne x t r a c t i o n ) 是指从一段文本中提取指定的一类信息( 例如事 件、事实) 并将其形成结构化数据,填入数据库中供用户查询使用的过程。信息提取 工作的核心是独立的文本,如果将文本文件d 看作由短语t 】,k 的组成的序列,其中, 短语可以是一个词语也可以是一个标点单元,那么信息提取的形式化定义如下: 函数f ( d ) = ( i l ,j 1 ) ,( i 2 ,j 2 ) 将一个文本文件映射到一个文本片断集合上,变量i k 和j k 表示分别位于文本片断k 的左右边界的短语。一个函数f 与一类信息项相对应, 当文本文件中没有此类信息项,那么函数f 返回空集合。 给出信息提取的形式化定义以后,机器学习的目的就是在函数f 的训练文件集合 中找出与函数f 尽可能接近的近似函数f ,使其能尽可能的适用于整个训练文件集合。 机器学习通过构造函数g 来取代对函数f 直接估算,函数g ,i ,j ) = x 将文件d 的子 序列( i ,j ) 映射到一个实数x ,其中实数x 表示的是文本段( i ,j ) 作为一个所需信息项的可 信度。在以当前形式给出假设的情况下,近似函数f 的应用还涉及到尽可能减少遍历 文本文件次数、给函数g 输入大小适中文本段、以及找出最大可信度的文本段等问题。 此外,函数g 还可以用来排除无关的文本段。 后面章节中所阐述的学习方法都将涉及一个以函数g 的形式构造学习函数的过 程,换句话说,信息提取规则的推导更关心的是文本段,而不是整篇文档。给出一个 测试文本段,机器学习要么将它拒绝,要么返回一个可信度。总之,不直接为f 建模, 而是以函数g 的形式推导出近似的学习函数有如下好处: 1 它巧妙的处理了函数f 固有的搜索问题,没有直接为所找的信息项定位,而是 华中科技大学硕士学位论文 列出所有合理的选择对象,从中挑选一个最合适的。 2 函数g 在形式上比函数f 更接近那些可以运行传统分类算法的函数,并且可以 接受相关规律中的很多方法标准。例如,由( i ,j ) 界定的文本段可以被看作是一 种微型文档,那么统计文档分类技术就可以对其中信息项进行定位。 3 如果机器学习输出的是一个实数,那么可以通过设定一个极值来排除结果低于 它的断言,而且一条断言的可靠性可以作为一个函数的可信度计算出来。 2 2 信息视图 在机器学习中为学习对象建模对于学习任务的设定至关重要。信息提取通常将对 象文档视作词语和词组的序列流视图,然而这只是模型化文档的一种。一个信息文档 是一个“自然对象”,有多种不同的结构,而总有部分结构在任意给定的视图描述中 是要被忽略的,因此一个信息文档可以有多个不同的视图表示方法。 2 2 1 词语序列视图 词语序列视图将一个信息文档视作词语组成的序列,忽略词语出现的先后顺序的 “词语包”模型就是这种视图的一种。 将正规的文件模拟成视图是一个近似理论化的过程。尽管它组合的是较基本的文 件元素( 字符集) ,但由于它也表示了一种结构,因此它仍然需要与复杂的视图一样, 执行相应的函数。本文在后面的机器学习算法中还将提到这种文件视图,它是信息提 取领域中一种最基本的文件描述方法。 t y p c :h u s t c s o 每c i a l n e w s d a t e s : 1 5 - a p r i l 0 3 t i i n e :4 :0 0 5 :0 0p m p l a c e :r o o m1 2 0 n 1 p o s t e d b y :j e s s i eo n1 - a p r i l 0 3a t1 2 :0 0f r o mc s b u s t e d u c n a b s t r a c t :m a c h i n e l e a r n i n gr e s e a r c h d l w a n g d a t e :t h u r s d a y , a p r i l1 5 ,2 0 0 3 币m e :4 :0 0 5 :0 0p m p l a c e :r o o m1 2 0 n l 图2 - l 电子公告牌上的学术报告的通知 1 2 华中科技大学硕士学位论文 图2 1 表示的是某大学计算机学院电子公告排上关于一个即将召开的学术会议的 通知。图2 - 2 表示的是该通知的词语序列视图,其中每一个被空白分隔的标识符是序 列中的一个元素。 t y p e :h u s t c s o l t i c i a l n e w s t o p i c :s e m i n a r d a t e s :1 5 一a 鲥l 0 3 啊n i t : 4 :0 0 5 :0 0 p m p i a c e :r o o m l 2 0 n 1 p o s t e d b y :j e s s i e o n 1 一a p r i l 0 3 a t1 2 :0 0f i r mc s b u s t e d u c na b s t r a c t : m a c h i n el e a r n i n gr e s e a r c hd r w a n g d a t e :t h u r s d a y ,a p r i l1 5 , 2 0 0 3 t t m e :4 :0 0 5 :0 0 p r o p i a c e - r o o m l 2 0 n l 图2 - 2学术报告的通知的词语序列视图 2 2 2 标记化视图 一个信息文档的标记化视图将该文档视作普通词语与中介词语共同组成的序列。 其中,中介词语为普通词语提供了一定的服务信息。例如,h t m l 文档就包含了很多 中介词语,但是h t m l 中的中介词语只是起到分隔词语的作用。标记化视图与词语序 列视图的不同之处在于前者是对信息文档多元化描述,而后者只是对信息文档的一元 描述。在标记化视图中,一个标记可以被视作是一个定义在标识符上的b o o l e a n 函数。 例如,在h t m l 中可以定义函数t i t l e 对于任何出现在标记 范围内的标识符返回 b o o l e a n 值t r u e 。另外,还可以将标记视作一个联系的实例化,如在 域中出现的 标识符就是将它们与h t m l 文档中其他标识符区别这联系的实例化。 j e s s i e sh o m e p a g e i n t r o d u c t i o n i n t r o h i m | + + * c t d + + + + + + + + + + + + + + 叫i 图2 - 4个人主页的标记化视图 2 2 3 布局视图 一个信息文件的布局视图可以被看作是对文中词语的二维的排列和调整,这个视 图也可以被看作是标记化视图的一个扩展。 很多重要的文本对象只有在这个层次上才能被分析清楚,如段落、标题、表格、 邮件头部和签名等等。这些对象要么与周围的文本分隔开,要么与周围的文本以一种 特殊的方式相联系。例如,表格文本就暗示了它所包含的文本片段的一些信息:行值 与一个对象的不同属性相关,而列值则与多个对象的同一属性相关。 图2 5 表示了图2 1 中所示信息文本的布局视图,在这个图中所有的非空白区字符 串都被“代替。虽然单独使用这种视图还不能提供足够的信息来识别特征信息域, 但是它仍然能够表示出很多有用的信息。例如,人们可以凭借经验很快的识别出图2 5 中哪个部分的信息可以进行传统的语言分析。另外,根据在信息提取领域对文件处理 的一些经验,人们也可以较好的推测出一个文件中特征信息域( 如报告主题、报告发 言人、报告日期等) 的位置。 1 4 华中科技大学硕士学位论文 + , + ,+ + + + + + + + + + + + + 图2 - 5学术报告通知的布局视图 2 3w e b 信息的特点 定义1结构化文档是满足如下条件的文档: ( 1 1 采用抽象概念的形式描述的文档; f 2 ) 文档具有严格的结构,且其结构的合法性是可验证的; ( 3 ) 文档的结构是与其语义的抽象概念相一致的; ( 4 ) 作为研究对象的文档集或研究子集满足相同的文档结构定义: f 5 ) 结构定义在时间上保持稳定。 定义2 不满足结构化文档要求的文档称为非结构化文档。 定义3 半结构化文档是具有附加描述信息的非结构化文档。 w e b 信息是典型的半结构化文档,是由文本信息和大量附加描述信息h n 几 标识符两部分组成。它具有半结构化数据的典型特征: 1 数据一般没有独立的结构描述信息( 模式信息) 。 2 有些数据具有结构描述信息,但数据模式大而松散,甚至还频繁改变。 3 数据模式是描述性的而非规定性的,只描述了数据的当前状态。 4 语义相同的数据其属性值的类型、长度可能不同。 示飞誓蠢片t 益矸曼片 1 :瑚l 蠕$ 1 x y i i a i u m 批敝号f 鲁卫菊准宇( 饿) 籍0 2 髓喝 执行标榷山鹏葺强标准蜊 性状,本晶为毫杞片除去i 譬表后墨镣黄色 作用与用途,有保阡及臻血精作用。用千慢性g f 炎阜期肝磋亿。 精瘟的禳聃治疗 用法与用重。口服,孜7 r , r 。一日嗽 规格5 啊( 水飞蕾宾) 包装规格h l 1 0 0 片1 0 瓶x l o l 图2 - 6药品广告网页的例子 如t i ,e 肝胆类疾病药可n 1 1 。e t b o d y 肝胆类疾病药 批准文号:鲁卫 药准字( 1 9 9 5 ) 第0 2 7 0 6 3 号( b r 执行标准:山东省药品标准1 9 8 6 性状:本品为糖衣片, 除去糖衣后,显栋黄色。 作用与用途:有保肝及降血脂作用。用于慢性肝炎,早期肝硬化, 中毒性肝损伤及高血脂症的辅助治疗。 用法与用量:口服,一次7 7 m g 片,一日3 次。 规格:3 8 5 m g ( 水飞蓟宾) 包装规格:3 8 5 n a g x1 0 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025届广东省深圳市龙岗区中考试题猜想数学试卷含解析
- 2025年工业机器人编程与操作习题及解析
- 2025年应急局安全员资格认证题解
- 2025年建安安全员考试重点突破题及答案
- 2025年安全员C证法规题及答案
- 2025年空调维修工程师执业技能考核试题及答案解析
- 2025年金融风险管理师职业资格考试试卷及答案解析
- 2025年建筑学试题及答案解析
- 2025年婚姻家庭咨询师职业素质评定试题及答案解析
- 2025年国际贸易专家认证考核试题及答案解析
- T/YNIA 003.1-2021面膜护肤用非织造布第1部分:水刺法
- T/CASTEM 1013-2023高校人才代表性科技成果评价指南
- 军队文职管理学备考指南
- 胖东来考试试题及答案
- 乐天地产(成都)有限公司乐天广场四期项目环评报告
- 人教版初二地理上册课件:从世界看中国第一节 疆域
- 初中生叛逆期教育主题班会
- 《农村基层干部廉洁履行职责规定》知识培训
- 符合标准2025年乡村全科助理医师考试试题及答案
- 2025年矿产权评估师练习题及参考答案一套
- 人工智能技术在中职语文教学中的实践
评论
0/150
提交评论