(计算机应用技术专业论文)面向web表单的信息抽取通用模型.pdf_第1页
(计算机应用技术专业论文)面向web表单的信息抽取通用模型.pdf_第2页
(计算机应用技术专业论文)面向web表单的信息抽取通用模型.pdf_第3页
(计算机应用技术专业论文)面向web表单的信息抽取通用模型.pdf_第4页
(计算机应用技术专业论文)面向web表单的信息抽取通用模型.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)面向web表单的信息抽取通用模型.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕上学位论文 摘要 随着互联网的发展,互联网上的信息量急剧膨胀,但网页中信息表达的格式 和风格随意、自由。面对多种的信息表达方式,让计算机去自动识别或分类这些 信息就变得十分有意义。为了让计算机能够自动识别获取这些信息,各种信息抽 取技术就应运而生。 信息抽取技术的关键技术是包装器的生成方法。包装器( w r a | p p 盯) 的生成 方法是当前信息抽取领域的研究热点。然而当前的包装器生成方法设计一般针对 某一特定的应用领域( 如股票价格信息,工作招聘信息等) ,这样设计的包装器 带有那一特定领域信息的特征,因此其应用都有其局限性。 本文提出了一个面向w 曲表单的信息抽取通用模型,完整的设计和实现了模 型的定义方法、训练方法、表达和存储方式及抽取方式。完整的阐述了对象模型 和对象要素定义的结构和方法,并提出了一个采用此模型进行信息抽取的通用步 骤。该步骤从互联网上获取包含需提取的信息的网页,然后通过网页视觉布局等 信息分析得到含有具体内容的w 曲表单,然后建立待抽取对象的对象定义模型, 最后通过该模型从抽取的w 曲表单中进行特定信息的抽取。在对象模型的定义 时采用了专家定义和使用训练库训练两种方法相结合的方法。在最后的系统实验 中,实践了使用该模型进行信息抽取的完整步骤,首先定义了两个对象模型( 手 机和m p 3 ) ,然后从互联网中抽取了近万个这两种产品的w 曲表单,最后使用定 义的两个模型进行了信息抽取,通过实验显示该模型对表单式的信息有较好的抽 取效果。 本文主要内容总结为以下几点: l 。面向w 曲表单信息抽取通用模型的设计与实现; 2 w 西页面中视觉上的主体表单的提取; 3 通过定义的对象模型对表单信息进行抽取的步骤和方法。 关键词,信息抽取,模型,w 曲表单 浙江大学硕士学位论文 a b s t r a c t w i t ht l l ed e v d o p i n go f t h eh l t 锄m ei n f o m a t i o n t h ew 础dw i d ew e b b e m e 掣e 砷b u tt h es 哆l eo fi n f o n n a t i o ni nt h ep a g 伪i sl i b e 啊a l l d 丘喇o m i i i t l l i sc a 辩,i e tt h eo o m p u t 盱t oi d e n t i 移o fc i 舶8 i 玲t l l i si l l 白r m a t i a u t o m a t i s mb e c 伽e a b i gp r o b l 锄f o ft h e f e 勰。粥,t h ei n f o 皿a t i o n 眈仃a c t i o nt c 蛳c a ld “e l o p 1 kk c y 删c a lo fi n f 0 彻a t i o ne x 仃a c t i o ni sw 印p 盯g c n 锄曲昏惭盯 g c n 训n gi sm eh o t s p o to fi n f 咖a t i 咖咖a c t i t e c 枷c a l b h tm i sw m p p 盯 g 朗e f a t i n gm e m o d s a r ef d r c eo n 鲫n es p e c i a ld o m a i l l ( e g s l o 咄j o b ) ,啪d e v e l o pa s p e c i f i c a l l yi 1 1 f - o f n l 撕能昀c t i m c t 脚st 0 e 】【仃a c t i o ns p e c i f i c a l l yi n f o 册a i i o n t h e s em e t h o d sa r ea l ll o c a l i z a 石 1 1 l i sp a p 盯a d v 瓣。嚣aw 曲油l eo f i c n t e di n f o r m a t i o n 怯t r a c f i m o d 吐d 髂i 萨 a n di m p l 锄e n tt l l ed e 6 i l i 吐o i i 删n g ,懿p r e s s i o i l 咖m g ea i l d 能昀c t i o f t i i em o d e l 1 k s m o d c ld e s i 罢皿m 柚ys 咖c t i 聆a n d m c l l 蜘t od 倒t i o no _ b j 。da l l d m e f k b o ro f t h e0 b j e c t i td e v d 叩sag c r a lp r o c 铭st di m p l 锄tt l l i sm o d dt 0d oi n f b m l a t i e x t r a c t i o nw o r k t h i sp r o c 铭s 郐吐st h ep a g 岛w i mi i i 南衄a t i o n 白m lw b r l dw i d ew 曲, m e n 狮a l y z 嚣t h ep a g es 加坩 u r eb yv i s i o ni n a t i o n ,u s 器m eo b j tm o d dt od o s p c c i a li n f o m a t i o n 懿打a c i i 右n 啦! y a tt l l e e i i do f t h i sp a p d e 矗n 瞄柳o6 b e c t m o d e l s ( m o b i l e 锄dm p 3 ) 缸t 嘲c x 仃a c t i o nn 髓d yl o o t a b l c sf o n nw e b ,f m a l l y l l s 鹤t h ed c f i n eo b j e c tm o d d st od 0t l l ei i l f o 帆a t i o ne x 电m c t i w o r i 【s t h ec x p e f i m e n t s h o w sm a tn l em o d dh 嬲ag o o di m p r c s s i o no f i n f o 咖a t i o n 鼹t r a c t i o n t i i i sp 印c rc o n 组i 璐f o l l o w i | 1 9c o n t e i l t s : 1 t h ed e s i 弘龃di m p l 唧e n to ft h cc i 】盯锄c yo b j e c td e f i i l i t i o nm o d df o r i n l o n n a t i o na 【t r a d 妇 2 1 km a i nt a b l ee x 仃a c t i i l lt l l ew e bp a g 姻b a v i s i o ni n f b m a t i o m 3 1 飞ep f o c e s sa n df l l n c t i o n so ft a b l ei l l 内n n a t i o ne x 仃a c t i o nw i 也t l l co 巧e c t m o d e l k e y w 竹d s :h f b r m a l i 蛳e x 仃a c t i o i l m o d d ,w 曲t a b l e 2 浙江大学硕上学位论文 图目录 图4 - l 网站内容判定流程图 图目录 图牝判定网页是否包含信息的流挥图 2 3 2 3 2 4 2 9 3 l 3 2 3 3 3 4 3 8 4 4 4 6 4 7 图自反馈型的视觉中央表单提取 图4 4 h n m 文档的d o m 树层次分析。 图4 _ 5 网页抓取系统中网页u r l 的安排 图4 _ 6 网页视觉结构模式示意图 图4 4 单个对象的表单。 图4 0 拥有多个对象信息的表单 图5 1 对手机对象模璎的定义文件 图5 - 2 召同率和准确率关系示意图 图6 1 友人网的视觉中央表单提取示意图 图6 2 酷网的视觉中央表单提取示意幽 图数码影音网的视觉中央表单提取示意幽 图6 4 m p 3 抽取模璀的定义 翻6 - 5 模喇定义i :具截酗 图6 - 6 抽取效果部分截图 图6 1 7 友人网表单手机对象信息抽取结果 图铺酷网表单手机对象信息抽取结果 图6 - 9 数码影音网表单h 伊3 对象信息抽取结果 4 4 7 4 8 4 9 5 0 。5 l 5 l 5 l 浙江大学硕士学位论文 表目录 表3 1 常用的限定符 表目录 1 4 。2 4 4 2 4 2 。4 2 表4 - l u i 也举倒 表5 1 参数要素判定系数设置 表5 2 集合要素权重设置表 表5 - 3 数字类型备要素权重设置表 表6 - l 实验数据 表6 - 2 对象要素抽取比例表 5 4 8 。5 2 浙江大学硕上学位论文第一章绪论 1 1 选题背景和意义 第一章绪论 随着互联网的发展,互联网上的信息量急剧膨胀,据2 0 0 7 年1 月2 3 日,中 国互联网络信息中心( c n n i c ) 发布第1 9 次中国互联网络发展状况统计报告 显示,截至2 0 0 6 年底,我国域名总量达到4 ,1 0 9 ,0 2 0 个全国网页数目和网页字 节总数分别为4 4 。7 亿个和1 2 2 ,3 0 6 g b ,与去年网期相比分别增长8 6 3 和8 1 7 。 这是在中国,整个i n t e r n e t 上的网站数目更加惊人,掘统计,截止至2 0 0 4 年1 月,已有网站数目4 6 0 0 万,2 0 0 3 年美国加州大学伯克利分校估计2 0 0 2 年可访 问到的静态页面达1 6 7 t b ,而动态页面总数在6 6 8 0 0 t 8 到9 1 8 5 0 t b 之间。并且到 2 0 0 5 年,最大的搜索引擎g o o g l e 显示,他索引的网页数量已经超过了8 0 亿 可见无论是信息量和信息的增长速度都是惊人的。 但网页本身信息表达的格式和风格随意、自由。在普遍的半结构化文本中央 杂者结构化和自由文本,信息的表达格式也多种多样,面对如此多的信息量、如 此自由的表达方式,唯有让计算机去自动识别或分类这些信息才是正道。为了让 计算机能够自动识别和获取这些信息,各种信息抽取技术就应运而生嘲。 信息抽取技术将各种不同格式表达的信息通过抽取技术转化为统一的信息 表达方式。它为数据挖掘( d a t am i n i n g ) 、新一代搜索引擎、面向专业领域的垂 直搜索等提供了巨大的数据支持。它让计算机能够分类和识别信息从而有了很多 新的应用,如:比价系统、新型求职系统、交易系统等。 然而当前的信息抽取技术( 主体是包装器) 基本都是针对某一特定的应用领 域( 如股票价格信息、工作招聘信息等) 而提出的一个针对特定的信息的特定抽 取方法,其应用都有其局限性。因此本文通过提出一个通用的对象定义模型,实 现一个非面向特定专业信息领域的通用信息抽取模型。并设计了一系列用于定义 对象和对象要素的结构和方法,并提出了个采用此类模型进行信息抽取的通用 步骤。从而克服信息抽取中包装器的通用性差的缺点。 1 2 信息抽取相关简介 信息抽取技术是近十几年来发展起来的新领域,起源于文本理解。信息抽取 技术的目标是从自然语言描述的信息中找到特定的信息,包括含有表格信息的结 构化文本或半结构化文本,还有自由式文本等嘲。 w e b 信息抽取技术是传统信息抽取技术面向特定应用领域的一个特例,它可 6 浙江大学硕上学位论文第一章绪论 以吸收使用传统信息抽取技术的研究的成果,然而也要针对特定的领域有特定的 调整。w e b 信息抽取是将分散在互联网上的海量的半结构化或半结构化的h t m l 文本中的特定信息点抽取出来,并转换为统一的结构化表现形式,为其他应用提 供统一的数据支持 完成将信息从网页中抽取出来的工作是由包装器完成的,它是完成从半结构 化或结构化h t 礼文本中提取信息并统一结构化保存的程序。它将信息抽取自动 化,对面向海量的w e b 信息时特别有用。 包装器的生成方法主要分为手工编写、半自动化生成和现在正在研究的全自 动化生成三个方法 最初的包装器是由通过手工编写的,由专门的具有一定知识的专业人员首先 对特定的网页郡进行分析,然后写出特定的包装器。手工编写包装器有以下几个 缺点:编写过程复杂、开发和维护的人员要求高、通用性差。 随着信息抽取技术、人工智能、机器学习、数据挖掘信息检索和其他相关领 域的发展,包装器的生成也进入了半自动生成的阶段。用户通过提供专业领域数 据的特定训练库,使计算机通过对训练库的训练从而能识别更多的和训练库相似 或相关的信息。它的主要缺点是训练库的编写十分麻烦,编写入员不仅需要了解 专业领域知识,还要了解包装器的生成、使用规则。本文所提出的信息抽取模型 也是一种半自动化的信息抽取技术,相比传统信息抽取技术,它的有点主要体现 在训练库或规则定义的统一和简洁方面。 1 3 信息抽取模型介绍 本文提出的信息抽取模型是面向表单式的信息源。通过此模型用户可以通过 建立所需抽取的信息的模型,完成对大量的表单进行识别和分类。本文所提及的 w e b 表单是指h t 虬文本中格式化的信息,特别是h t m l 中的包含t a b l e 标签的信 息。 之所以选择h t 札文本作为信息抽取的对象,是因为以下原因: 互联网上有含量的信息,大部分是一h t m l 页面的形式存在的。 h t m l 网页文本具有半结构化特征,相比与普通文本,其半机构化特征更 有助于信息抽取。 网页之间相互有链接。这样就有利于通过链接导航从而获取信息和根据 导航的u r l 进行聚类。 本文提出的信息抽取模型类似于面向对象编程技术。定义时,通过对对象的 各个要素的定义完成对整个对象的定义:同样,在抽取时,也通过对对象的各个 要素的抽取和判定完成对整个对象的抽取和判定。 7 浙江大学硕士学位论文第一章绪论 本文还提供了一个应用此通用模型的具体案例,它主要分为两步啪:一、从 w e b 中获取特定知识的表单信息;二、通过对表单信息的区分完成对信息的识别 和分类。 1 4 本文内容结构安排 第一章是绪论,总体介绍背景和意义、信息检索相关的知识和本文的整体介 绍。 第二章将概括的介绍国内外现有的信息抽取方案和他们的有缺点。 第三章将对本文设计的面向w e b 表单的信息抽取的通用模型最一个详细的 介绍包括任何定义对象、如何定义类型、如何通过组合用已有的对象表达更复 杂的对象等。 第四章将详细介绍提取h t m l 文档中的髯e b 表单和其他相关多媒体信息的过 程。主要涉及数掘源的定位、表单信息的确认、表单信息的去噪和w e b 表单的存 储等几个方面。 第五章将讲述根据定义的对象对表单进行信息抽取的设计和实现。讲述如何 结合前两章的设计将模型和具体的数据进行结合,最终实现信息抽取的设计方 案。 第六章是针对前三章提出的方案设计的验证实验。将通过实验的效果反映使 用该模型进行信息抽取的效果。 第七章是总结。总结本面向w e b 表单的信息抽取模型的优缺点,适用范围和 在新技术下面临的挑战等。 浙江大学硕t 学位论文 第二章现有的信息抽取方案和存在的不足 第二章现有信息抽取方案和存在的不足 2 1 信息抽取研究现状 对信息抽取技术的研究,主要集中在包装器的研究上,所谓包装器,就是那 些能够自动提取网页中数据,并将他们输出到数据库中的程序。包装器的分类, 主要依赖于包装器的生成方法,这个近年来有很多研究成果,如: h 明窨l c 眦z l l ”1 提出了一种对于搜索引擎产生的页面的自动包装器生成的方 法他利用了搜索引擎返回结果页面的视觉特性和一些先验规则作为边界条件。 他的实验结果表明该实验方法达到了比较高的准确率。但是,因为他是基于搜索 引擎的返回结果的,因此可能不适应于一般的网页数据挖掘,不过其方法可以借 鉴 b i n gl i u “1 中提到一个提取数据记录集的方法,他是基于具有相同结构的子树 的比较结合的方法。首先识别数据区域,然后将具有相同子树结构的子树进行融 合,进而提取其中的数据。但这个算法也有其缺陷,就是必须有相同的子树结构, 并且相同子树必须位于同一节点层次。这样的限定条件对于很多网页都是不合适 的。 n i d l o l 船l 瑚甜c k m 采用的是从人工标注的数据中学习,从而生成包装器。 但人工标注的数据采集依赖于人的操作,不仅耗费大量精力,而且可能因为不同 人的标注,会对包装器的生成结果产生影响。 以上几个例子囊括了包装器的生成方法的三个类型:自动生成型、手工生成 型、半自动生成型。下面介绍几个实际的研究案例。 j u n g l e e 是一个互联网信息的采集和发布商,他提出了一种虚拟数据库( v d b ) 的技术,他希望类似于虚拟内存的作用,将互联网上的数据作为一个一个普通数 据库的数据信息拓展系统,将互联网上的信息做一个统一的抽取过程,然后以关 系型数据库的信息的形式将数据保存并提供类似于s q l 语句的查询系统。他们通 过对各种类型的数据都定制一个包装器从而将所有他们关心的数据从互联网上 抽取出来,然后对其中的价格、工资的数据做了格式上的统一转换过程,如:工 作信息中对薪水的描述一般是以月为单位的,因此要将少量的以周或时为单位的 薪水做一个统一的转换。这样他们就有了一个统一的比较基础。 国际商用机器公司( i 酬) 也在信息抽取中有许多研究。他们的计算语言学 和数据挖掘小组对信息抽取有了多年的研究嘲。在命名实体和块分割方面,他们 提出了s n o 霄的体系结构,这个体系结构是基于窗口移动算法,他使用于多种相 关性不是很强的环境中,他非常适合处理n l p 形式的任务。但是,他只能在处理 9 浙江大学硕上学位论文第二章现有的信息抽取方案和存在的不足 线性的数据时有较好的表现,在处理有可能的非线性n l p 任务时就会不太适用。 并且他们还开发了一套和语言无关的文本分块系统能处理通用的线性联通案例。 在他们的系统中,在m u c 一7 的评测中他们的查准率和召回率分别达到了9 3 7 和 9 0 2 9 6 。在交互式学习研究方面,他们的半自动交互式学习系统( s a i l ) ,使用机 器学习的方法信息抽取显示了巨大的优势,但是这样的应用需要大量的格式化的 标志的训练数据他们希望通过这个问题研究成果,通过应用s a i l 的技术减少 人工的劳动和使用者的特殊专业技能。 u t l c uh m a l 【0 1 中希望提出一个只需要较少用户交互的半自动的包装器产生 器。他们希望完成以下目标: 希望建立一个有友好用户交互界面的,强大的语言抽取功能的并且支持 不同权值的包装器产生系统。 为了实现这个交互,他们设计了一种基于较少标注性训练库的活动式规 则学习方式。 为了降低用户交互,设计了一套强大的权值管理系统。 在最后的实验中,在他们试验的1 4 个网站中均取得了较好的效果。 网页的信息提取及其在搜索引擎联邦中的应用“”一文中提出了一种新的网 页模板检测算法。该算法是利用文字的统计信息来衡量内容之间的相似度的,并 且引入了b 1 0 0 mf i l t e r 算法,能快速、有效的计算出词位置序列的相似度。并 且还提出了一种新的网页结构化数据自动挖掘算法,此算法是利用h t m l 的文档 目标模型树( d 伽t r e e ) 的编辑距离( e d i td i s t a n c e ) ,来衡量不同子树之闯的 相似度,进而识别网页中的数据区域;提出了树节点熵的概念,并据此提取每一 个区域中的数据项。最后他通过基于上述网页信息提取算法,结合搜索引擎联邦 的特点,将此系统应用于联邦系统平台。其中,该系统用于网页结构进行视觉上 的划分的依据是利用h t 扎文档的以下三个要素:h t m l 结构化标签、网页空白区 域、背景颜色。 2 2 现有信息抽取方案不足 通过前面几个信息抽取中包装器的介绍,大致简述了三种包装器生成方式的 优缺点,无论是手工还是自动或是半自动生成的包装器,他们的包装器生成都是 基于某种特定的方法的,在设计时,都是针对某个领域的某些规则做的具体的信 息抽取方法。如j u n 9 1 e e 主要针对的是价格方面的信息,他后续的主要产品也主 要是关于商品的最低价等方面的信息的。其他设计的包装器应用也是有其限制的 特定条件的。 本文希望设计一种信息抽取的通用模型,由这种通用模型去定义包装器。希 l o 浙江大学硕士学位论文 第二章现有的信息抽取方案和存在的不足 望通过使用该模型可以定义一个特定的对象的包装器,他的输入是一系列表单式 的信息,表单中含有待抽取的信息的条目。输出则是从表单中识别表单行的信息, 进而获取整个对象的信息。该模型设计的主要特点是: 输入的信息格式要求低。具体抽取时只要求模型的抽取对象为简单的表单式 信息,即一个对象中的每个要素行占据每个表单行,这样的格式无论从网页 中还是特定的数据库中都十分容易获得。 模型的通用性强。模型设计时没有面向任何特定的领域,也没有任何特定的 领域知识的要求,因此在模型的设计中也没有任何特定领域的知识要求,因 此模型只是为了从表单式的信息为基础设计的模型,其模型设计的基本思想 是参考了面向对象的设计模型进行的设计。 模型的易用性强。使用模型设计特定的包装器是采用手动和自动结合的方 法,这样对专业领域的知识和训练库的复杂程度都没有十分严格的要求。只 需要先通过手动设计简单的对象模型,然后通过训练库的训练完善和修正最 初定义的模型。 对对象的判定更科学。对对象的判定不是简单的采用是和非的判定,而是引 入了相似度的概念,他对对象的判定最后返回一个相似度,他是一个大于等 于零小于等于l 的数,相当于一个百分比。 该模型设计的主要目的就是克服其他信息抽取方法中的主要缺陷,如对数据 输入格式的要求高,训练库的人工标注要求高,或是方法的通用性低等缺点。 浙江大学硕上学位论文 第三章面向w 曲表单的信息抽取通用模型的设计 第三章面向w e b 表单的信息抽取通用模型的设计 3 1 模型总体设计介绍 本章主要的目的是介绍对表单型数掘进行抽取的通用模型的设计,主要讲述 的内容是介绍定义模型语言、模型定义语言和正则文法之间的转换、如何通过 x m l 文档描述定义的模型,以及最后通过定义的x m l 模型文档进行信息抽取 的过程。 下面是本章的内容安排,第一节介绍信息抽取通用模型的整体思路,在第二 节中主要讲述如何从模型定义语言到正则语言的转换,第三小节主要讲述模型定 义语言如何通过) 叫l 文法进行表示,第四小节讲述,如何通过) 洲l 定义的模 型定义语言进行具体对象的判定 本信息抽取通用模型的总体思路是面对从w 曲上已经抽取的表单信息,通过 定义一个通用的模型,然后通过此模型进行信息抽取的过程。主要完成以下几个 问题: 模型提供哪些功能可以去定义事务。 如何定义模型,模型定义语言。 模型定义语言如何操作 模型定义语言的管理与保存。 如何通过模型定义语言进行信息抽取。 该信息抽取模型通过集合、格式、数字等要素和他们的组合去定义一个模型, 模型定义语言可通过转化为正则语言同编程语言进行交互,模型定义语言将保存 在x m l 文档中,以保持其通用性,程序通过读取讧l 特定格式的内容,然后 将其转换为正则文法,最后对输入的表单信息进行信息抽取。 3 2 对象基本定义方法 采用面向对象的方法,通过描述对象的各个要素去确定一个对象,要素的确 定方法可以采用多种集合( 必有集、包含集、取一集、必无集等) 、正则表达式、 模糊数学等相结合的方法。对象整体的判定是建立在对象的每一个要素判定上 ( 即表单的每一个项的判定) 。 模型定义语言定义了在信息抽取中最基本的几种功能,列举如下: 集合:定义了四种不同的集合类,集合是模型定义语言中最基本的元素。 格式:用于在抽取有格式信息的信息是用到的功能,如日期信息、带区 1 2 浙江大学硕上学位论丈第三章面向w 曲表单的信息抽取通用模型的设计 号的电话号码、信号尺寸等。 数字:可以限定数字的取值范围,最大值,最小值,位长度等,对于特 定的应用将十分有用,如价格提取的应用。 下面主要讲述从这些模型定义语言到一般的正则语言之间进行转换的操作 步骤。 模型定义语言中的集合对象到正则语言的自动转换。 本系统中采用的集合共有四种,分别是必有集、包含集、取一集、必无集。 采用正则语言直接描述这些逻辑集合十分复杂,需要专业的技术知识,对信息抽 取设计时的人员素质要求较高,因此在设计模型定义语言时就要完成从模型定义 语言到正则语言的自动转换过程。 下面先描述以上四种集合的具体含义: 必有集:如果判定对象中出现了集合中出现的每一个元素,返回真;否 则返回假。 包含集:如果判定对象中出现了一个或多个集合中出现的元素,返回真; 否则返回假。 取一集:如果判定对象中出现且仅出现一个集合中出现的元素,返回真: 否则返回假。 必无集:如果判定对象中出现了集合中出现的任何一个元素,返回假; 否则返回真。 将上述定义的模型定义语言转换为正则语言,即满足了上层简单定义对象的 要求,同时也为下层为模型定义的语言进行判定时提供了方便的性能。下面就详 细阐述此转换过程。 由于正则文法的逻辑运算能力较弱,所以进行转化时要借助逻辑运算,为了 形象方便的说明,举一个简单的例子,设需要判断的集合中有元素 a ,b ,c ) , 设一个判断的结果表示为r 咖l t ( ) 则: 若集合为必有集,则表达式为:r 刚l “a + ) & r e 吼l l t ( b + ) & & r 刚l t ( c + ) 。 若集合为包含集,则表达式为:r 璐u l “( a f b f c 卜) 。 若集合为取一集,则表达式为:! r c 孤l “a + ) ! r e 蛐l 羽什) r c s l l l “州 ! r 删l t ( a + ) & & r e s u l t ( b + ) & ! r e s u l “c + ) r 船u l “a + ) & & ! r 嘲j l 咖+ ) & & ! r e s l l l t ( c ”( 此表单式在具体使用时还可简化) 。 若集合为必无集,则表达式为:! r u l “a + ) & ! r 瞄u l “a + ) & ! r e s u l “a + ) 。 下面讲述该模型语言中格式到正则语言的转换。 还是以一个例子讲述之,假设分隔符为“一”,如要表达一个带区号的电话 号码0 5 7 l 一“n 1 1 ,则应该转换为胁u l t ( 、d + 一珏 ) ,该语句表达的意思为: 、d 表示所有数字,+ 表示前面的字符重复次或多次,和起来就表示采用前后各 浙江大学硬士学位论文第三章面向w 曲表单的信息抽取通用模型的设计 有一串数字,数字中间通过“一”连接。这样就用正则文法表示了此语言格式, 如果前后不是数字还可以使用【 一】+ 来表示任意一个或多个除字符“一”以外的 任何字符串。 下面是数字的表示方法,对象定义模型中希望数字可以定义多个参数,包括: 数字位数的长度:定长数字有多少位、至少多少位、最多多少位等; 数字的格式:是整数或是小数; 数字的范围:数字的取值范围,最大值为多少,最小值为多少; 下面一次讲述正则语言中如何表示这些特性; 正则语言采用、d 作为数字,下表是正则文法中常用的限定符: 表3 1 常f j 的限定符 代码语法说明 重复零次或更多次 + 重复一次或更多次 重复零次或一次 n 重复n 次 缸 重复n 次或更多次 n ,m )重复n 到m 次 根据上面的定义,要表示一个位数定长的数字,可用、d f n l ,n 表示位数;要 表示至少多少位,可用、d 仉) ,n 为最少需要的位数;要表示至多多少位,可用 、d l 神,n 为作多的位置。 要匹配一个小数,只要注意匹配小数点就可以了,可以用以下正则表达式匹 配一个小数褂心。注意此用”,在正则文法中有特殊含义,因此需要采用转义 符“、”进行转义。 要通过正则表达式表述字符的范围,由于正则文法中没有大小的比较逻辑, 因此比较难以限定。实际操作中可采用其他编程语言将字符串转化为数字进行比 较。而实际中也有一个可以使用正则文法进行判断的方法,但要对最大值和最小 值的设定做一点约束,最大值或最小值必须为一个1 0 0 ,l o o o o 之类的1 0 的幂次 方如设定最大最小值分别为1 0 0 0 0 0 0 和l 0 0 0 0 ,则可以通过文法、d 5 ,6 ) 表示, 它代表的意义就是一个位数为5 到6 的整数,那么这个数必然在1 0 0 到1 0 0 0 0 0 0 之间。还有,如果最大最小值不是l o 的幂次方,则判断就比较复杂了,如;要 判断一个在1 2 0 0 0 到1 6 0 0 0 之间的一个数字,则判断文法将成为: 1 2 、d 3 ) 1 1 3 、d 3 ) 1 1 4 、d 3 ) 1 1 5 、d 3 ) ,此判断文法的具体含义是任何以1 2 、1 3 、1 4 、 1 5 开头的后面带3 个数字的字符串,那么这个字符串必然位于1 2 0 0 0 到1 6 0 0 0 之间。 1 4 浙江大学硕士学位论文 第三章面向w 曲表单的信息抽取通用模型的设计 3 3 模型对象定义的表达和存储方法 对模型对象的定义的表达和存储采用瑚l 文档,之所以采用瑚l 文档,因为 ) 【 l l 文档有以下优点: 】( m l 通过使用一个可扩展标记集提供文档内容的更准确描述。 x m l 可用标准化语法来验证文档内容。 x 札使用户与应用程序之间文件交换更容易。 x m l 支持高级搜索。 x m l 将文档结构与显示内容分开。 x 札改进用户响应、网络负载和服务器负载。 ) ( m l 支持u n i c o d e 。 枷l 支持文档日j 的高级链接。 正是煳l 文档的以上特点,可以用来对模型对象定义的表达和存储。需要它 的准确标记性使得文档在用户和应用程序之间都显得很明确,交换也更容易。并 且x m l 是普通的文本文件,没有额外的其他信息,因此具有很强的跨平台性和通 用性。 下面开始介绍具体的格式规范: 参考面向对象的设计思想,对每个对象的定义,对象主要分为类和集合两类, 分别用 和 两个关键词表示,每个类或集合都有属性和功能方法两个 要素,用关键词 和 ,而属性下又有多种属性可以进行设置, 如 代表此类或集合的名字,在寻找集合或类中十分有用,还有其他参数, 如集合对象的类型属性 ,它表明集合类型是属于哪一种的。( f u n c t i o n 中的主要参数是 ,它是对一个判定的核心要素,它中间描述的是 采用模型定义语言对模型进行的定义,具体判定时就是采用此模型定义语言,然 后将其转换为正则语言进行判定。 的另一个重要因素是 ,它的意义是 中提到的某个元素所占的比重,它将 在计算匹配相似度中十分有用。 下面先具体描述一下具体的模型定义语言,其中的关键词有“+ ”、“事”、 “i ”等,“+ ”不同与正则语言中的一个或多个重复选项,它代表的意思是表示 类的组成要素,无先后排序关系,并且需要进入匹配相似度计算的应用。“堆”、 “i ”和普通的正则文法有相同的含义,“幸”表示此元素重复。次或多次,“i ” 表示此元素可选其中的任意一个。 接下去详细介绍一下对象相似度的判定,判定公式如下: 浙江大学硕学位论文 第三章面向w e b 表单的信息抽取通用模型的设计 马只 矗= 2 l 一 ( 3 3 ) 只 j - i 其中r 为此对象的相似度判定结果,r ,为对象每个要素的相似度判定结果, p ,为每个要素所占的权重,是由 中的 参数中定义的每个 要素所占的权重,通过此计算公式,即可获得此对象的相似度判定结果。下面举 一个例子说明此公式的计算过程。 设一个对象o b j e c t 有两个特征要素,为a 和b ,他们的判定相似度分别为 o 9 和o 8 ,而他们的权重分别为l 和o 6 ,则最终对o b j e c t 的判定结果计算后 应为( o 9 木l + o 8 半o 6 ) ( 1 + o 6 ) = o 8 6 2 5 此公式既考虑了对象各要素的相 似度判定结果,也考虑了对象中各个要素之间的权重关系,比较准确的反应了最 后判定的结果。 下面举个具体的例子表示本模型的定义方法,要抽取一个计算机硬件相关的 配置信息,先定义计算机的主要部件。如c p u 、内存、硬盘、显卡等信息,然后 判定什么才是内存,一般内存会被描述为其容量,如5 1 2 m ,l g 等,所以需要一 个整数和一个容量单位去描述,而整数又是由若干个数字组成的,容量单位则为 一个集合,它是下面某个元素中的一个 b ,k b ,船,g 。 对计算机对象定义的) ( 1 l l 文件内容: 计算机 c p u + 内存+ 硬盘+ 显示器+ 操作系统+ 显卡 c p ul 内存l 硬盘l 显示器o 5 操作系统o 3 1 6 浙江大学硕上学位论文第三章面向w 曲表单的信息抽取通用模型的设计 显卡0 5 对计算机的内存要素的定义的文件内容; 内存 整数内存容量单位 对内存要素的内存容量单位定义的文件内容: 内存容量单位 ( t y p e o n e i n b ,k b ,船,g 对整数的定义的文件内容: 整数 ( 数字) 宰 1 7 浙江大学硕上学位论文第三章面向、曲表单的信息抽取通用模型的设计 对数字定义的文件内容: 数字( n 绷e 0 1 1j 2 i3 1 4 i5 1 6 1 7 1 8 1 9 上面的例子中基本出现了所有前面定义的模型定义语言的规则,通过这个例 子和前面对规则的描述就可以对规则有进一步的了解。 3 4 根据对象的判定方法 前两节中分别讨论了模型对象的基本定义方法和根据模型对象定义进行表 达和存储的方法,本节将把这两方面的内容结合起来,完成通过对象模型对对象 进行具体判断的过程和策略。 首先是对象模型的定义,如何根据需求和模型定义语言的要求建立信息抽取 的模型,这个建立的过程采用人工制定、数据挖掘“”和机器学习“o 相结合的方式。 此部分的具体设计和实现将会在第五章中具体阐述,在此只做基本思路的介绍和 总结。以一个待建立信息抽取模型的对象和模型建立的规则为基础,要建立一个 信息抽取模型,首相要做的是人工的基本模型建立,这方面需要专业的基础知识 或实践经验为基础,如前一节中定义的计算机模型,必须知道计算机由哪几个基 本部件组成的,如:c p u 、内存、硬盘等。先建立计算机对象模型,然后知道计 算机至少需要c p u 、内存、硬盘的要素构成,然后针对各要素,需要去构造如何 判断这些要素的模型,即这些要素本身也是一个对象,他也有自身的要素和判断 方式。此时对此要素的定义就会比较简单,因为其作为其他对象的一个元素,其 他对象中对此要素的描述必然会比较简单。通过这样的迭代式定义,对对象的基 本模型就建立了,然后就进入下一步,通过机器学习的方法对该模型进行完善和 修正。 如何通过机器学习的方法使模型更加完善,机器学习的方法重点在两个方 浙江大学硕士学位论文第三章面向w 曲表单的信息抽取通用模型的设计 面,包括训练库的建立和如何应用训练库中提到的要素对模型进行完善和修正。 因此一个模型的建立的完善程度就看模型初期的定制是否完善和后期训练库中 的训练材料是否十分准确并且比例合适,将常见项在模型中也常见,非常见项在 模型中也出现但出现频率较低。并且训练模型中出现的也是要除去干扰因素的, 因为如果训练库中有干扰因素,那么他就会被残留在模型中,从而影响以后使用 该模型进行判断的效率和准确性。 其次是如何通过训练库完善模型的过程。这里主要涉及三个方面的问题: 如何完善对现有要素的判断的方法; 如果发现了新要素,如何去加入新要素; 如何安排各要素的权重问题; 先阐述对第一个方面的解决方案,其实第一个方面是一个迭代式的训练方 式,对要素判断方法的完善其实是一个对要素本身这个对象判断,是对要素对象 本色判断的一个训练,此步的关键是如何提取训练库中的特定训练材料给要素对 象的判定方法进行训练,如何划分训练库中的哪部分训练材料属于某个要素成为 判定的关键问题。此处要用到的是条件是所有的训练库和抽取对象材料都是表单 式的,这意味着每一行代表一个要素,因此有了天然的切分依据。然后是判断保 单中某一个要素到底应该和对象的哪个要素相对应,这个判定就要使用先前设定 的判定方法了,利用先前手工设定的判定方法,由对象的各个要素的判定器对要 素进行判定,然后将判定结果做排序,分值最高的即为此训练行对应的要素,将 此训练行提交给该要素的判定器即可。 接着讲述第二个方面的问题,如果发现了新要素,如何去加入新要素。这里 又有两个小问题,如何判断一个要素是新要素,如何加入新要素。判定一个元素 是否为新元素的依据是和前面判断最合适的元素是基本相同的方法,唯一不同的 是最后的取舍,前一个是提取所有判定器判断后得分最高的,而这里先要设定一 个阀值,设其为b ,一般取一个o 2 左右的数字,实际中可能还要看效果进行调 整。对所有判定器判定后的结果,如果没有一个判定器的判断值大于b ,那么就 认为它不属于任何一个要素,因此他应该是一个新的要素。判定了其为一个新要 素,下一步就要把新要素加入到对象的要素集中,首先是该要素的命名,可采用 此训练行中的关键词句对该要素进行命名,“”提到了t f i d f 算法可用于提取语句 和文档中的关键词,然后将此训练行作为此要素的最初训练库对此要素对象进行 训练。 最后解决第三个问题,如何安排各要素的权重问题,在权重设置上,一般将 权重设置为一个( o ,1 的一个小数,但不要求所有要素的权重和为1 ,一般在 初始模型中的要素设置其权重为1 ,然后在判定时,每个要素有一个计数器,他 记录这对训练库中的每一个要素是否满足,满足的判断条件也是通过其要素判定 1 9 浙江大学硕七学位论文第三章面向w 曲表单的信息抽取通用模型的设计 器判定的返回值来进行判断的,同样也要设定一个判定阀值,设其为t ,一般可 取o 8 ,若判定器返回值大于阀值t ,则将该要素的计数器加一,否则不需要加 一。最后,将该要素的计数器值除以总的训练样本,就可以获得该要素的权重。 然后将该权重更新到模型中即可。 前面简述了模型的定义生成过程,下一步要阐述的是如何通过定义的模型进 彳亍信息抽取过程。假设现在已经有了一个对象的抽取模型,并且已经完成了训练 过程。现在面对一个具体的表单信息,该如何进行信息抽取工作呢? 假设对象模型中有n 个要素,而表单中有m 个表单行( 一般n 大于等于m ) , 如何确定表单中的每一个表单行对应与哪一个要素就成为问题的关键。对于表单 中的每一个表单行,将每个表单行通过n 个要素的判定器进行判定,最终将促向 n 蛔n 个判定结果,此n 木m 个对象判定结果组成一个m 行n 列的判定矩阵。接下去 的任务是对m 行中的每一个元素,找到其该行n 个元素中值最大的并且对应的要 素不重复的项序列。完成这样的工作有很多种算法,此处选择一个比较简单的贪 心算法,算法描述如下: l 、对每一个表单行通过对象的每一个要素进行判断,得到一个i i l 枣n 的矩阵。 另有一个长度为n 的数组,表示某个要素是否已被识别,还有一个长度为m 的数组,表示某个表单行是否已被识别,这些数组全部初始化为未识别状态。 进入2 。 2 、如果所有元素都被标记,则进入4 ,否则从m 半n 个元素并且该列未被标记 为识别的元素中寻找一个权值最大的项作为候选项,进入3 。 3 、如果元素位于i 行j 列,那么所有i 行和j 列的元素被标记为已识别, 同时表单中的第i 个表单项被识别为对象要素中的第j 个要素,记录之,返 回2 。 4 、将所有记录的表单行对应的要素统一整理,然后通过前面第三节中提到 的相似度计算公式就可以计算出该表单在此对象的模型下的相似度了。 以上完成了一个表单在一个对象模型的情况下判读其相似度了,下一个问题 是当有一系列的对象模型时,判断一个表单信息到底属于哪一个对象模型? 这个 判定只要在前面的基础上加入一个模型相似度排序算法,在取其相似度最高的即 可。 在对模型中要素的集合和训练材料或抽取表单的匹配过程中,对于面向的中 文信息,很重要的一点就是对中文词汇的分词,因为中文语句不同于西文语句, 单词之间没有空格分隔,因此对于中文语句的不同切分会有不同的含义。因此在 具体的匹配中要先使用分词系统对中文语句进行分词,然后根据分词的结果做最 后的判断。 在具体操作中,对一个对象的判定,需要读取对象模型 下 浙江大学硕上学位论文第三章面向w 曲表单的信息抽取词用模型的设计 标签下 中的判定式,解析其中的判定表达式,对于其 中的判定符,按照判定符的运算方式进行运算,对于其他短语可判定其为要素, 对于一个要素,这在同目录下搜索具有相同名称的x m l 文件,那些文件就是该要 素的判定方法。而权重的识别上,要通过 标签对对象中的各要素的 权重进行识别通过这样的迭代式的调用就可以完成对对象模型的相似度计算 了。 3 5 关于此信息抽取模型的通用性说明 本文中所指的此面向w e b 表单的信息抽取通用模型,是为了说明该模型在信 息抽取领域有着较多的应用领域,但并不是表明此模型在信息抽取领域是一个放 之四海皆准的真理。对此模型的通用性的限制,可归纳为以下几点: 受到信息源条件的限制。此模型面向的b 中的表单,这类信息有一定 的格式信息,这些格式有助于对象中的要素的切分。因此该模型是不适 合没有格式信息的自然语言或自由文本的,如:从自然语言中抽取地名 受提取对象的抽取材料数量限制。应用该模型进行信息抽取,必须在有 较多的信息可供抽取的情况下才能取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论