已阅读5页,还剩58页未读, 继续免费阅读
(计算机应用技术专业论文)动态页面的web信息抽取方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 w e b 信息抽取是w e b 领域的一项重要研究课题,研究范围涵盖信息检索、数 据挖掘、人工智能等多门学科领域。w e b 信息抽取系统的智能性、准确性与适 应性一直是该领域的研究重点与追求目标。 当前大多数、v e b 信息抽取方法的处理对象都是某类网站的静态页面集,抽取 内容相对比较简单,因此缺乏分析多种页面结构并抽取逻辑信息记录的机制。 本文提出了一种基于动态页面集的信息抽取方法,抽取对象为实时生成的查 询结果页面集,抽取内容为多个逻辑相关的信息项组成的信息记录。该方法使 用x m l 配置文件对页面集的元数据与先验规则进行描述,并借用了文档图像处 理中表格图像分析的基本方法与机制实现了对查询结果页面的解析与信息记录 的智能提取。 本文介绍了该方法的理论模型与系统实现,并对该方法的应用及实验结果进 行了总结与评价。 关键字 信息抽取动态页面集l 配置文件元数据表格图像处理 a b s n a c t a b s t 隐c t w e bi n f o r m a t i o ne x t r a c t l o ni so n eo ft l l em o s ti m p o r t a n tr e s e a r c hs u b j e c t smt h e f i e l do f w e bs c i e n c e i t sr e s e a r c hd o m a i nc o n s i s t so f i n f o m l a t i o ns e a r c h ,d a t am i n i n g a n da n i f i c i a l i n t e l l i g e n c e r e s e a r c h e r sa 1 1 d e x p e r t s o nt l l i sf i e l da r ea l w a y s e n d e a v o r e dt o p u r s u e al 【i n do fi n t e i l i g e n t ,p r e c i s ea i l da d a p t i v ei 耐o m l a t i o n e x 仃a c t 访gs y s t e m c u r r e m l y ,m o s te x 仃a c t i n gm e t l l o d sa r eb a s e do ns t a t i cp a g es e t s 疳o mt 1 1 es a m e 、e bs i t e s ,a n dm ee x n a c t i i l gc o m e m sa r er e l a t i v e l ys i i l l p l e t h e r e f o r e ,t 1 1 e s em e 山o d s a r ea l l l a c ko fm e a i l si na 1 1 a l y z i n gm u l t i p l ep a g es 仃u c t u r e sa 1 1 de x 仃a c t i n gl o g i c a l i n f b n n a t i o nr e c o r d s t 1 1 i sp a p e ri r l 仃o d u c e sa ni 砌o m a t i o ne x n a c t i n gm e m o db a s e do nd y n 锄i cw e b p a g es e t s t h ee x t r a c t i n go b j e c t sa r er e a l t i m ew e bp a g e st h r o u g hi 1 1 q u i r yp r o c e s s ,a n d t h ee x t r a c t i n gc o n t e n t sa r ei n f o 珊a t i o nr e c o r d si n c l u d i n gs e v e m i1 0 9 i c r e l a t e di t e m s i i lt l l i sm e t l l o d ,w el l s ex m l c o n f i g u r e df i l e st on o t em 咖d a t aa i l dm l e so f 血ep a g e s e t s b e s i d e s ,w eu t i l i z eb a s i ct h o u g h t sa 1 1 dm e a l l so ft a b l eh n a g ea n a l y s i st or e a l i z e 也ep a r s i n ga 1 1 de x 仃a c t i i l gp r o c e s si n t e l l i g e n t l y t l l i sp 印e ra l s oi l l u s 打a t e st h et 1 1 e o r e t i cm o d e la n di m p l e m e n t so fm ep r o p o s e d i n f o m a t i o ne x 缸a c t m gs y s t e m f u m l e 】1 1 1 0 r e ,也ep a p e rs 咖a r i z e sm ee x p e r i m e n t r e s u l t sa n de v a l u a t e st 1 1 ei m d r o v e m e n t s k e y w o r d i n f o m a t i o ne x t r a c t i o n ,d y n 锄i cw e bp a g es c t s ,x m l c o n n g u r e df i l e s , m e t a d a 1 a b l ei m a g ep r o c e s s i l 内容目录 图目录 图l l 信息抽取需求图2 图l 一2 基于动态页面集的w e b 信息抽取模式图。5 图2 1 查询结果页例图( a ) 1 0 图2 2 表格图像处理与w e b 信息抽取流程对比图1 1 图2 3 基于动态页面集的信息抽取方法模型图1 2 图2 - 4 配置文件结构图1 3 图2 5w e bt a b i e 结构模型图1 5 图2 6 特征匹配方法模型图1 6 图2 7 信息定位方法模型图1 7 图3 1 查询结果页例图( b ) 2 l 图3 2 航班记录抽取结果页例图2 2 图3 3 配置文件先验信息内容图2 3 图3 4 配置文件校验规则内容图2 4 图3 5 配置文件核心表格结构内容图2 5 图3 6 配置文件制作流程图2 6 内容目录 图3 7 系统流程图2 7 图3 - 8 网页t a b l e 树提取算法流程图3 0 图3 9 信息定位算法流程图3 2 图3 - 1 0e a s y j e t 查询结果页图3 3 图3 - 1 1e a s y j e t 配置文件内容图3 4 图3 一1 2f i y i n g f i s h e r 查询结果页图3 5 图3 一1 3f l y i n 曲s h e r 配置文件内容图。3 6 图4 1 页面结构一3 8 图4 2 页面结构二3 8 图4 3 页面结构三。3 9 图4 4 页面结构四 图4 5 页面结构五4 0 图4 6 页面结构六。4 0 图4 - 7 页面结构七。4 1 内容目录 表目录 表1 1 信息抽取模式对照表4 表l 一2w e b 信息抽取方法对比表6 表2 1t a b i e 元素属性表1 5 表2 2 正则表达式元字符表1 8 表3 1 数据结构类表。2 8 表4 1 信息记录定位正确率表4 2 表4 2 信息记录抽取正确率表4 3 表4 3 信息项定位正确率表4 3 表4 4 信息项抽取正确率表4 4 导论 第一章导论 第一节w e b 信息抽取技术的发展背景 1 9 4 6 年美国宾夕法尼亚大学的埃克特和莫希里研制出世界上第一台电子计 算机一e n i a c ( e l e c 仃o n i cn u m e r i c a li n t e g r a t o r a n dc a l c u l a t o r ) 。半个多世纪以来, 计算机技术与通信技术不断飞速发展,至2 0 世纪8 0 年代末,随着多媒体技术的 兴起,使计算机具备了综合处理文字、声音、图像、影视等各种形式信息的能 力。2 0 世纪9 0 年代,1 1 1 t e m e t 与个人计算机的普及、w w w ( w o r l dw i d ew 曲) 的 出现彻底改变了信息资源的承载和分布方式、标志着数字化信息时代的到来。 如今,i n t e n l e t 作为一个全球网络,已经越来越多地融入到人们的日常生活、 工作、学习和商务活动中。通过w w w 浏览、电子邮件等方式,人们可以及时获 得自己所需的信息,同时企业及个人通过建立网站或网页的方式发布自己的信 息、需求。网络将全世界不同地点的信息资源编制在一起,以超级文本的方式 向用户提供各种信息服务。只要有一台电脑、一根网线,用户就可以通过网络 从全世界任何地方得到所需要的文本、图像、声音和影视等信息,真正做到“足 不出户而知天下事”。网络资源五花八门、包罗万象、其丰富性、共享性与便捷 性大大加快了信息的交流与传播速度,传统的报纸、书籍、电视、图书馆等信 息媒体逐渐被网络所取代,w e b 已经发展成为世界上最丰富最密集的信息资源载 体。 w e b 在给我们带来便捷、快速、丰富的信息的同时,也给我们带来了一个问 题。由于w c b 上信息量的急速增长,w e b 上庞大的信息量和用户的需求之间产生 了严重的不平衡,用户为了获取自己需要的一点信息,可能需要花费几十分钟、 几个小时、甚至更长的时间来搜索、浏览网页,一不小心就会淹没在信息的海 洋中。 网络上的信息资源,具有如下特点: 异构性:网页的组织和格式多种多样 动态性:网页的内容和形式不断变化 多样性:信息的类型多样化、内容丰富 地域性:信息的分布、存储和访问受到当地网络的限制 第l 页 导论 由此可见,从庞大的网络中挖掘获取信息,显然不是一件容易的事情。虽 然现在出现了形形色色的搜索引擎,但是这种基于关键字的搜索,得到的只是 一个巨大的结果集,只给出了含有关键字内容的网页或区域,具体的信息还需 要用户进入到具体网页中去查找,这样就浪费了大量的时间和精力,很难满足 高级信息搜索的需求。 如今,人们对网络搜索的速度和精度的要求越来越高,因此各种网络搜索 引擎技术开始向快速、智能方向发展。但传统的静态页面检索已经无法满足日 益增长的用户需求,在大量动态的、异构的网页中自动定位并抽取出所需的信 息,这种需求已经在电子商务、信息检索、数据挖掘等领域得到了越来越广泛 应用,因此,产生了w e b 领域的一门新学科:w e b 信息抽取技术,并得到了越来 越多的关注和研究。 图1 1 信息抽取需求图 第2 页 导论 第二节w e b 信息抽取技术概述 1 2 1 基于动态页面集的w e b 信息抽取模式 当前w e b 页面主要是通过h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ,超文本链接标 示语言) 或以l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 语法来描述和发 布的。h t m l 和x m l 分别是半结构化、结构化的语言。w 曲信息抽取的主要任务 就是从这些半结构化、结构化的网页文本中抽取出特定的信息。 虽然目前存在很多成熟的方法和各种自动化的抽取工具,但是大多数信息 抽取技术都具有如下特点: 针对某一类网站,版面结构单一。 抽取对象是通过链接即可直接获得的静态网页集。 抽取需求相对比较简单,信息分布格式整齐。 信息项有表头等明显的标识。 显然,对于这类信息抽取需求,无论是基于抽取规则,还是基于样本训练 学习,其设计与实现过程相对都比较容易。但随着电子商务、人工智能等领域 的发展,这种单一的信息抽取模式已经无法满足日益增长的用户需求。 随着数据库与数据挖掘技术的发展,人们对信息抽取的智能性与精确性也 提出了越来越高的要求,特别是在一些商业活动中。如今,信息抽取的对象不 再是已经存在的静态页面,而是通过输入查询条件自动生成的动态页面。抽取 源不再是某个网站,而是含有同类业务的许多不同网站。因此,这样获得的 页面集无论是在版面结构上,还是内容表示上,都是千差万别的。这就对信息 抽取方法的智能性与通用性提出了更高的挑战。 因此,本文提出了一种基于动态页面集的信息抽取模式, 抽取源:含有相同业务的不同网站 抽取对象:在多个网站中,根据查询条件实时生成的动态页面集 抽取内容:按照统一逻辑关系组织的含有多个信息项的信息记录 对于这类信息抽取需求,其难点在于: 由于网页的来源不同,因此结构各异,如何建立起统一的页面结构描述 模型与信息定位机制。 信息记录在不同的页面中以不同的格式内容表示,如何建立起统一的页 第3 页 导论 面解析结果项一信息项的映射转换机制。 组成信息记录的各项之间既包含自身的逻辑属性,彼此之间又逻辑相 关,如何建立起统一的组织、规范化与展现机制。 由于信息抽取需求的复杂度,因此抽取结果易发生错误,如何建立统一 的结果校验机制。 表1 - 1 信息抽取模式对照表 传统的信息抽取模式本文提出的信息抽取模式 抽取对象为静态页面 抽取对象为根据查询条件实时生成的动态页面 页面结构变化可能性不大页面结构易变化 页面来自某一站点,版面结构单一页面来自不同站点,版面结构各不相同 抽取对象为信息项抽取对象是按照逻辑结构组织的记录 信息所在区域版面结构整齐信息项分布于不同层次或区域 待抽取的信息项有表头等语义标识待抽取信息项无统一语义标识 显然,对于本文提出的基于动态页面集的信息抽取模式,采用传统的信息 抽取方法很难建立起令人满意的处理模型,因为传统的信息抽取方法普遍存在 以下缺点: 针对性较强,侧重于某一网站或某一种结构的页面。 基于静态页面集,因此缺乏应对页面结构动态变化的机制,一旦页面结 构发生变化,或改动规则,或重新学习,适应能力不强。 因此,本文提出一种基于动态页面集的w e b 信息抽取方法( 图1 2 ) ,该方法 使用) ( m l 配置文件对来自不同w e b 站点的页面查询与解析过程使用统一的控制机 制,对页面结构与信息定位采用统一的描述机制,并记录信息项的位置及映射 规则等先验信息、配合校验规则达到对所需信息记录的智能提取。 本文提出的信息抽取方法的期望目标为: 能够实现对各类动态实时查询结果页面集的自动解析与信息记录抽取。 该方法具有较高的通用性,当出现新的页面结构时,无需改动系统流程。 第4 页 导论 一站点1 姬夏面集t ) f 习疬蜀 落询 抽墩 l l c m ii k m 2 i t f 日m 磊 犀) n m r d r e c o r d s t r 瞳 飞 图1 2 基于动态页面集的w e b 信息抽取模式图 1 2 2w e b 信息抽取方法综述 w 曲信息抽取是一门新兴的学科,起源于信息抽取,发展不过十几年的历程。 信息抽取( i n f o 珊a t i o ne x 仃a c t i o n ) 基于文本理解,是自然语言理解领域的一个 重要分支,信息抽取的定义为:从某个特定的信息源集中抽取符合某个抽取模 式的信息项并将之放到结构化数据库的过程。国外大约在8 0 年代初就展开信息 抽取的研究,并取得了系列成果,比较好的信息抽取系统有f r u m p 系统、 a t r a n s 系统和m e s s a g e u i l d e r 、s t a i l d i n g c o n f e r e n c e 系统等川。 到了9 0 年代,随着数据挖掘、信息搜索、人工智能和电子商务等学科领域 的发展,基于w e b 的信息抽取技术得到了广泛的需求与应用,因此很多研究人员 开始把目光转向基于w 曲的信息抽取方法的研究,这个时期提出了很多崭新的思 想方法与技术,也开发出了很多工具。 根据抽取原理和抽取方法的不同,可以将w 曲信息抽取分为以下五类: 基于自然语言处理方式的信息抽取】【1 6 】【7 】 基于包装器归纳方式的信息抽取f 1 0 】1 1 3 1 1 3 0 】 基于o n t 0 1 0 9 y 方式的信息抽取9 1 【1 4 】【2 1 憎 基于h t m l 结构的信息抽取1 2 】【1 8 晒1 基于w e b 查询的信息抽取1 1 7 】1 2 0 】 第5 页 导论 表1 - 2w e b 信息抽取方法对比表 抽取方法 基本原理 典型系统适用情况缺点 利用自然语言处理1 ) 没有利用w e b 技术,利用字句结适用于源文文档独特于普通 r a p i e r 基于自然语言构、短语和字句间档中包含大文本的层次特性 s r v 处理方式的关系建立基于语量文本的情2 ) 获得有效的抽 w h i s k 法和语义的抽取规况 取规则需要大量 则实现信息抽取的样本学习 根据事先由用户标 适用于信息 基于包装器归 记的样本实例应用 s t a l k e r 1 ) 机器学习仅针 项间含有上 机器学习方式的归 s o f t m e a l y 对单一样本结构, 纳方式 下文关联的 纳算法,生成基于心i 情况 不具备通用性 定界符的抽取规则 1 ) 没有很好的利 基于0 n t o l o g y 利用对数据本身的 用页面的语法结 b y u各种w e b 页 描述信息实现数据构 方式 q u o t e 回 抽取2 ) 要求信息项有 明显标识 根据w 曲页面的 结构定位信息,在 信息抽取之前通过l t o产生抽取规则需 基于h t m l 结解析器将w e b 文 x 、 像a p各种w e b 页 要对语法树进行 构方式 档解析成语法树, r o a d r u n n e r向 大量操作,执行效 通过自动或半自动w 4 f率低 的方式产生抽取规 则 将w 曲信息抽取含有特殊关 缺乏灵活性,对逻 基于w 曲查询转化为使用标准的w 曲一o q l键字提示易 辑相关的信息项 方式w 曲查询语言对 p q a g e m 于定位信息 无法描述 w e b 文档的查询 项的页面 第6 页 导论 上述的5 种信息抽取方法,采用了不同的原理,有的侧重于页面的结构分析, 有的侧重于页面的内容分析,抽取规则的形式和信息的定位方式各不相同,因 而对不同的w e b 页面有不同的抽取效率。 但大多数方法只针对某类页面集显示出非常良好的处理效果。特别是,当 页面结构各不相同时,上述方法均缺乏对信息项的统一描述和定位机制,因此, 面对本文提出的信息抽取需求时,这些方法分别存在一定的不足。 第三节本文重点内容与结构组织 1 3 1 本文重点内容 本文提出了一种基于动态页面集的w e b 信息抽取方法,该方法的基本思想 为:为来自每个w e b 站点的,根据查询条件实时生成的动态网页集,配置一份 订l 文件。在配置文件中包含三部分元数据:先验信息,页面核心表格结构, 校验规则。 在信息抽取的过程中,借用文档图像处理的基本思想, 对待抽取的w e b 页面建立了t a b l e 结构描述模型 在预处理步骤对页面结构进行清洗 使用特征匹配与信息定位机制定位信息行 利用先验信息与映射规则提取信息项 利用校验规则对信息项进行正确性判定 通过上述方法步骤,实现对动态w e b 页面集中信息记录的智能提取。 本文提出的信息抽取方法应用于b 2 b 航空订票电子商务平台,期望实现以 下目标: 1 ) 通过用户输入的机票查询条件自动联结并查询多家订票网站。 2 ) 对获得的实时查询结果动态页面进行解析与机票信息记录抽取。 3 ) 将获得的机票信息记录使用统一的格式规范化并展现。 本文主要关注的是步骤2 的动态w e b 页面解析与信息抽取过程与步骤3 的结 果规范化过程。 该方法期望实现: 不依赖于页面的结构和内容的复杂度,对异构数据使用统一方法描述。 第7 页 导论 将数据描述与控制流程分离,达到系统处理流程的归一化。 当页面结构发生变化时,只需对“l 配置文件的内容稍加修改,而不 需改动整个系统的处理流程 在无需较大改动的情况下,此方法可顺利移植于其他同类系统。 该方法结合了模式识别与w e b 信息抽取两个不同的研究领域,借用了文档 图像处理中表格图像处理的基本思想与机制来解决w e b 领域的问题,是一次新 方法的尝试与研究。本文的重点内容在于介绍配置文件的结构设计及各种核心 机制的方法模型与实现过程,包括: x m l 元数据配置文件的内容结构 w 曲t 曲1 e 结构描述模型 特征匹配与信息定位机制及实现 校验机制及实现 系统流程与核心算法 方法应用与实验结果 1 3 2 本文结构组织 本文共分为五章,内容结构如下: 第一章为导论,首先介绍了w e b 信息抽取技术的发展背景,对当前的w c b 信息抽取方法进行了简要综述,提出了一种基于动态页面集的w e b 信息抽取方 法,并对本文的重点内容进行了阐述。 第二章的主要内容是方法模型,首先介绍了基于动态页面集的信息抽取方 法的方法模型,然后介绍了x m l 元数据配置文件的结构与定义,随后阐述了本 文提出的信息抽取方法的各项实现机制。 第三章的主要内容是方法实现,包括配置文件的实现与管理工具,随后介 绍了系统流程、模块划分、数据结构、主要算法、以及特殊情况处理等。 第四章主要介绍了本文提出的信息抽取方法的应用,实验结果与评价改进。 第五章总结与展望。 第8 页 动态页面集的w e b 信息抽取方法模型 第二章动态页面集的w e b 信息抽取方法模型 第一节术语定义 首先介绍本文使用的术语定义: 页面集:来自同一w e b 站点具有同种基本结构的一系列查询结果页面。 图2 一l 为来自幽逊4 i 望选g q 堡的一个查询结果页。 动态页面集:不是通过链接或u r l 直接获得,而是通过输入查询条件 实时生成的页面集。 页面解析:对查询结果页面进行结构分析与信息抽取的过程。 核心表格:在查询结果页面中,信息所在的表格区域,如图2 一l 中红色 线框所示的区域,本文提出的信息抽取方法主要对该表格进行分析,并 从中抽取出所需的信息记录。 解析结果项( r e s u l t ) ;根据抽取需求定义,需要从某页面集中抽取 出的内容字段,如图2 1 中绿色线框所示的区域。 信息项( i t e m ) :根据抽取需求,在数据库中定义的字段,相同的信息 项在不同的页面集中表现为不同的解析结果项,1 个解析结果项可能包 含多个信息项。 信息记录( r e c o r d ) :由多个逻辑相关的信息项组成的记录。 信息行( r e s u l tl i n e ) :在大部分查询结果页中,组成一条信息记录的 各信息项分布于核心表格的一行中,该行即为信息行,即图2 1 蓝色线 框所示区域。 配置文件:本文使用的一种x m l 格式文件,其内容为某一页面集的元数 据配置信息,每个页面集对应一份配置文件。 元数据( m e t a d a t a ) :关于数据的数据,本文中用于描述待解析w e b 页 面的核心表格结构、先验信息与校验规则。 本文提出了种基于动态页面集的w e b 信息抽取方法,其特性在于: 该方法实现了对实时查询所得的动态页面的自动解析与信息记录抽取。 借用表格图像处理中表格逻辑结构描述模型,建立了x m l 配置文件中 第9 页 动态页面集的w e b 信息抽取方法模型 的、v c bt a b l e 结构描述模型。 在信息抽取过程中,借用了文档图像处理中表格图像处理的基本思想 建立了以下实现机制:特征匹配机制、信息定位机制、校验机制。 图2 1 查询结果页例图( a ) 第二节基于动态页面集的信息抽取方法模型 我们认为,w e b 信息抽取可以看作是对w e bt a b l e 的一种有针对性的识别过 程。但与文档图像中的表格图像识别不同,对w e bt a b l e 进行识别的最终目的是 抽取出用户感兴趣的信息,而表格图像识别的最终目的是对表格的形式和内容 达到认知与理解。 本文提出的w e b 信息抽取方法, 在处理形式上,对w e b 页面的核心表格结构进行分析与理解,w 曲t a b l e 与其它形式的t 曲1 e 在直观上是相同的。 在识别方式上,需要对w e bt a b l e 的每行以及行中每列的结构与内容进 行分析与理解,因此需要描述表格行列特征与内容属性的元数据信息。 第1 0 页 动态页面集的w e b 信息抽取方法模型 在抽取内容上:是包含多个信息项并按照逻辑关系组织的信息汜录,因 此需要描述每个信息项在页面中的内容属性等先验信息。 在定位方式上,区别于传统的关键字定位或全文检索的定位方式,而是 使用表格的结构特征与各元素的逻辑属性,配合先验信息进行特征匹配 与信息项定位的过程。 在处理模式上,可看作是自顶向下( t a b l e t r t d ) 与自底向上 ( t d t r t a b l e ) 的组合,符合传统的表格图形处理模式。 在处理流程上,可分解为:结构清洗( 预处理) 、表格结构提取、特征 匹配、信息定位、信息抽取、校验( 后处理) 等6 个步骤,与表格图像 处理流程有一定的相似性,如图2 2 。 袁 格 劁 像 处 娜 流 熟i 图2 2 表格图像处理与w e b 信息抽取流程对比图 w c b 信 息 抽 敏 流 极! 基于上述理由,在本文提出的信息抽取方法中, 对动态查询结果页面集配置了x m l 元数据描述文件,记录w e b 页面的 核心表格结构、先验信息与校验规则。 借用了表格图像的逻辑结构描述模型,建立了配置文件中的w e b 页面 第n 页 动态页面集的w e b 信息抽取方法模型 t a b l e 结构描述模型。 借用了文档图像处理中表格图像分析与处理中的一些机制,分别建立了 本文提出的信息抽取过程中的三项系统实现机制,包括:特征匹配机制, 信息定位机制,正则较验机制,完成对所需信息记录的智能提取。 本文提出的信息抽取方法的方法模型图如2 3 所示: 酽 曰日曰 品 l = 且n 页面摆一 l 1 f 銎圈 掘l 兰囤i i 斓枭一二i q i 1f 配囤 要i 贞陋结构i竺囤 图2 3 基于动态页面集的信息抽取方法模型图 第1 2 页 动态页面集的w e b 信息抽取方法模型 第三节x m l 元数据配置文件定义 x m l 元数据配置文件主要包括三部分内容:w e b 页面核心表格结构、先验 信息与校验规则,配置文件的内容结构图见图2 _ 4 。 图2 4 配置文件结构图 一先验信息描述 先验是模式识别中的基本概念。由于本文提出的基于动态页面的特殊信息抽 取需求,需要对不同页面集中的不同数据结构使用统一模型进行描述,因此必 然需要一定的先验知识与映射规则。先验信息是x m l 元数据配置文件中的主要 内容之一,主要包括以下预定义内容: 该页面集的网站u r l ( 图2 4 中的u r l ) 。用于表示该查询结果页来自 哪个w e b 站点。 该页面集中能够解析出的解析结果项数目( 图2 4 中的r e s u l t n u m ) 。通 常在页面集中,解析结果项数目与信息项数目不一定相同,因为一个解 析结果项的内容可能包含多个信息项内容。 该页面集中解析结果项一 信息项的映射( 图2 _ 4 中的r e s u l t d e s c r i p t i o n ) 。 由于相同的信息项在不同的页面集中表现为不同的解析结果项,因此需 要在配置文件中记录该页面集中解析结果项一信息项之间的映射转换 第1 3 页 动态页面集的w e b 信息抽取方法模型 关系。 每个信息项在页面中的格式( i t e m 聊e ) 。如时间格式h h :岫,日期格式: d d 删y y y y 。 信息项规范化规则( f o 肋a t i n f o ) 。由于相同的信息项在不同的页面集中的 格式不同,因此在抽取出信息项后需要对其进行规范化处理,以统一的 格式进行存储或展现。如价格转化为同一种货币。 二校验规则描述 为了提高信息抽取的精度,保证所抽取的信息记录的正确性与完备性,使用 了正则表达式对解析结果项进行匹配与提取,匹配正确的作为正确信息项保留, 错误的删除。校验规则主要包括: 每个信息项在页面集中对应的正则表达式及提取规则( 图2 4 中的 r e g e x ) 。 三页面核心表格结构描述 我们要进行信息抽取的页面集具有如下特点: 页面集基本上全部是h t m l 格式的。 页面的骨干结构是t a b l e 的分层嵌套结构。 待提取的信息内容全部被记录在核心t a b l e 中。 t a b l e 的一个信息行对应一条信息记录。 组成信息记录的信息项分布于信息行的各列中。 因为,我们需要使用配置文件的元数据从整体上对核心表格的结构特征与 内容属性进行描述。 我们关注的只有h 1 m lt a b l e 的相关元件,其他与信息抽取无关的h t m l 元件不在研究范围。h t m l1 a b l e 元素标签包括 、 、q h 、 、 。 在本文提出的信息抽取方法中,通常不必使用 等t h l e 信息,因为我们使 用的是表格的结构特征与内容属性进行信息行与信息项定位,所以不必借助表 头等语义信息,因此 元件也不在我们的w e bt a b l e 结构描述模型中。 我们借用了表格图像逻辑结构描述模型,建立了w e bt a b l e 的结构描述模型, 用下面的三元组表示: w e bp a g e = ( t a b l e ,t r ,t d ) ; t r = ( p o s i t i o n ,t y p e ,c o l u m n n u m ,d e p e n d ) ; 第1 4 页 动态页面集的w e b 信息抽取方法模型 t d = ( p o s i t i o n ,t y p e ,c o n t e n t ,d e p e n d ) ; 表2 1t a b l e 元素属性表 属性( a n r i b u t e ) 含义( m e a n i g ) t r p o s i t i o n 表示该行是表格的第几行 t r t y p e 表示该行是否是信息记录行 t r c o l u i n n n u m 表示该行有多少列 t r d 印e n d 表示该行通常是否出现,出现的条件是什么 t d p o s i t i o n 表示是该行的第几列 t d t 卯e 表示是否为信息项 t d c o n t e n t表示信息项对应的解析结果项名称 t d d e p e n d 表示该项通常是否出现,出现的条件是什么 w c b t a b l e 结构描述模型如图2 5 ,在配置文件中,我们使用该模型来描述页 面核心t a b l e 的结构特征与内容属性。 图2 5w 曲t a b l e 结构模型图 第1 5 页 确丽 动态页面集的w e b 信息抽取方法模型 2 4 1 特征匹配机制 第四节实现机制 在经过了预处理( 结构清洗) 、结构提取步骤后,待解析的w e b 页面已经被 存储为一颗只包含t a b l e 三元素( t a b l e 、t r 、t d ) 的多叉树。 而在订l 配置文件中,已经使用了本章第二节提到的w e bt a b l e 结构描述模 型记录了页面t 曲l e 的基本结构与内容属性等特征。 特征匹配过程实质上是对信息行的定位过程。 是一种深度遍历的过程。 配置文件中,t r 聊e = r e s u l t l i n e 的行即为记录行。 通常情况下,在一个页面中会出现多个记录行,因此需要反复执行r e s u l t l i n e 结构匹配来定位出页面中的所有信息行。 在匹配过程中,包含d e p e n d 属性的行列为可选行列,不必完全匹配, 而其余结构则必须完全匹配。 页面t a b l e 结构 图2 6 特征匹配方法模型图 第】6 页 配置文件t a b i e 结构 动态页面集的w e b 信息抽取方法模型 2 4 2 信息定位机制 通过特征匹配,一旦定位出页面中的r e s u l t “n e ,那么就相当于定位出我们 要抽取的一条信息记录了。 但是,组成一条信息记录的信息项通常分布于信息行的不同列中。因此使 用配置文件中的t d 1 卸e 属性来标识该t d 是否为信息项,而使用t d c o m e m 属性来标识该信息项的内容名称,然后通过先验映射规则与信息定位机制抽取 出各个信息项并按照逻辑关系组成一条信息记录。 信息定位机制的方法模型图如2 7 所示: 页面记录行结构 配跫文件r 龆u l i n r 结构 图2 7 信息定位方法模型图 定位出信息项后,抽取出的记录并不是最终的信息记录,必须经过后处理步 骤进行校验,经判定正确后方可保留。 2 4 3 正则校验机制 通常情况下,在信息定位过程中,可能存在某些d 印e n d 属性不为空的可选 行列,这些项在某些条件下才会出现,因此不完全匹配过程很可能导致定位出 第1 7 页 动态页面集的w e b 信息抽取方法模型 的并不是真正的信息行结构,从而导致抽取出的并不是真正的信息项,因此需 要一些方法机制对抽取结果进行匹配判断处理。 正则表达式是种常用的字符串匹配工具。正则表达式的定义为:使用某 种模式去匹配一类字符串的一个公式。正则表达式可以让用户通过使用一系列 的特殊字符构建匹配模式,然后把匹配模式与数据文件、程序输入以及w e b 页 面的表单输入等目标对象进行比较,判断对象中是否包含匹配模式。因此正则 表达式在w e b 应用的逻辑判断中具有举足轻重的作用。 通常正则表达式包含三种形式,分别为: 匹配:m 替拶:s 转化:t r 基于正则表达式的原理及应用需求,本文使用正则表达式的匹配方法对抽 取的信息项进行校验与提取,下文详细介绍了正则表达式的基本语法规则。 正则表达式由一些普通字符和一些元字符( m e t a c h a r a c t e r ) 组成。普通字符 包括大小写的字母和数字,而元字符则具有特殊的含义,元字符描述如下 表2 2 正则表达式元字符表 字符含义 匹配除换行符之外的任何单个字符 、s 匹配单个空格符,包括t a b 键和换行符 s 匹配除单个空格符之外的所有字符 | w 匹配字母,数字或下划线字符 | 匹配所有与w 不匹配的字符; d 匹配从o 到9 的数字 d 匹配非数字 匹配字符开头的字符 $ 匹配字符结尾的字符 匹配o 或多个正好在它之前的那个字符 + 匹配1 或多个正好在它之前的那个字符 7 匹配o 或1 个正好在它之前的那个字符 m )匹配刚好是m 个的指定字符串 第1 8 页 动态页面集的w e b 信息抽取方法模型 m ,n 匹配在m 个以上n 个以下的指定字符串 m ,)匹配m 个以上的指定字符串 口匹配符合【】内的字符 【“1 匹配不符合口内的字符 o 一9 匹配所有数字字符 a - z 】 匹配所有小写字母字符 f 将两个匹配条件进行逻辑“或”运算 下面介绍正则表达式在本文提出的信息抽取方法中的应用。 示例一 网站:w 、v 、n 仃a n s a v i a c o m 解析结果项:d e p d a t e f l i 曲t n o 页面格式:f r i d a y ,1 2m a y0 6 n i g h th v 5 4 9 8 包含信息项:f 1 i 曲悄。与d 印a n d a t e 正则表达式: f l i g h t n or e g e x = ”( ? 示例二 网站:w w w e a s v i e t c o m 解析结果项:f l i m i n f o 页面格式: n i 曲t4 6 1 3d 印1 7 :0 5 ,a 儿2 1 :0 5 包含信息项:f l i 曲t n o 、d e p a n t i m e 、a r r i v e t i m e 正则表达式: 第1 9 页 动态页面集的w e b 信息抽取方法实现 第三章动态页面集的w e b 信息抽取方法实现 第一节l 配置文件实现与管理 3 1 1x 胤配置文件实现 上一章主要介绍了本文提出的信息抽取方法的理论基础,从本章开始结合应 用实例介绍该方法的实现与技术细节。 本文提出的基于动态页面集的w e b 信息抽取方法主要应用于b 2 b 航空订票 电子商务平台,期望实现以下目标: 一通过用户输入的机票查询条件自动联结并查询多家订票网站。 二对获得的实时查询结果动态页面进行解析与机票信息记录抽取。 本文主要关注的是步骤2 的动态页面解析与步骤3 的结果规范化的过程。 图3 1 为从w u 眦a i m i s a c o m 航空网站所得的机票查询结果页的一部分: 6h 主醯薹石赫一 一j 5 9 知r 腑r 1 :h 珥面1 ,j 五酊和0 6 1 拍由一d 赫i 。同茜唁l u m 面r ( r u l ) :! ! ! ! 竺! ! ! !竺! 塑! ! ! ! 塑! 竺! ! 竺! ! ! o 垒e 蛆e g u 吲 3 鹌9 9 m y rt h u ,n 1 门u n ,2 6 2 2 :3 no t k u 6 时l u m ”r ( k u l ) : := :i :型! 坠竖竺:竺! ! ! :竺! :竺! ! ! ! ! 竺! 堕虫! 登! ! 垃 ol e a 筐 g u b s t4 9 9 鹎m y rf n ,0 2 力u n 2 叩6 1 5 :l s o p j k u a bl u m p u r ( k u l ) 钏9 h ta ks 2 1 8 :5 s v m a c a u ( m f m ) o 掣i 母日”。:渤粤“深l 一 露i 眩霞碧6 睁l 一嚣篆j j 璺i 恐蠹j i :翟2 。, 。5 上直旺铂“ 舭9 孵”榨 5 篙;嚣裟嚣”6:至篙= :篙琶u l 懈篙( 。) 图3 1 查询结果页例图( b ) 第2 l 页 动态页面集的w e b 信息抽取方法实现 其中红线以上部分为去程结果信息,红线以下部分为回程结果信息。 该页面包含6 条去程记录与4 条回程记录。 对图3 1 所示查询结果页面进行解析与信息记录抽取后,我们得到的航班记 录抽取结果页面为: 去程航班 霪阂鍪蕊藤黼霾l 黼鬻 笋( 肼l ) 船l 纠5 警删l ) i 醢船舶 警涨u ) 淼强1 5 笋卿l ) 淼2 2 3 0 警( 如l ) 淼5 c m f m ) 1 8 :” ( m f m ) 0 2 :1 5 + 1 ( m f m ) 1 8 :j 5 ( m f m ) 0 2 :1 5 + l ( m 研田1 8 :5 5 上一页下一页 鼍1 0 0 2 9 蛐。 辜7 蝴豳j ao 幕1 0 9 0a j l i o 幕6 9 7 6a i 廊。 毫锄。岫。 回程航班 竽岬m ) 器篙0 2 等淼i 9 2 5 竽删) 淼删 警( m f m ) 黜1 9 笱 ( k u l ) 嘶:3 0 ( 1 :u l ) 2 3 :1 0 ( 娜l ) 0 6 :3 0 ( i :u l ) :1 0 上一页下一页 图3 2 航班记录抽取结果页例图 直飞1 0 9 0 曲血。 直飞1 0 9 0a i m i ao 直飞l 唧a i r 8 s i ao 直飞9
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 电工知识考试题库及答案
- 酒店收购可行性研究报告
- 阿胶研究报告
- 风电场工程可行性研究报告设计概算
- 高空作业吊篮设备项目可行性研究报告申请报告模板
- 2025年班组长综合管理技能竞赛参考题库-中(多选题500题)
- 广西中考物理5年(2021-2025)真题分类汇编:专题09 功和机械能(原卷版)
- 2026年一级建造师一建机电实务案例分析考点重点知识总结100问
- 安徽中考物理5年(2021-2025)真题分类汇编:专题07 电功率、电热、电能综合(原卷版)
- 代征补充协议书
- 肺源性心脏病护理查房
- 工器具管理课件
- 国企参股基本知识培训课件
- 2025江苏连云港市海州区国有企业招聘23人笔试参考题库附带答案详解(10套)
- 2025至2030中国水声调制解调器行业市场深度研究与战略咨询分析报告
- 工厂原价管理办法
- 2025年上海工会面试题目及答案
- 湖南宅基地管理办法
- 冬季模板支撑施工安全管理措施
- 粮食质量安全事故处置方案
- 顶板离层仪培训
评论
0/150
提交评论