




已阅读5页,还剩74页未读, 继续免费阅读
(计算机应用技术专业论文)基于结果模式的deep+web数据抽娶机制的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一,;o一 at h e s i si nc o m p u t e ra p p l i c a t i o nt e c h n o l o g y t h er e s e a r c ho nd a t ae x t r a c t i o nm e c h a n i s mi n d e e pw e b b a s e do nr e s u l tp a t t e r n b yq ip e n g s u p e r v i s o r :p r o f e s s o rz h a n g b i n n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 独创性l 声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表 或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 ; , 上 学位论文作者签名:彳卜舶侈 1 日期: 训秀气6 毽 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年酷一年口一年半口两年口 导师签名: 签字日期: 1 h ;l-5 ,0,j 膨 奇闫 名辱龆峰 眷 加 作 : 文 期 论 日 位 字 学 签 ,3 |盯, 东北大学硕士学位论文摘要 基于结果模式的d e e pw | e b 数据抽取机制的研究 摘要 在i n t e r a c t 的飞速发展和普及下,丰富的w e b 资源构成了一个巨大的全球性信息仓 库,网络已经成为人们获取信息的一个重要手段。面对庞大的w e b 信息,用户如何从 繁杂的数据中快速、准确地找到感兴趣的信息变得越来越困难。 为此,近来出现了很多自动和半自动的d e e pw e b 数据集成系统,本文设计了d e e p w r e b 信息集成系统d w i i s ( d e e pw e bi n f o r m a t i o ni n t e g r a t i o ns y s t e m ) ,该系统主要可分 为d e e pw e b 查询接口获取、查询接口集成、查询分解、查询结果获取、查询结果整合、 查询结果展示几个部分,对互联网络上的d e e pw e b 数据库信息进行信息整合重组,并 基于这些信息做增值服务工作。为用户提供了“一站式”的信息查找服务,极大地提高 了信息的查找速度和准确性。重复语义标注、复杂的抽取模式生成方法及嵌套属性的存 在是d e e pw e b 数据抽取效率和准确率难以提升的瓶颈问题,本文提出基于结果模式的 d e e pw e b 数据抽取机制,首先通过构建与分析样本结果页面的网页数据特征矩阵建立 属性集、生成属性值抽取标识,二者共同组成了页面的结果模式,属性集可以较好地支 持后续实体识别、结果合并等应用;属性值抽取标识支持同类结果页面的数据抽取。然 后根据结果模式对同类结果页面进行数据抽取,便得到带有语义标注的数据集。对于获 取的结果数据集,本文还详细阐述了基于典型属性的实体识别方法和基于非典型属性的 实体识别方法,实现了d w i i s 其中的实体识别子系统。最后通过实验,将本文提出的 方法与同类成果进行了详细的对比,基于结果模式的数据抽取方法和实体识别子系统都 具有较高的准确率及效率。 关键词:d e e pw | e b ;网页数据特征矩阵;结果模式;数据抽取;实体识别 i i j飞1 东北大学硕士学位论文 a b s t r a c t t h er e s e a r c ho nd a t ae x t r a c t i o nm e c h a n i s mi nd e e pw e bb a s e d o nr e s u l tp a t t e r n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n dp o p u l a r i z a t i o no fi n t e r n e t ,t h er i c hw e br e s o u r c e s c o n s t i t u t eah u g eg l o b a li n f o r m a t i o nw a r e h o u s ea n dn e t w o r kh a sb e e no n eo ft h em a i n m e a s u r e st oo b t a i ni n t e r e s t e di n f o r m a t i o n f a c e d 谢t hh u g ew e bi n f o r m a t i o n ,i th a sb e c o m e i n c r e a s i n g l yd i f f i c u l tf o r u s e r st of i n dt h ei n f o r m a t i o nq u i c k l ya n da c c u r a t e l y a c c o r d i n gt o t h e a b o v ei s s u e s ,t h e r eh a v e a p p e a r e d al o to fa u t o m a t i ca n d s e m i a u t o m a t i cd e e pw e bd a t ae x t r a c t i o ns y s t e m s t h i sp a p e rd e s i g n sd e e pw e bi n f o r m a t i o n i n t e g r a t i o ns y s t e md w i i s t h es y s t e mc a nb ed i v i d e di n t od e e pw e b a c c e s si n t e r f a c e ,q u e r y i n t e r f a c e i n t e g r a t i o n ,q u e r yd e c o m p o s i t i o n ,r e s u l tr e c o r da c q u i s i t i o n ,i n t e g r a t i o no fr e s u k r e c o r d ,t h eq u e r yr e s u l ts h o w , w h i c hi su s e df o ri n f o r m a t i o ni n t e g r a t i o na n dr e s t r u c t u r i n ga n d b a s e do nt h ei n f o r m a t i o nt od ov a l u e a d d e ds e r v i c e s t h i st h e s i sd e t a i l st h ei n f o r m a t i o na c c e s sm e c h a n i s mi nt h ed e e pw e b t h ec r u c i a la n d b o t t l e n e c kp r o b l e mo ft h ei m p r o v e m e n to fe f f i c i e n c ya n dp r e c i s i o no fd a t ae x t r a c t i o ni nd e e p w e bi sr e p e a tl a b e la s s i g n i n g ,g e n e r a t i o no fe x t r a c t i n gp a t t e r na n dt h ee x i s t i n go fn e s t e d a t t r i b u t e s t h ep a p e rp r o p o s e sam e c h a n i s mo fd a t ae x t r a c t i o ni nd e e pw e bb a s e do nr e s u l t p a r e r n a f t e rt h ec o n s t r u c t i o no ff e a t u r em a t r i xo fw e bp a g ed a t aw e f i r s tg e n e r a t et h es e to f a t t r i b u t e sa n de x t r a c t i n gs y m b o l so fa t t r i b u t e sb yt h ea n a l y s i so ff e a t u r em a t r i xo fw e bp a g e d a t ab o t ho fw h i c ha r et h ec o m p o n e n t so ft h er e s u l tp a r e m t h es e to fa t t r i b u t e sc a nb eu s e d t oi d e n t i f y e n t i t yr e c o g n i t i o na n dc o m b i n et h er e s u l t t h es y m b o l so fa t t r i b u t e sa r eu s e dt o e x t r a c td a t af r o mt h ep a g e so ft h es a m ek i i l d s e c o n d l y ,i t st i m et oe x t r a c td a t af r o mt h ep a g e s o ft h es a m ek i n da c c o r d i n gt ot h er e s u l tp a t t e r n i nt h i sw a y , d a t as e t 、析t 1 1l a b e la s s i g n e dc a n b eo b t a i n e d e x p e r i m e n t a lr e s u l t sb a s e do nt h i sm e t h o dc o n f i r mt h eh i 曲e f f i c i e n c ya n d p r e c t s m n k e yw o r d s :d e e pw e b ;f e a t u r em a t r i xo fw e bp a g ed a t a ;r e s u l tp a t t e r n ;d a t ae x t r a c t i o n ;e n t i t y r e c o g n i t i o n i i i ,; ,;2 东北大学硕士学位论文目录 目录 独创。陛声明i 摘| 墓 a b s t r a c t 。i i i 第1 章绪论1 1 1 研究背景1 1 2 研究目标一2 1 3 本文工作5 第2 章研究基础7 2 1d e e pw e b 7 2 1 1d e e pw e b 概念7 2 1 2d e e pw e b 信息抽取典型系统8 2 2w e b 信息抽取技术1 0 2 2 1 基于自然语言理解方式的信息抽取1 0 2 2 2 基于包装器归纳方式( w r a p p e ri n d u c t i o n ) 的信息抽取1 0 2 2 3 基于o n t o l o g y 方式的信息抽取1 1 2 2 4 基于h t m l 结构的信息抽取1 2 2 2 5 信息抽取的评价1 2 2 3 相关技术1 2 2 3 1x m l 1 2 2 3 2d o m 4 j 13 2 3 3j a v a 技术1 4 2 4 本章小结1 6 第3 章基于结果模式d e e pw e b 数据抽取机制1 7 3 1 研究系统框架1 7 3 2d e e pw _ e b 页面的分析1 9 3 2 1d e e pw e b 页面特点2 0 3 2 2d e e pw e b 页面数据信息的来源2 1 二i v 东北大学硕士学位论文 目录 3 2 3d e e pw e b 页面的生成方式2 1 3 3 结果模式定义及生成机制2 2 3 3 1 结果模式定义一2 3 3 3 2 结果模式的生成机制2 7 3 4 基于结果模式的d e e pw e b 数据抽取机制2 7 3 4 1 基于结果模式的数据抽取框架2 8 3 4 2 数据抽取2 9 3 5 本章小结3 0 第4 章结果模式生成31 4 1 网页分块算法31 4 2 正文块识别3 3 4 3 构建网页数据特征矩阵3 4 4 3 1 基于分隔标签构建初始网页数据特征矩阵3 5 4 3 2 构建最终网页数据特征矩阵3 9 4 4 生成属性集4 2 4 5 本章小结4 4 第5 章基于结果模式的d e e pw e b 数据抽取。4 5 5 1 数据记录中属性值的获取4 5 5 2d e e pw e b 中的实体识别。4 6 5 2 1 基于非典型属性的实体识别4 7 5 2 2 基于典型属性的实体识别4 9 5 2 3 实体识别方法比较5 2 5 3 本章小结5 2 第6 章实验设计与实验结果的分析5 3 6 1 实验数据5 3 6 2 实验结果与分析5 4 6 2 1 嵌套属性划分的准确性实验5 4 6 2 2 数据抽取准确率实验5 5 6 2 3 数据抽取效率实验5 6 6 2 4 实体识别准确率实验5 6 v 飞r点 东北大学硕士学位论文 目录 6 3 本章小结5 7 第7 章结论5 9 参考文献6 1 致j 射6 5 一v i ,l l l v 敏rja 东北大学硕士学位论文第1 章绪论 1 1 研究背景 第1 章绪论 随着互联网的迅猛发展,其中蕴含了海量的信息、知识可以供人们使用。它从出现 开始就显示了其强大的推动力,给人类社会带来了前所未有的巨大革命,作为一个全球 的、巨大的、分布和共享的信息空间,在信息获取方面,i n t e m e t 占据着不可替代位置。 正是由于i n t e r n e t 蕴含的信息量的巨大,如何从这些繁杂的数据中找到自己需要的 信息成为了信息获取中存在的主要问题。蕴含在i n t e m e t 中的信息可以被分成两个类别, 一类是s u r f a c ew e b 信息,一类是d e e pw e b 信息。所谓s u r f a c ew e b 信息即信息的获取 可以通过网页之间存在的链接便可以获取,其信息获取过程并不需要进行用户输入关键 字与i n t e r n e t 发生信息交互或传递便可以完成。例如,访问网页中的某条新闻,就可以 从首页通过层层链接找到存储该条新闻的网页。d e e pw e b 信息的获取是需要用户与 i n t e m e t 进行交互后才可以将信息反馈的一种信息。d e e pw e b 信息的反馈往往需要用户 首先输入某些关键字,然后网站会根据该关键字返回给用户特定的信息( 某些情况下也 可以不进行交互,即默认交互的关键字为空) 。比如图书网站的信息访问,图书的详细 信息会根据用户的输入或选择返回相应的内容。d e e pw e b 中蕴含了海量的可供访问的 信息,与s u r f a c ew e b 相比,d e e pw e b 蕴含的信息量是s u r f a c ew i e b 的4 0 0 5 0 0 倍且信 息质量要远远高于s u r f a c ew e b 。因此,d e e pw 曲信息获取越来越受到人们的关注。 目前开发了很多数据抽取的工具,基于标注样本的学习来生成规则的抽取工具1 2 巧】, 基于页面h t m l 标签结构的数据抽取工具【6 。1 们,尽管这些方法能在某种程度上实现半自 动或自动的数据抽取,然而仍存在一些问题。首先,绝大多数方法关注的是如何获取数 据本身即属性值而忽略了数据的语义信息,这使得数据的后续处理如数据集成等应用变 得十分困难,文献 6 虽然提出数据语义标注的解决策略,但是将语义标注工作放在数据 抽取之后进行,同类页面数据内容虽然不同但是数据语义确是不变的,因此文献 6 将使 得在同类页面上进行重复的语义标注,这将降低数据抽取的效率。其次,d e e pw e b 数据 是以数据记录的形式在结果页面中罗列出来的,数据记录中的数据项反映了属性信息, 然而有些结果页面将多个属性信息封装在一个数据项中,本文称之为嵌套属性,对于这 一问题需要采取一定的策略,将嵌套属性拆分开。大多数数据抽取工具都没有给出明确 东北大学硕士学位论文第1 章绪论 的解决办法,这直接影响数据抽取的准确率。再次,大多数数据抽取工具是基于d o m 树的,d o m 树的建立及d o m 树的匹配都是极其耗时的,这使得模式建立的效率和数 据抽取效率都难以得到保证。 1 2 研究目标 通过分析结果页面中数据本身及数据来源的特点,可以发现目前存在的d e e pw e b 抽取工具和模型都有着各自的优点以及不足。本文通过对现有技术的总结和待解决问题 对象的特点提出了基于结果模式的d e e pw e b 数据抽取机制。其目的是希望能够实现一 个通用性强,效率高,准确率高的d e e pw e b 信息抽取系统。一个高效的d e e pw r e b 信 息抽取系统需要从以下几个技术点进行突破: ( 1 ) 正文块的获得 w e b 页面作为信息抽取的对象,这种处理方式面临着巨大的挑战。在信息量日益增 长的同时,w e b 页面提供信息的密集程度也不断的增强,w e b 页面需要能在有限的空间 中提供更多的信息,因而变得越来越复杂【4 】。首先w e b 页面中往往包含着大量的“噪声 。 例如:为了增强用户交互性而加入的脚本( s c r i p t ) ,为了便于用户浏览而加入的导航链 接,以及出于商业因素所加入的广告链接等【5 1 ,本文称之为“硬噪声 。此外,与传统的 文本文档相比,w e b 文档在语义的内聚性上难以得到保证,即一个w e b 页面中往往包 含多个语义无关的部分【4 】,由于实际的信息抽取往往是针对某一类的应用,这时w e b 页 面中所包含的与当前应用无关,又不同于“硬噪声”的内容就称为“软噪声 。“软噪声 并非固定不变,是个相对的概念,因为对w e b 信息的需求不同,导致“软噪声”的具 体内容也不同,因此在某些应用看来是噪声的东西,正是其他应用所需要的。针对上述 问题,目前出现了一种全新的基于分块的w e b 信息抽取技术,即先将w e b 页面分成若 干个相互独立的语义块,再根据不同的应用,从中选取具有相应语义特征的语义块进行 信息抽取。基于分块的w e b 信息抽取机制的思想核心在于:w e b 信息抽取的对象不再 是直接的w e b 页面,而是w e b 页面所包含的特定语义块。这种方式不仅有效降低了信 息抽取问题的复杂度,而且大幅度提高了精确度,显然这种抽取机制更为合理。要实现 基于分块的w e b 信息抽取,前提就是实现一种w e b 页面分块算法。 ( 2 ) 抽取模板的生成 所谓抽取模板就是一个对d e e pw e b 信息进行抽取的依据,通过样本页面获取的抽 取模板可以适用于同类页面的数据抽取,其模板的质量直接影响了抽取数据项的准确 2 oz o 东北大学硕士学位论文第1 章绪论 度。由于d e e pw e b 页面的生成特点,、生成的记录集是有一定的规律的,实际上在生成 结果页面的时候不同的d e e pw e b 网站也是由其特定的模板将数据库中的记录集对其进 行填充,然后将其显示到结果页面。所以通过寻找一个结果页面的记录重复规律,就可 以了解其模板的信息,通过对网页的生成模板进行一定的处理就可以当作抽取模板对同 类其他的d e e pw e b 页面的记录进行抽取。 ( 3 ) 数据记录的抽取 数据记录的抽取在整个d e e pw e b 信息抽取过程中是一个非常重要的环节,只有准 确的将数据记录抽取出来后才可以进一步对记录中包含的属性进行处理,所以数据记录 的抽取准确度直接影响了d e e pw r e b 信息抽取的准确度。利用抽取模板对记录进行抽取 的时候为了避免噪音信息的处理,同样需要通过分块程序识别的正文块基础上进行,对 于记录正文块利用抽取模板可以将包含的记录集进行分隔,生成单独的记录个体。将每 条抽取的记录通过进一步处理就可以对d e e pw e b 信息进行识别。 ( 4 ) 嵌套属性的处理 有很多d e e pw e b 信息在对数据进行展示的时候会出现嵌套属性信息。嵌套属性即 属性本身不是一个原子属性,而是有多个数据项合成的一个属性信息。对于嵌套属性的 识别和处理一直是d e e pw e b 中比较难以处理的一个问题。如果d e e pw e b 信息抽取中 不能将嵌套属性进行识别和处理,那么信息抽取的准确度会极大的降低,所以必须对嵌 套属性进行适当的识别和处理。通过对大量网页的分析和观察发现,嵌套属性中存在的 多个属性其实也是有其特点的,通过以视觉角度对嵌套属性区分的启发,发现嵌套属性 内部的属性之间存在一些没有语义含义,只有视觉区分效果的分隔符组成的分隔符序 列。所以本文中对嵌套属性的识别是通过分隔符序列实现,系统自备一个分隔符词典, 利用分隔符词典中存在的分隔符所组成的分隔符序列当作可选的嵌套属性分隔标识,对 嵌套属性进行在识别处理,通过实验也发现通过这种方法对嵌套属性的区分具有比较好 的效果。 ( 5 ) 属性语义标注 当d e e pw e b 信息获取后,进一步的工作是进行语义标注,因为语义标注在信息合 成中具有非常重要的意义和作用。因为不同的d e e pw e b 网站对于同类信息具有不同的 语义描述方式,在信息抽取以后需要对不同d e e pw e b 网站的同类信息做统一化处理, 这样才能真正意义上的将信息进行集成供进一步的处理。属性的语义标注有很多方法, 可以通过显示的属性信息包含的语义提示进行标注,对于不包含语义提示的属性信息, 气 东北大学硕士学位论文第1 章绪论 可以利用查询接口中输入的关键字在结果页面中属性显示的位置将接口的属性提示信 息作为属性的语义标注信息 3 l 】。本文综合了语义标注的各种方法,对d e e pw 曲获取的 属性信息进行语义标注,其标注基础也是通过结果模式进行匹配。作语义标注的属性信 息在本地存储的时候可以做一次统一化处理,将不同的语义利用本体进行语义统一,进 行语义统一化的属性信息可以更好的支持不同的查询服务和信息的集成。 目前现有的d e e pw e b 抽取机制有着各自不同的优缺点,本文针对这些抽取机制的 缺点并加以解决。首先需要解决的问题是数据语义的标注,即数据所表示的语义信息, 许多文献在d e e pw e b 信息抽取中忽视了属性的语义标注问题。由于d e e pw e b 信息依 赖于后台的w e b 数据库,然而w e b 数据库结构相对稳定,因此本文将数据语义标注工 作放到结果模式生成阶段完成,根据样本结果页面建立属性集、生成属性值抽取标识, 二者共同组成了页面的结果模式,属性集可以很好的支持后续实体识别及结果合并等应 用;属性值抽取标识支持对同类结果页面的数据抽取,并且通过属性值抽取标识能够很 好的解决嵌套属性问题。基于结果模式的d e e pw e b 数据抽取机制将数据语义标注及嵌 套属性的处理放在结果模式生成阶段来完成,其好处在于根据样本结果页面一次生成结 果模式,多次使用结果模式进行同类页面的数据抽取,大大提高了数据抽取的效率且为 数据集成奠定了良好的基础。考虑到d e e pw e b 数据来源于后台数据库,而数据库中数 据是以二维关系表形式组织,基于这一特点,本文将h t m l 源文件看作字符串序列, 通过分析样本页面的h t m l 源文件将其中的数据转换成矩阵结构,矩阵的行表示结果 页面中的数据记录,列表示数据记录中的数据项,通过构建与分析网页数据特征矩阵来 获取网页的结果模式,较通过d o m 树等方法来获取结果模式的方法在效率上有了很大 的提高。 本文还针对从d e e pw e b 抽取的数据做了进一步的讨论,即如何完成实体识别。目 前,关于实体识别技术的研究主要集中在两方面:一方面是基于实体的属性文本特征进 行实体识别( f e a t u r e b a s e ds i m i l a r i t y ,简称f b s 方法) ,侧重于研究文本相似函数的设置 ( 包括函数定义【1 1 1 、选取 1 2 - 1 3 1 和相关阈值的确定b 4 1 5 】) 、属性权重的选取【1 6 郴1 以及相关 优化措施【l l 】等;另一方面是基于实体上下文语义信息或特定领域知识,利用数据挖掘等 方法进行实体识别【1 9 1 2 0 1 ,侧重于研究语义关联的表示方式2 1 一冽及计算方法【2 3 _ 2 4 1 。本文 关于实体识别的方法阐述了两种解决方案,详细阐述了基于典型属性的实体识别方法和 基于非典型属性的实体识别方法。两种都是基于记录之间的相似度比较,只是相似度的 比较方法不同,在实际应用中都发挥着各自的作用。 4 ;lj哆 东北大学硕士学位论文第1 章绪论 1 3 本文工作 本文的组织结构如下:第2 部分介绍了相关工作;第3 部分介绍了基于结果模式的 d e e pw e b 数据抽取机制;第4 部分介绍了结果模式生成过程;第5 部分给出数据抽取的 算法,对于抽取的数据同时给出了实体识别的算法流程;第6 部分为实验结果;第7 部 分为本文的结论。 在深入研究w e b 信息特点和w e b 信息抽取原理的基础上,本文提出了基于结果模 式的d e e pw e b 信息抽取机制。主要研究的核心问题是:正文块的识别、正文的抽取、 结果模式的生成、基于结果模式的d e e pw e b 数据抽取方法。 重复语义标注、复杂的抽取模式生成方法及嵌套属性的存在是d e e pw e b 数据抽取 效率和准确率难以提升的瓶颈问题。针对该问题,本文提出基于结果模式的d e e pw e b 数据抽取机制。该方法主要通过两个部分实现,首先通过构建与分析样本结果页面的网 页数据特征矩阵建立属性集、生成属性值抽取标识,二者共同组成了页面的结果模式。 属性集可以较好的支持后续实体识别、结果合并等应用;属性值抽取标识支持同类结果 页面的数据抽取。第二步是根据结果模式对同类结果页面进行数据抽取,进而得到带有 语义标注的数据集。经实验证明,与同类成果相比,基于结果模式的数据抽取方法具有 较高的准确率及效率。 本文共分为六章: 第一章主要给出了w | e b 信息抽取研究的背景和主要内容,并提出了论文的研究目 标和该论文所做的主要工作。 第二章阐述了d e e pw e b 的相关概念,以及w e b 信息抽取研究领域的最新动态,本 文研究内容的相关工作和相关技术。论述了几种当今主流的w e b 信息抽取技术实现方 + 法基本原理以及优缺点。详细阐述了包括h t m l 技术、解析h t m l 网页的解析器h t m l p a r s e r ,x m l 技术和解析x m l 的解析器d o m 4 j 的相关技术,包括其特点、使用方法、 i 优缺点,以及如何使用才能提高系统的效率。本文采用j a v a 作为开发语言,关于j a v a 语言的特点,面向对象编程的设计思想在本章都有所论述。 第三章首先阐述了整个d e e pw 曲研究项目的系统框架,对w e b 页面做了系统的分 析,包括d e e pw - e b 的页面特征、数据来源以及生成方式。基于d e e pw e b 页面的分析, 阐述了结果模式的定义以及生成机制。最后论述了基于结果模式的d e e pw e b 数据抽取 机制。 气 东北大学硕士学位论文第1 章绪论 第四章详细阐述了结果模式的生成方法。首先是将w e b 页面分块,并且识别出正 文块部分,把正文块中文本数据全部提取出来。在进行整合去杂之后,先构建初始网页 数据特征矩阵,再生成最终网页数据特征矩阵。最后论述了基于网页数据特征矩阵生成 属性集的方法。 第五章在第四章生成结果模式的基础之上,阐述了基于结果模式的d e e pw e b 数据 抽取。数据最终的获得主要分为两个步骤,首先是基于结果模式将数据记录抽取出来, 接着是数据记录中属性值的获取。最后论述了d e e pw e b 实体识别方法,基于d e e pw e b 研究项目的系统框架,本文阐述了基于典型属性的实体识别方法和基于非典型性属性的 实体识别方法。 第六章中阐述了本系统的实验背景以及实验环境,列举了实验结果并对本系统进行 性能测试,对嵌套属性的划分准确性,数据抽取准确率,数据抽取效率与现有方法进行 了对比实验。 第七章对本文做出结论,并且阐明本系统有待改善的部分。 6 一l i 西 东北大学硕士学位论文 第2 章研究基础 第2 章研究基础 本章阐述了d e e pw e b 概念以及现今的主要典型系统。以不同解决方式作为分类论 述了主流的w e b 信息抽取技术,并且给出了w e b 信息抽取的评价方式。最后阐述了本 。 系统开发过程中使用的相关技术。 2 1d e e pw e b 在w e b 信息中有两种不同的信息类别,即d e e pw e b 与s u r f a c ew e b 信息。本节通 过比较方式阐述了d e e pw e b 概念,以及给出了当前的d e e pw e b 信息抽取典型系统。 2 1 1d e e pw e b 概念 看似庞杂的w e b 信息从其获取方式可以划分为s u r f a c ew e b 和d e e pw e b 两大部分。 s u r f a c ew e b 是指通过超链接可以被传统搜索引擎索引到的页面的集合。在现实中,有 大约2 1 3 的页面由于缺乏被指向的超链接而没有被搜索引擎索引到,这一部分页面本 文也看作是s u r f a c ew e b 的范畴。而对于d e e pw e b ,目前还没有一个统一的定义,文献 2 】中认为d e e pw e b 是指w e b 中不能被传统的搜索引擎索引到的那部分内容,特别是指 那些通过查询实时产生的动态页面,但随着搜索引擎爬虫( c r a w l e r ) 能力的增强 2 5 】, 使得d e e pw 曲这一概念变得复杂不易界定,很难给出一个可以长期一致认同的定义。 在这里本文试图对d e e pw r e b 的范畴给出一个较为完整的描述:d e e pw r e b 是指w e b 中可访问的在线数据库,这里简称为w e b 数据库或w d b ,其内容存储在真正的数据库 中。这些内容只有在被查询时才会由w e b 服务器动态生成页面把结果返回给访问者, 如图2 1 所示。 用户端浏览器端服务器端在线数据库 图2 1d e e pw e b 数据获取过程 f i g2 1t h ep r o c e s so fd a t ao b t a i n i n gi nd e e pw e b 7 东北大学硕士学位论文第2 章研究基础 因此对于d e e pw e b 信息,并没有超链接指向这些页面,这是和那些可以被直接访 问的静态页面的根本区别。按照存储信息的结构化程度可以进一步划分为结构化信息、 文档信息和非文本文件,网上购物网站存储的信息属于结构化信息,新闻网站存储的 信息属于文档信息,二者因结构化程度的不同对其查询所应用的技术也差别很大,而非 文本文件,主要包括多媒体文件、图像文件、软件和特定格式的文档( 比如p d f 文件) 。 通常情况下,目前研究对d e e pw e b 信息的获取更关注的是对结构化信息的获取,而不 是文档或非文本文件。因为对结构化数据的集成更有意义,可以采用的技术也更丰富。 d e e pw e b 数据集成也主要是指对结构化信息的集成。随着w e b 相关技术的日益成熟和 d e e pw e b 所蕴含信息量的快速增长,通过对w e b 数据库的访问逐渐成为获取信息的主 要手段,而对d e e pw e b 的研究也越来越受到人们的关注。近年来,出现了很多典型的 d e e pw e b 抽取系统,通过不同的技术,在一定程度上都实现了d e e pw e b 信息的自动获 取。 2 1 2d e e pw e b 信息抽取典型系统 实现d e e pw e b 信息自动抽取面临三个基本任务,第一,自动识别有效的查询表单; 第二,表单自动填写:第三,结果页面中记录数据的自动抽取。本文关注的是给定结果 页面如何抽取其所包含的记录数据,目前在这个研究领域已经开展了大量的研究工作, 并开发了很多w e b 数据抽取的工具。传统的构造w r a p p e r 的方式是手工编码,既费时费 力、容易出错,还需要专家完成,于是许多半自动化的方法【2 - 5 】【2 6 1 或自动化的方法【6 1 2 1 被提出。文献 2 】 3 4 】 5 】通过对手工标注的样本页面的学习来获得抽取规则,在标注样 本的同时标注数据语义,显然这类方法需要大量的人工参与,使得包装器的生成及维护 极其复杂。 w a n g 在文献 6 】设计了一个d e e pw e b 信息自动抽取系统d e l a ,该系统中生成包装 器的思想是将样本页面看作h t m l 标签和文本组成的字符串序列,从该字符串序列对 应的后缀树中找出所有重复h t m l 标签子串,根据重复子串间的层次关系来构建包装 器。利用包装器对同类页面进行数据抽取,最后利用启发式规则对所抽取的数据进行语 义标注。d e l a 给出了一个从数据抽取到结果语义标注的全自动方法,然而其最大的不足 在于将语义标注工作放在数据抽取之后进行,同类页面数据内容虽然不同但是数据语义 确是不变的,因此文献 6 将使得每次对同类页面进行数据抽取之后都要重复进行语义标 注,导致数据抽取效率下降。另外,对于嵌套属性文中只是提出用特殊的字符来分隔, 8 东北大学硕士学位论文 第2 章研究基础 然而文中没有给出具体的解决方案 。 ,; 文献 7 】结合d o m 树结构和视觉信息来发现和分离数据记录,其具体做法是在由页 面形成的d o m 树中为元素添加了在浏览器中的位置信息,并认为每个节点在视觉上占 据了一个矩形的区域,而且父节点所占据的矩形区域包含子节点占据的区域,通过节点 的位置和大小信息可以准确地发现在d o m 树中不连续的数据记录。文献 9 针对搜索引 擎的查询结果而提出的工作,它把视觉信息和d o m 树结构结合起来发现和分离查询结 果。此类方法最主要的缺点是时间复杂度较高,因为除了构建d o m 树外,还要添加视 觉信息【2 7 】。文献1 2 8 1 2 9 1 利用结果页面对应d o m 树的结构信息实现准确的数据抽取。 文献 1 0 】则提出了利用开源软件辅助实现d e e pw e b 信息抽取,实际上这只是简化了基 础工作部分的工作量和复杂度。 7 9 】 1 0 2 8 【2 9 3 0 】均属于基于d o m 树分析的数据抽 取方法,该类方法的优点在于能够利用h t m l 标签的层次结构实现数据的准确抽取, 然而不足之处是适用性差,原因在于算法本身需要事先构建h t m l 文档的d o m 树,由 于h t m l 语法本身的灵活性,大量的w e b 页面并不遵循w 3 c 的h t m l 规范,无法构 建正确的d o m 树,而且d o m 树构建非常复杂。 文献 8 提出一种完全基于视觉信息的数据记录抽取方法,该方法主要利用w e b 页 面的视觉特征如位置特征、布局特征、外观特征等来定位数据区域并抽取数据记录,该 方法在一定程度上克服了现有方法对h t m l 源文件的依赖,然而由于w e b 数据的半结 构或无结构这一特点,使得获取精确的视觉信息变得十分困难。 综上所述,现有数据抽取工具存在的突出问题有三方面:一是重复语义标注使得数 据抽取效率大大降低,二是基于d o m 树的模式建立和数据抽取方法较为复杂且效率难 以得到保证,三是对于嵌套属性没有给出较好的解决方法。考虑到d e e pw e b 数据来源 于w e b 数据库,而数据库隐含关系模型,若能通过样本结果页面获取数据库隐含的关 系模式,将会很好的解决上述问题,为此本文提出基于结果模式的d e e pw e b 数据抽取 机制,将h t m l 源文件看作字符串序列,通过分析样本页面的h t m l 源文件将其中的 数据转换成矩阵结构,矩阵的行表示结果页面中的数据记录,列表示数据记录中的数据 项,通过构建与分析网页数据特征矩阵来获取网页的结果模式,通过结果模式便可对同 类结果页面进行数据抽取。模式建立效率和数据抽取效率较d o m 树等方法均有了很大 的提高,并且通过结果模式很好的解决了嵌套属性问题。 9 东北大学硕士学位论文第2 章研究基础 2 2w e b 信息抽取技术 信息抽取根据实现方式的不同可以分为基于自然语言理解方式的信息抽取,基于包 装器归纳方式的信息抽取和基于h t m l 结构的信息抽取。 2 2 1 基于自然语言理解方式的信息抽取 自然语言处理技术通常用于自由文本的信息抽取,需要经过的处理步骤包括:句法 分析、语义标注、专有对象的识别( 如人物,公司) 和抽取规则。具体地说就是把文本 分割成多个句子,对一个句子的句子成分( p a r to fs p e e c h ,p o s ) 进行标记,然后将分 析好的句子语法结构和事先定制的语言模式( 规则) 匹配,获得句子的内容。其实就是 利用子旬结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息抽取。规 则可以由人工编制,也可从人工标注的语料库中自动学习获得。这类信息抽取主要适用 于源文档中含有大量文本的情况( 特别针对于合乎文法的文本) 。 基于自然语言的信息抽取技术是将w e b 文档视为文本进行处理的(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社工线上活动创意方案策划(3篇)
- 水喷砂施工方案(3篇)
- 阜阳团建活动策划方案模板(3篇)
- 铜仁支座砂浆施工方案(3篇)
- 战略解码考试题库及答案
- 电气考试题库及答案合集
- 心理咨询考点题目及答案
- 心理测试题目及答案爱情
- 小学消防测试题目及答案
- 工业厂房设备维修保养合同
- 合资研发中心管理制度
- CJ/T 242-2007城市客车外置式制动间隙自动调整臂
- T/CSPSTC 106-2022水工建筑物表面位移机器视觉在线监测技术规程
- 2024年中级统计师《统计工作实务》真题及答案解析
- 小学2024-2025学年度第二学期道德与法治课程计划
- 河北省唐山市路北区2025届八年级数学第二学期期末达标检测模拟试题含解析
- 缴纳社保免责协议书
- 平面广告设计基本原则试题及答案
- 《癫痫持续状态》课件
- 患者十大安全目标(2025) 2
- 《钓鱼的艺术教学》课件
评论
0/150
提交评论