(计算机应用技术专业论文)基于dom和网页模板的信息抽取.pdf_第1页
(计算机应用技术专业论文)基于dom和网页模板的信息抽取.pdf_第2页
(计算机应用技术专业论文)基于dom和网页模板的信息抽取.pdf_第3页
(计算机应用技术专业论文)基于dom和网页模板的信息抽取.pdf_第4页
(计算机应用技术专业论文)基于dom和网页模板的信息抽取.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于dom和网页模板的信息抽取.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中山大学硕士学位论文 基于d o m 和网页模板的詹息抽取 基于d o m 和网页模板的信息抽取 计算机应用技术 硕士生:苏文健 指导教师:陈有青副教授 摘要 随着互联网的飞速发展,互联网已经成为一个巨大的知识库。为了有效地利 用互联网上的信息,信息抽取技术应运而生。信息抽取技术属于人工智能的一个 分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。 本文首先介绍了信息抽取技术的发展历史,国内外的研究状况,并把信息抽 取技术与几种相关技术作比较。接着,本文对信息抽取技术进行简要的分析,阐 述了信息抽取技术的关键任务、主要研究方法、体系结构和评价标准。 本文研究的信息抽取技术是基于d o m ( 文档结构模型) 和网页模板的。d o m 是w 3 c 的一个标准,它能够很好的描述网页结构。参照d o m 的定义,本文通 过构造h t m l 解析树来描述网页结构。 考虑到互联网上的网页大多是通过网页模板生成的,因此在参考前人的研究 成果上,本文提出了一种归纳网页模板的新方法,它能很好地对以表格为布局元 素的网页进行模板归纳。通过归纳网页模板,可以减少网页中的噪音信息,从而 能够提高信息抽取的准确率。 本文的抽取规则是基于d o m 的路径生成的。与一般的基于绝对路径的抽取 规则不同,本文的抽取规则是基于相对路径的。基于相对路径的抽取规则能减轻 因为网页结构的变动而对信息抽取造成的影响。并且,基于相对路径的抽取规则 还有自适应性。当网页结构完全变化时,抽取规则也能重新的自动生成。 为了验证本文理论的可行性,本文开发了一个可视化的网页抽取器,并就生 成h t m l 解析树、归纳网页模板、生成基于相对路径的抽取规则和使用抽取规 则抽取网页信息进行详细的介绍。最后,本文给出了归纳网页模板和抽取网页信 息的实验结果。实验结果表明本文提出的归纳网页模板方法和信息抽取方法是正 确的和高效的。 关键词:信息抽取,文档结构模型网页模板,抽取规则,相对路径 中山大学硕士学位论文 基于d o m 和网页模板的信息抽取 i n f o r m a t i o ne x t r a c t i o nb a s e do nd o ma n dw e bt e m p l a t e c o m p u t e ra p p l i c a t i o na n dt e c h n o l o g y n a m e :s uw e n j i a n s u p e r v i s o r :c h e ny o u q i n g a b s t r a c t w i t hr a p i dd e v e l o p m e n to fi n t e m e t ,i n t e m e th a sb e e nah u g ek n o w l e d g e r e p o s i t o r y i no r d e rt om a k e9 0 0 du s eo fi n f c r m a t i o no f it h ei n t e r a c t ,i n f o n n a t i o n e x t r a c t i o nc o m e so u t i n f o r m a t i o ne x t r a c t i o nb e l o n g st ot h eb r a n c h o fa r t i f i c i a l i n t e l l i g e n c e p e o p l ec a ne x t r a c ti n t e r e s t i n gi n f o r m a t i o nf r o mw e bp a g e sb ym e a n so f i t t h ep a p e rf i r s ti n t r o d u c e st h eh i s t o r ya n dt h er e s e a r c ha th o m ea n da b r o a do f i n f o r m a t i o ne x t r a c t i o n t h e ni tc o m p a r e si n f o r m a t i o ne x t r a c t i o nt os e v e r a lr e l e v a n t t e c h n o l o g i e s a t i e rt h a t i tm a k e sab r i e fa n a l y s i so fi n f o r m a t i o ne x t r a c t i o na n d i n t r o d u c e s t h ek e yt a s k ,t h em a i nw a yo fr e s e a r c h ,t h es y s t e ma n dt h ee v a l u a t i o n s t a n d a r do fi n f o r m a t i o ne x t r a c t i o n i n f o r m a t i o ne x t r a c t i o ns t u d i e db yt h ep a p e ri sb a s e do nd o m ( d o c u m e n to b j e c t m o d e l ) a n dw e bt e m p l a t e d o mi sas t a n d a r do fw 3 c t h es t r u c t u r eo fw e bp a g e s c a nb ew e l ld e s c r i b e dw i t hi t a c c o r d i n gt ot h ed e f i n i t i o no f d o m t h ep a p e rd e s c r i b e s t h es t r u c t u r eo f w e b p a g e sb yc o n s t r u c t i n gh t m lp a r s i n gt r e e b e c a u s em a n yw e bp a g e so nt h ei n t e m e ta r eb u i l tw i t hw e bt e m p l a t e s ,t h ep a p e r p r o p o s e san e ww a yo fi n d u c t i n gw e bp a g e sb yr e f e r e n c eo ft h ea c h i e v e m e n to ft h e f o r m e r t h ew a yo fi n d u c t i n gw e bp a g et e m p l a t e si nt h ep a p e ri sf o rt h ew e bp a g e s t h a ta r e1 a i do u tb yt a b l ee l e m e n t b yi n d u c t i n gw e bt e m p l a t e ,t h en o i s ei n f o r m a t i o ni n w e bp a g e sc a nb ee l i m i n a t e ds ot h a ti tc a nr a i s et h ep r e c i s er a t eo fi n f o r m a t i o n e x t r a c t i o n i n f o r m a t i o ne x t r a c t i o ni nt h ep a p e ri sb a s e do nt h ep a t ho fd o m t h ee x t r a c t i o n r u l ei sb a s e do nr e l a t i v ep a t hi n s t e a do fa b s o l u t ep a t h t h ee x t r a c t i o nr u l eb a s e do n r e l a t i v ep a t hc a nr e d u c et h ei m p a c to ft h ev a r i a n c eo ft h es t r u c t u r eo fw e bp a g e s b e s i d e s ,e x t r a c t i o nr u l eb a s e do nr e l a t i v ep a t hi ss e l f - a d a p t i v e w h e nt h es t r u c t u r e so f w e bp a g e sa r ec o m p l e t e l yd i f f e r e n t ,e x t r a c t i o nr u l ec a nb er e b u i l ta u t o m a t i c a l l y t h ep a p e rd e v e l o p sav i s u a lw e be x t r a c t i o na p p l i c a t i o nt ov e r i f yt h ef e a s i b i l i t yo f t h et h e o r i e sp r e s e n t e di nt h ep a p e r a sf o rt h ew e be x t r a c t i o na p p l i c a t i o n t h ep a p e r g i v e saf u l l i n t r o d u c t i o no fh o wt ob u i l th t m lp a r s i n gt r e e h o wt oi n d u c tw e b t e m p l a t e h o wt o g e n e r a t ee x t r a c t i o nr u l eb a s e do nr e l a t i v ep a t ha n dh o wt ou s e e x t r a c t i o nr u l et oe x t r a c ti n f o r m a t i o ni nw e bp a g e s a tl a s t ,t h ep a p e rp r e s e n t st h e r e s u l to fi n d u c t i n gw e bt e m p l a t e sa n de x t r a c t i n gw e bp a g e s f r o mt h er e s u l t ,i ti s e v i d e n tt h a tt h ew a yo fi n d u c t i n gw e bt e m p l a t e sa n dt h ew a yo fe x t r a c t i n gw e bp a g e s a r ec o r r e c ta n de f f e c t i v e k e y w o r d s :i n f o r m a t i o ne x t r a c t i o n 、d o m 、w e bt e m p l a t e 、e x t r a c t i o nr u l e 、r e l a t i v ep a t h n 中山大学硕士学位论文 基于d o m 和网页模板的信息抽取 第1 章引言 1 1 信息抽取技术的发展历史 信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 的目标是把文本里包含的信息进行结构 化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是 固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式 集成在一起【“。这就是信息抽取的主要任务。 从自然语言文本中获取结构化信息的研究最早开始于二十世纪六十年代中 期,这被看作是信息抽取技术的初始研究。然而,直到从二十世纪八十年代末, 信息抽取研究才蓬勃开展起来。这主要是归功于消息理解系列会( m u c ,m e s s a g e u n d e r s t a n d i n gc o n f e r e n c eo 从1 9 8 7 年开始到1 9 9 8 年,m u c 会议总共举行了七 届。各界m u c 会议都吸引了来自不同学术机构和业界实验室的人士进行信息抽 取比赛。m u c 会议要求每个参赛单位根据预定的知识领域设计系统,然后用该 系统处理相同的知识库,最后用一个官方的评分系统进行评分。比赛的主题丰富 多样,其中包括拉丁美洲恐怖主义活动、合资企业、微电子技术等。通过这一系 列的会议,信息抽取的各种规范和评价体系得到确立和不断的补充。 随着时代的进步,互联网成为人们不可或缺的部分。互联网上包含着丰富 的电子资源,为了应对信息爆炸带来的严重挑战,迫切需要一些自动化的工具帮 助人们在海量信息源中迅速找到真正需要的信息。于是,把互联网看作一个巨大 的知识库,就出现了w e b 信息抽取。 互联网上的信息主要包括以下三类2 1 【3 :自由文本,半结构化文本和结构化 文本。因此w e b 信息抽取技术可以划分为以下三种:基于自由文本的信息抽取 技术,基于半结构化文本的信息抽取技术和基于结构化文本的信息抽取技术。在 这三种技术中,第一种技术是最难的,因为自由文本没有标准的模式可以遵循, 必须靠人工或自动的方法从大量的自由文本中发掘其中的模式。第三种技术最为 简单,因为结构化文本的格式有严格的定义,因此这种信息是有章可循,易于抽 取。而对于半结构化文本,它是介于自由文本和结构化文本的一种文本,但是这 类文本在风格上常常是不合文法的。 中山大学硕二卜学位论文基于d o m 和网页模板的信息抽取 经过多年的发展,互联网技术层出不穷,从早期的静态网页技术过渡到动态 网页技术,如c g i ,a s p ,j s p ,a s p n e t 等。然而目前互联网上大部分的数据仍 然以h t m l 的形式存在。尽管h t m l 简单,易用,表现力好,但是以这种方式 发布盼瞬页缺乏模式信息和语义信息,使得应用程序难以应用,从而造成了不少 资源的浪费。就h t m l 语言而言,它属于半结构化文本。于是为了更有效的利 用互联网的资源,对基于半结构化文本的信息插取技术的研究成为了当前信息抽 取技术研究的热点。 1 2 信息抽取技术的国内外研究状况 从八十年代信息抽取从国外开始发展,发展到至今,信息抽取的范畴从自由 文本发展到半结梅化文本和结构化文本,信息抽取的学习方式也从手工方式向半 自动方式和全自动方式转变。在这期间,信息抽取研究取得了丰硕的成果,以下 是几个比较著名的信息抽取系统。 r a p i e r 系统1 4 1 :r a p i e r 系统是基于自由文本的抽取工具。它以一个文件 和一个填写好的指示要抽取什么信息的模板作为输入。这个模板是用于学习抽取 规贝4 从而生成抽取槽。信息抽取规则用模板名和槽名索引,由三部分组成:前填 充子,即一个匹配目标文本之前的文本的模式;填充子,即一个匹配目标文本的 模式;后填充子,即一个匹配紧接目标文本之后的文本的模式。r a p i e r 是单槽 盼,系统每次从一个输入文件中只能抽取一个记录。 w h i s k 系统1 5 :w h i s k 系统能处理的文本对象很全面,既适用于半结构化 文本、结构化文本,也适用于自由文本。系统采用指导学习算法,并且需要输入 一系列手工标注的训练实例。标注和学习过程是同步的。每次循环,系统将提交 一批实例让用户标注,系统则从用户标注的实例中归纳出规则。w h i s k 是多槽 盼,也就是它每次能从文件中抽取几个记录。 w i e n 系统【6 :w i e n 系统采用归纳学习法,它把标识了的包含用户感兴趣 盼信息的阿页作为输入实例,然后返回一个与各个已标识的网页一致的包装器。 这些输入的网页有一个预先定义的结构:h l r t 结构。h l r t 结构具有头分隔符、 左右分隔符( 在每个待抽取信息的左右) 和尾分隔符。系统通过寻找这些分隔符 从而把信息抽取出来。然而,由w t e n 系统生成的包装器不能处理嵌套结构和 2 中山大学硕士学位论文 基于d o m 和网页模板的信息抽取 不同类型的半结构化数据。 s r v 系统【7 】:s r v 是一个从文本文件中学习抽取规则的工具。它是建立在 一系列的单一或有关系的字符上。s r v 具有两个特性:简单特性和关系特性。 简单特性就是使用一个函数把一个字符转换成一些离散值,例如,字,标点或数 字。一个关系特性把一个字符映射成另一个字符,例如,开始字符或者下一个字 符。抽取规则是通过确定和归纳在训练集中的特性而得到的。s r v 是单槽的。 一s t a l k e r 系统【8 】:j 议己乏赢系统某甬指鲁事习酶算法归纳摘皈窥莉,训 练例子由用户提供。s t a l k e r 的输入有:一系列以字符为形式的训练集,这些 字符代表了待抽取信息的周边信息;对页面结构的一个说明,名叫e m b e d d e d c a t a l o gt r e e ( e c t ) 。s t a l k e r 采用线性覆盖算法,首先生成线性标志自动机, 然后系统试图覆盖所有的训练实例。当输入的字符串被接受时,状态机的状态将 会发生变化,这个过程直到所有的训练实例都被覆盖了才结束。通过使用e c t , s t a l k e r 可以处理嵌套的层次结构。 s o f t m e a l y 系统 9 】:s o f t m e a l y 系统使用有穷状态机( f s t ) 进行信息抽取的包 装器。一个f s t 包括输入和输出字母表,状态和边。为了处理结构变化,一个 f s t 状态可以有多条出边。在从文件中抽取信息前,包装器把输入的h t m l 字 符串分解成一个一个的字符,然后算法尝试从训练集中根据上下文的相邻属性的 分隔符推导抽取规则。最后,f s t 取出一系列字符作为输入然后通过上下文规则 匹配上下文分隔符去确定状态转换。 对中文信息的信息抽取研究起步比较晚,很多研究还是处于探索性阶段,真 正投入到实际应用的系统不多。其中比较出名的有新加坡肯特岗数字实验室开发 的一个基于自由文本和统计学的信息抽取系统,它参加了m u c 7 的中文命名实 体识别任务评测 1 0 1 。另一个是i n t e l 中国研究院中心在a c l 一2 0 0 0 上演示的一个 基于中文命名实体的信息抽取系统1 ,该系统是基于命名实体和它们之间的关 系的。 1 3 信息抽取技术的应用状况 信息抽取技术发展至今,已在不少领域得到成功的应用。例如:超市通过分 析交易数据,重新调整货物摆布,以提高销售:公司通过对以往客户记录的分析, 中山大学硕:七学位论文 基于d o m 和网页模板的信息抽取 决定哪些客户是潜在花费昂贵盼;调查局分析行为模式从而判断哪些人对受保护 的信息具有潜在威胁;医师分析病人历史和当前用药情况,不仅诊断用药而且预 测潜在的问题;税务局分析不同囝体的交所得税的记录,发现异常模型和趋势; 军方通过分析有线新闻和广播电视的文本来找到和总结恐怖分子活动记录i l “。 随着信息抽取技术的不断发展,未来的信息抽取技术的应用前景将会更加广 阔。信息抽取技术将会从一般盼面向文本、网页的抽取向全新的领域发展。 遥感信息抽取是信息抽取技术的一个全新领域,它是从遥感图像获取所需信 息的基本过程,即根据各专业的特殊要求,运用解译标志和实践经验与知识,从 遥感影像上识别目标,定性、定量地抽取出目标的分布、结构、功能等有关信息, 并把它表示在地理底图上的过程。对遥感信息抽取处理,一般以物体的光谱特征、 几何特征及其它辅助特征为依据进行分类。将这些庞杂的采样抽取信息与已经注 册入库的信息特征模板进行一对一的比对,即可实现对遥感图像的识别,从而最 终完成地形信息的自动量化过程【1 3 信息抽取技术也可以用于生物特征识别 。由于人体特征具有人体所固有 的不可复制的惟一性,这一生物密钥无法复制、失窃或被遗忘。用于识别的生理 特征有手形、指纹、脸形、虹膜、视网膜、脉搏、耳廓等,行为特征有签字、声 音、按键力度等。基于这些特征,人们已经发展了以手形识别、指纹识别、面部 识尉、发音识剐、虹膜识另4 、签名识另等人体生理特征和行为特征来识别身份的 技术。将生物特征识另4 技术弓 入对恐怖分子的个体打击则是信息抽取技术在这一 全新领域的又一应用。 1 4 信息抽取技术与其它相关技术的比较 1 4 1 信息抽取技术与信息检索技术的比较 信息检索包括存储数据的恢复与解释、数据编录、分类、信息内容分析、按 用户要求搜索以及向用户提供与分发信息等一整套计算机技术与信息工作1 4 。 信息抽取与信息检索主要存在着以下三方面的差异: 功能不回:信息检索系统主要是从大量的文档集合中检索出符合用户需求相 关的文档歹口表;而信息抽取系统则直接从大量的文档中获取用户感兴趣的信息。 中山大学硕士学位论文 基于d o m 和网页模板的信息抽取 处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把文本看 成词的集合,但不需要深入分析文本;而信息抽取往往要对文本中的句子以及篇 章进行分析处理后才能完成。 适用领域不同:由于采用的技术不同,信息检索系统通常是领域无关的,而 信息抽取系统则是领域相关的。 信息抽取与信息搜索是相辅相成,紧密联系的。实际应用中,常常首先运用 信息搜索技术搜索需要的文档集合,再运用信息抽取技术从这些文档集合中把信 息抽取出来。 1 4 2 信息抽取技术与网页挖掘技术的比较 网页挖掘是数据挖掘的一个分支,网页挖掘是指从大量、异质、分布的网页 文档的集合中抽取感兴趣的、有用的模式和隐含信息,其中包括了内容挖掘,结 构挖掘和使用记录挖掘t ”1 互联网上的信息浩如烟海,单纯的手工构造信息抽取系统是不灵活和难以扩 展的,因此,大部分的信息抽取系统是着眼于对特定的网页进行抽取。其它则 般使用机器学习和数据挖掘的方法来半自动或全自动的获取抽取规则。因此,可 以把网页挖掘技术看成是信息抽取技术的一个子集【1 7 】。 1 4 3 信息抽取技术与自动文摘技术的比较 自动文摘是通过对文本进行分析,寻找最能代表原文的内容,然后通过摘录 或概括的方法压缩文本,最后重组原文内容生成文摘【l8 1 。与信息抽取相比,自 动文摘没有预先选定目标,需要对各种各样的内容进行处理:而信息抽取则只对 有用的文本段进行有限深度的分析。自动文摘产生出来的文摘往往质量较低,而 且容易产生不全面、不连贯和冗余等问题;而信息抽取是针对相关领域的文本进 行抽取,因此效果和质量显著要高。 1 5 本文的工作 本文研究的信息抽取是基于d o m ( 文档结构模型) 和网页模板的。在实现对 中山大学颐士学位论文 基于d o m 和网页模板的信息抽取 具有相似结构的网页集进行抽取的过程主要经过以下步骤。 ( 1 ) 生成h t m l 解析树 每个网页都可以厝d o m 来描述其结梅,于是本文设计了h t m l 解析树来 模拟d o m 的功能,从而更好的对网页进行操作。 ( 2 ) 生成阿页模板 网页中存在着用户不感兴趣的噪音信息。本文提出了一种归纳网页模板的方 法,这种方法适用于以表格为布局元素的网页。通过归纳网页模板,能够把网页 中的噪音信息过滤掉,从而缩小信息抽取的范围。 ( 3 ) 生成抽取规则 本文提出了一种基于相对路径的信息抽取方法。使用这种方法对具有相似结 构的网页进行信息抽取能取得比较高的准确率。并且,即使网页结构发生改变, 抽取规则也能自动重新生成。 ( 4 ) 抽取信息 运用生成的抽取规则,对具有相似结构的网页进行信息抽取。 为了方便信息抽取工作的进行,本文最后开发了一个网页抽取器,从而把以 上步骤统一起来,大大地方便了信息抽取工作的进行。 6 中山大学硕士学位论文 基于d o m 和网页模板的信息抽取 第2 章信息抽取技术分析 2 1 信息抽取的关键任务 信息抽取技术对于把互联网当成是知识来源的人来说是至关重要的。互联网 上的信息主要是以文本的形式存在。信息抽取系统把信息从不同文档中拙取出 来,并且存入数据库中。因此,成功的信息抽取系统将能够把互联网变成巨大的 数据库。 然而,构建一个成功的信息抽取系统不是一件容易的事情,它必须要解决以 下几个关键任务【1 9 j 。 1 命名实体识别 命名实体识别是信息抽取中最基本的任务。实现从众多信息中标识并分离出 相关的命名实体,这是正确理解文本的基础。狭义地讲,命名实体是指现实世界 中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标识符表 示,如人名、组织名、公司名、地名等。广义地讲,命名实体还可以包含时问、 数量表达式等。 命名实体识别的难点在于:在不同领域、场景下,命名实体的外延有差异; 数量巨大,不能枚举,难以全部收录在词典中;某些类型的实体名称变化频繁, 并且没有严格的规律可以遵循;表达形式多样;首次出现后往往采用缩写形式。 命名实体识别的方法主要分为:基于规则的方法和基于统计的方法。两种方 法各有其优缺点。基于规则的方法性能比较好,但编制过程比较耗时且容易产生 错误,需要经验丰富的语言学家刁能完成。而基于统计的方法利用人工标注的语 料进行训练,这过程不需要专家指导,并且可以在较短时间内完成,但当移植到 新系统的时候要重新训练。 2 句法分析 通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集 合,是计算机理解自然语言的基础。随着对信息抽取研究的发展,部分分析的技 术逐渐受到人们的关注。首先,需要抽取的信息只是领域中的部分事件和关系, 并且在文档中的出现位置是有规律可以遵循的。其次,对每一个句子的理解,并 中山大学硕:l 学位论文 基于d o m 和嚼页模板的信息抽取 不需要它的完整结构,只需要识另b 其中的部分片断问的某些特定关系。 3 篇章分析与推理 信息抽取中的篇章分析是相当困难的。首先,用户关心的事件和关系往往散 布于文本的不回位置,其中涉及到的实体通常可以有多种不同的表达方式,并且 还有许多事实信息隐含于文本之中。其次,大多数信息抽取系统只能识别和保存 与需求相关的文本片段,从中抽取出零碎的信息,这样就有可能出现遗漏关键信 息的情况。再次,目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分 析理论大多是面向人、面向口语的,需要借助大量的常识。因此,良好的篇章分 析和推理能力是信息抽取系统的必不可少的一部分。 4 知识获取 信息抽取系统需要强大知识库的支撑。一般来说,这个知识库至少应该包括 一部诃典,一个抽取模式库。词典是用来存放通用诃汇以及领域词汇的静态属性 信息,而插取模式库也划分为通用部分和领域专用部分,但通常是面向特定领域 的。这个原因决定了信息抽取工具的抽象层次不高,从而很难达到复用的目的。 如果要把一个信息描取系统移植到新的领域场景开发者必须要为系统重新编制 大量的领域知识。 领域知识的获取通常是采取以下两种策略:手工方式,半自动方式或全自动 方式。手工方式比较简单,但需要比较多的人工干预。半自动或全自动方式采用 有指导的、无指导的或间接指导的机器学习技术从文本语料中自动或半自动获取 领域知识,人工干预程度较低。实际上,两种策略不是完全对立的,只是自动化 程度高低不同而已。 2 2 信息抽取的主要研究方法 信息抽取的研究方法众多,根据不同的标准,可以有不同的分类方式。以下 是几种比较常甩的信息抽取研究方法【2 0 l 。 1 基于自然语言方式的信息抽取 基于自然语言方式的信息抽取技术主要适用于源文档中包含大量文本的情 况。这种方式通常使用过滤技术,词性标记和词汇语义标记去建立短语和句子元 素之间的关系来获得抽取规贝j j _ 。这些规则是基于语法和词法约束,所以有助于确 中山大学硕士学位论文基于d o m 和网页模板的信息抽取 定在文件中相应的信息。这种技术需要给定人工标记的样本来进行学习,当需要 抽取的网页发生了结构上的变动后,需要重新学习。采用这种方式构建的系统有 r a p i e r l 4 1 ,w h i s k 5 1 ,s r v l 7 i 等。 2 基于包装器归纳方式的信息抽取 基于包装器归纳方式的信息抽取技术是从一些特定的训练集中生成基于分 隔符的抽取规则。这种技术与基于自然语言处理技术的不同在于这种技术不是依 靠语言约束,而是依靠其中数据的结构特性。采用这种方式构建的系统有 w i e n 6 1 ,s t a l k e r 8 1 ,s o f t m e a l y 9 】等。 3 基于o n t o l o g y 方式的信息抽取 基于o n t o l o g y 方式的信息抽取技术主要是利用对数据本身的描述信息实现 抽取,对网页结构的依赖较少。它主要思想是构造一个关于某领域的完全知识库, 其中定义了该领域的各种元素的抽取模式以及它们之间的联系。在抽取信息时根 据知识库中的信息对网页进行处理。这种方法在实际应用中往往可以达到比较高 的准确率和在特定领域的通用性。不过,这需要事先构造一个完整的o n t o l o g y 库,而构造这样一个o n t o l o g y 库需要专家投入相当多的时间。而且,o n t o l o g y 很难得到准确的定义。这方面最具代表性的工具是由b r i g h a my o u n gu n i v e r s i t y d a t ae x t r a c t i o ng r o u p 2 1 1 开发的信息抽取工具。 4 基于h t m l 结构的信息抽取 基于h t m l 结构的信息抽取技术是依靠h t m l 文件固有的结构特性进行信息 抽取的。在进行信息抽取之前,先把h t m l 文件转换成解析树,这个解析树反 映其层次结构。接着,半自动地或者自动地生成抽取规则,并把它应用于这棵树 上。采用这种方式构建的系统有w 4 f | 2 2 1 ,l i x t o 2 3 1 等。 2 3 信息抽取系统的体系结构 h o b b s 曾提出一个信息抽取系统的通用体系结构【2 4 1 ,他认为信息抽取应该包 括以下过程: 1 文本分块:输入文本,然后把文本分割成不同的块。 2 预处理:把文本块转换为句子序列,每个句子由词汇项及相关的属性组 成。 中山大学硕士学位论文基于d o m 和i 耐页模板的信息抽取 3 过滤:把其中没有关联的甸子过滤掉。 4 预分析:在诃汇项序歹| j ! 中识别小型词语结构,如名诃短语、动词短语、 并列结构等。 5 分析:为小型诃语结构和诃汇项的序歹建立完整分析树或分析树片段集 合。 6 片段组合:如果上一步没有得到完整的分析树,则需要把分析树片段集 合或逻辑形式片段重新组合成一棵分析树或其他逻辑表示形式。 7 语义解释:根据分析树或分析树片段集合,通过分析,生成语义结构、 意义表示或其它逻辑形式。 8 词汇消歧:消除含有歧义的语义结构表示。 9 共指消解或篇章处理:通过确定同一实体在文本不同部分中的不同描述 将当前的语义结梅表示合并到先前的处理结果中。 1 0 模板生成:从得到的文本的语义结构表示生成最终的模板。 当然,在信息抽取系统中不是所有的模块都是必须的,以上的处理过程也不 一定是唯一的。但一个信息抽取系统应当包含以上模块中描述的功能。 2 4 信息抽取系统的评价标准 信息抽取技术的评测首先采用经典的信息检索评价指标,即回召率和查准 率,但在这基础上稍稍改变了其定义。经修订后的评价指标可以反映信息抽取系 统中可能产生的过度概括现象,即数据在输入中不存在,但却可能被系统错误地 产生出来。回召率等于系统产生正确答案的数目除以文本中所有可能的答案数目 ( 包括系统得蓟的和系统不应该忽略的) ,查准率等于系统产生正确答案的数目 除以系统产生的所有答案的数目。回召率和查准率的计算公式如下 ”1 : r = 札m ( 2 1 ) p = n c | n ?q 其中r 是召回率,p 是抽准率,m 表示抽取结果应抽取的对象总数,m 表 示实际抽取静对象总数,c 表示抽取结果正确的对象数目。r 和p 的取值在0 和l 之问,通常存在反比的关系,即p 增大会导致r 减小,反之亦然。 l n 中山大学硕士学位论文 基于d o m 和网页模板的信息抽取 评价一个系统时,应综合考虑p 和r ,但同时要比较两个数值,毕竟不能做 到一目了然。许多人提出合并两个值的办法。其中包括f 值评价方法【1 5 】: f = 等8 l p + r f 2 - 3 1 其中p 是一个预设值,决定对p 侧重还是对r 侧重。通常设定为1 。这样 用f 一个数值就可以看出系统的好坏。 中山大学硕= 七学位论文基于d o m 和网页模板的信息抽取 第3 章h t m l 语言与x m l 语言简介 3 1h t m l 语言简介 3 1 1h t m l 的产生背景 h t m l ( 超文本标记语言) 是用来仓建w e b 文档的语言。它定义了形成w e b 文档结构的元素的语法和放置的方法。所有的网页元素都是由特定的标签确定 的,这些标签规定了浏览器显示内容的方式。 在h t m l 之前,存在着s g m l ( 标准通用标记语言) ,它建立了按照结构 来描述文档的系统。s g m l 是一种非常强大的标记语言,它已经被美国政府以及 其合同商、大型制造公司、信息技术发布者广泛采甩。出版商也经常使用s g m l 制作各类纸张文档,如书籍、报告、参考手册等。s g m l 还被用来将技术规范应 用于生产制造。然而,s g m l 相当复杂,它的应用需要投入大量资金,以致大多 数商业用户和个人用户无法享受这项技术所带来的好处。 由于s g m l 难以得到广泛应用,w 3 c 对s g m l 进行了改造,创造了h t m l 语言。h t m l 是一种特殊的s g m l 实现,它遵守s g m l 的语法规则,但是它包 含允许在h t m l 文档中出现的特定的s g m l 实现。h t m l 简单易用,而且使用 成本低,所以很快就受到人们的关注,并成为i n t e m e t 上的标准w e b 语言,一直 延用至今。依照w 3 c 的说法,h t m l 4 0 1 是h t m l 的最高版本,也是h t m l 的终点。 3 1 2h t m l 的基本语法 h t m l 语言的语法相对简单,总的来说可以分为标签,属性,内容三部分【2 5 】。 1 标签 每一个标签都有一个标签名称,有些标签后面还有一个可选的属性列表,所 有这些都放在开始和结束括号之间。最简单的标签是用括号括起来的一个名称, 比如 和 。更复杂的标签贝口具有一个或多个属性,用来指定或者修 改标签的行为。大多数标签都有一个开始标签和一个结束标签,而标签影响的范 1 , 中山大学硕士学位论文 基于d o m 和网页模板的信息抽取 围就是它们之间的内容。然而,少数标签没有结束标签,如: 、 等。 2 属性 属性是添n - n 标签中以便扩展或者修改标签的动作。属性只能在开始标签里 面。可以在一个标签中添加一个或多个属性,彼此之间用一个或者多个空格分隔, 标签的动作与属性出现的次序没有关系。大部分属性都含有值,属性值要在属性 名称后面的等号之后。 3 内容 在h t m l 文档中,除标签以外,几乎所有部分都被定义成内容。内容大多 是文本。文档的内容使用一种特定的字符集来进行编码,默认设置为i s o 一8 8 5 9 1 拉丁字符集。这个字符集是传统a s c i i 字符的一个超集。除了普通文本外,h t m l 还提供了一种显示特殊文本字符的方式,这些字符通常不能够包含在源文档里, 或者是有其它用途,如“ ”等。另外还有一种文本是注释,它出现在h t m l 源 文档中,但浏览器不显示它们。注释都放在特殊的“ ”标记元素中 间。 一个典型的h t m l 文档是由h e a d 和b o d y 两个部分组成的。h e a d 包含关于 文档的信息,如描述文档的元信息。b o d y 则包含实际的文档内容。以下就是一 个典型的h t m l 文档: 文档标题 文档内容 中山大学硕二卜学位论文基于d o m 和网页模板的信息抽取 3 2 x m l 语言简介 3 2 1x m l 的产生背景 尽管h t m l 适合在互联网上应用,但它女口存在着不少的缺点:u r l 地址变 化需要手工更改链接,维护工作量大:页面没有类似于数据库的结构,对搜索不 利;对双字节文字支持不够,可扩展性差:科学家无法用h t m l 书写数学公式、 化学方程式以及分子晶体结构。 1 9 9 6 年,w 3 c 开始设计一种可扩展的标记语言,使其能够将s g m l 的灵活 性和强大功能与已经被广泛采用的h t m l 结合起来。这就是x m l 语言。x m l 盼设计是出于易用性考虑的,它在s g m l 的基础上,通过省去s g m l 的可选功 能,使得其语法简单易用。此外,x m l 还保持了对现有的面向s g m l 的系统的 向下兼容性,这样,用x m l 标记过的数据就仍然可以在这些系统中使用,为基 于s g m l 的行业节省了大笔的改造费用。同时,x m l 与w e b 的结合也使得它 们更便于被访问。其中它的一个最突出的特点就是能把数据和表现完全分离。这 对于互联网上的知识共享是很有好处的。x m l 不是h t m l 的直接代替品。x m l 文档本身就是数据,数据的表达是通过x m l 的样式化来实现的。x m l 的样式 保存在样式单中,这个样式单可以用于多个文档中,以产生类似的效果。 1 9 9 8 年2 月,x m l i :0 成为了w 3 c 的推荐标准。发展到现在,x m l 的最 新版本是x m l l 0 第三版本。 3 2 2x m l 的基本语法 x m l 的基本语法较h t m l 语法严格,正是这个原因使得应用程序更容易操 控x m l 。根据w 3 c 对x m l 盼定义,x m l 的基本语法大致如下: 1 元素 元素是x m l 标记的基本组成部分。它们可以包含其它的元素、字符数据、 字符引用、实体引用、注释。x m l 的元素的结构与h t m l 基本相同,x m l 也 i 可样使用尖括号来界定标签一一以小于号( ) 结尾。但是, 与h t m l 不同,几乎所有盼x m l 标签都是大小写敏感的,因r 为这样能满足x m l 中山大学硕士学位论文基于d o m 和网页模板的信息抽取 国际化的设计目标和简化处理过程。标签按照分类有起始标签、结束标签和空元 素标签。 2 属性 属性是附加在元素上的信息,它们包括一个名称、数值的组合。属性必须是 分隔开的字符串,其中可能包含实体引用、字符引用和文本字符。在x m l l 0 标 准中定义了两个特殊的属性:x m l :s p a c e 和x m l :l a n g 3 引用 x m l 的引用包括了字符引用和实体引用。字符引用是一个字符文字形式的 替代品,当对该字符的文字形式直接处理会导致违反x m l 对格式正规的要求时, 它会起到非常重要的作用。字符引用用来表示一个可显示的字符,它由十进制或 十六进制的数字前面加上”& 撑”或”& 搬”,后面紧跟分号组成。实体引用允许在元 素内容或属性值中插入任何字符串,这就为字符引用提供了一种助记的替代方 式。实体引用是一种合法的x m l 名字,前面带有个符号”& ”,后面跟着一个 分号。 4 注释 注释的作用在于向文档插入提示。注释可以出现在文档中除其它标记以外的 任何地方。x m l 注释的基本语法是: 。 5 c d a t a 部分 c d a t a 部分是一种用来包含文本的方法。当要包含的一个文本含有标签的 时候,使用这种方法,文本中的标签就会被忽略掉。 3 2 3x m l 数据文件 x m l 目前正在成为各种数据特别是文档的首选格式。由于它具有标记不同 字段的能力,使得搜索变得更简单和动态化。x m l 把内容从演示格式中解放出 来,使材料可以多次重复使用。x m l 可以充当公共传输工具,以中性格式进行 数据传输。除此以外,x m l 还可以处理各种数据,包括文本、图像和声音,并 且可以由用户进行扩展以处理任何特殊类型的数据。 x m l 是一种流行的、与平台无关的连接方式。x m l 可以将数据在不兼容的 系统之间进行交换。在现实中,计算机系统和数据库所包含的数据格式不兼容。 中山大学硕:l 学位论文基于d o m 和网页模板的信息抽墩 对于开发人员来说,最浪费时间的就是在互联阿上的这些系统之间进行数据交 换。而将数据转换成x m l 可以大大地降低这种复杂性,所创建的数据可以被多 种不f 两类型的应甩程序阅读。 以下就是一个x m l 数据文件的例子。 t h o m a s a t k i n s 从这个x m l 数据文件例子中,可以看到x m l 数据是自描述的,每个标签 都有自己的名字,而这些名字与文档所描述的现实世界中的情况是密切相关。并 且,x m l 严格的语法和规则韵层次结构,大大方便了解析器对x m l 文档的分 析和内容搜索。 1 6 中山大学硕: :学位论文 基于d o m 和网页模板的信息抽取 第4 章基于d o m 的信息抽取 4 1d o m 模型 d o m 在网页浏览器领域中并不陌生。窗口、文档和历史等对象都被认为是 浏览器对象模型的一部分。但是,各种浏览器实现这些对象的方式不尽相同。为 了创建标准化的方法来访问和操作文档结构,w 3 c 提出了d o m 规范。 w 3 cd o m 是一种独立于语言和平台的定义d 7 。它定义了构成d o m 的不 同对象,但没有提供特定的实现。d o m 为编程语言提供了一个开放接口,使得 d o m 可以使用任何编程语言实现。利用d o m 中的对象,开发人员可以对文档 进行读取、搜索、修改、添加和删除等操作。d o m 为文档导航以及操作h t m l 和x m l 文档的内容和结构

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论