(通信与信息系统专业论文)web内容抽取及语义识别算法研究.pdf_第1页
(通信与信息系统专业论文)web内容抽取及语义识别算法研究.pdf_第2页
(通信与信息系统专业论文)web内容抽取及语义识别算法研究.pdf_第3页
(通信与信息系统专业论文)web内容抽取及语义识别算法研究.pdf_第4页
(通信与信息系统专业论文)web内容抽取及语义识别算法研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(通信与信息系统专业论文)web内容抽取及语义识别算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着i n t e m e t 的发展,互联网作为个功能强大的网络媒体,它实际上 是一个双刃剑,它在作正面的媒体宣传和导向时,也难免被敌对势力所利 用。因此,基于网页内容的信息安全技术研究已经成为信息安全的一个重 要分支。而基于内容的信息安全的具体实现中最有效的就是文本分类,快 速而准确地识别网页主题内容是提高分类准确度的关键技术之一。本文就 w e b 页面结构分析和主题内容提取以及对抽出文本的平面分类进行了研究。 首先,本文介绍了w e b 网页的特点和h t m l 语言以及d o m ( d o c u m e n t o b j e c tm o d e l ) 树的特点和应用。其次,文中介绍了相关研究工作,对比分 析了几种w c b 页面结构分析和主题内容提取的方法,并在此基础上提出了自 己的两种方法,分别是基于统计的主题内容提取方法和基于新型坐标树的 主题内容提取方法。基于统计的方法是一种简单而有效的方法,它从本质 上抓住了网页的设计特征和h t m l 源代码的特征,通用性高。实验表明该方 法切实可行,具有较高的准确率。但该方法只对主题文字内容有效,对相 关连接和相关图片等多媒体信息就显得力不从心。因此,本文又提出新型 的基于坐标树的方法,该方法针对d o m 缺乏位置信息的不足,加入了坐标 信息生成坐标树,并且还给出了能反映网页空间关系的图模型。通过将 h t m l 文档转换为坐标树,结合位置特征和空间关系可对网页进行分析和提 取内容。对来自1 2 0 个网站的50 0 0 个网页进行测试后的结果表明该方法可达 至1 j 9 3 7 8 的准确率,并且对相关连接和相关图片的抽取有较高的准确率和 召回率。最后,本文对文本分类做了简单研究,提出决策支持向量机的分 类法,对抽取的文本内容进行分类,结果比较满意。 关键词页面结构分析;内容抽取;d o m ;坐标树;启发式规则;标记统计 文本分类 燕山大学工学硕士学位论文 a b s 仃a c t w i mt h ed e v e l o p m e n to f t h ei n t e r n e t t h ew e ba sap o w e r f u ln e t w o r km e d i a , i sa c t u a l l yad o u b l e f a c es w o r d w h e r e a sp u b l i c i z ea n dg u i d ea c t i v e l y ,hi sh a r d t oa v o i db e i n gb yh o s t i l ef o r c e s ot h es t u d yo ft h ei n f o r m a t i o ns e c u r i t y t e c h n o l o g yo nt h ew e b h a sa l r e a d yb e c a m ea ni m p o r t a n tr e s e a r c hb r a n c ho ft h e i n f o r m a t i o ns e c u r i t y a n dt e x tc l a s s i f i c a t i o ni st h em o s te f f e c t i v ew a yt oc a r r y o u tt h ew e bi n f o r m a t i o ns e c u r i t y ,e x t r a c t i n gt h et o p i c a lc o n t e n ta c c u r a t e l ya n d e f f i c i e n t l yi sak e yt e c h n i q u et oi m p r o v et h ea c c u r a c yo fw e bc l a s s i f i c a t i o n s y s t e m t i l i sp a p e rd o e ss o m er e s e a r c h0 nw e bp a g el a y o u ta n a l y s i sa n dt o p i c c o n t e n te x t r a c t i o na n dt e x tc l a s s i f i c a t i o no ne x t r a c t e dt e x t a tf i r s t ,t h ec h a r a c t e r i s t i c so f t h ew e b p a g ea n dh t m ll a n g u a g ea sw e l la s t h ec h a r a c t e r i s t i c sa n da p p l i c a t i o n so fd o mt r e ea r ei n t r o d u c e d s e c o n d l y , r e l a t e dw o r k sa r ei n t r o d u c e da n dc o n t r a s ta n a l y s i so fs o m em e t h o do nw e bp a g e l a y o u ta n a l y s i sa n dt o p i cc o n t e n te x t r a c t i o ni sm a d e o nt h i sb a s i s ,o u rm e t h o d s - - m e t h o db a s e do ns t a t i s t i c sa n dm e t h o db a s e do nc o o r d i n a t et r e ea r ep r o p o s e d t h em e t h o db a s e do r ls t a t i s t i c si se a s ya n de f f e c t i v e w h i c hm a k e su s eo ft h e c h a r a c t e r i s t i c so f t h ew e bd e s i g na n dh t m ls o u r c ec o d ei nn a t u r e ,a n dh a sh i 【曲 a c c u r a c y 1 1 1 ee x p e r i m e n t ss h o wt h a tt h em e t h o di s f e a s i b l ea n do fg o o d p r e c i s i o n h o w e v e r , i ti so n l yg o o df o rt o p i ct e x ta n dc a nn o te x t r a c tt h e m u l t i m e d i ai n f o r m a t i o nw i 也r e l a t e dl i n k sa n dr e l a t e dp i c t u r e s s oan o v e l m e t h o db a s e do nc o o r d i n a t et r e ei sp r o p o s e d w h i c hc o n s i d e r i n gt h el a c ko f p o s i t i o ni n f o r m a t i o no ft h ed o mt r e e ,a d dc o o r d i n a t ei n f o r m a t i o ni no r d e rt o c r e a t ec o o r d i n a t et r e e ,a n db r i n gf o r w a r dt oag r a p hm o d e l r e f l e c t i n gt h es p a t i a l r e l a t i o n b yt r a n s f o r m i n gh t m ld o c u r n e n t si n t oc o o r d i n a t et r e e s t h ew e b p a g e sa r ea n a l y z e da n de x t r a c t e db a s e du p o nt h ef e a t u r e so fp o s i t i o na n ds p a t i a l r e l a t i o n s e x p e r i m e n tr e s u l to na s e to f50 0 0w e bp a g e sf r o m1 2 0d i f f e r e n ts i t e s t t a b s t r a c t s h o w st h a tt h ea p p r o a c hc a r la c h i e v e9 3 7 8 i nt e r m so fa c c u r a c na n di ta l s o h a sb e u e rp r e c i s i o na n dr e c a l lo ne x t r a c t i o no ft h er e l a t e dl i n k sa n dr e l a t e d p i c t u r e s f i n a l l y , t h e r e a r es o m es t u d i e so nt e x t c l a s s i f i c a t i o n ,at e x t c l a s s i f i c a t i o na l g o r i t h mt h a ti sb a s e do ns v m - d e c i s i o nt r e ei sp r e s e n t e d t h e r e s u l to f 也et e s to ne x t r a c t e dt e x ti ss a t i s f i e d k e y w o r d sp a g el a y o u ta n a l y s i s ;c o n t e n te x t r a c t i o n ;d o m ;c o o r d i n a t et r e e h e u r i s t i cr u l e s ;t o k e n ss t a t i s t i c s ;t e x tc l a s s i f i c a t i o n l l i 燕山大学硕士学位论文原创性声明 本人郑重声明:此处所提交的硕士学位论文( ( w e b 内容抽取及语义识 别算法研究,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进 行研究工作所取得的成果。据本人所知,论文中除已注明部分外不包含他 人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和 集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。 作者签字训抱锨 日期:如“年钥罗日 燕山大学硕士学位论文使用授权书 ( ( w e b 内容抽取及语义识别算法研究系本人在燕山大学攻读硕士学 位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学 所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。本人完 全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关 部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕 山大学,可以采用影印、缩印或其他复制手段保存论文,可以公布论文的 全部或部分内容。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密曰。 ( 请在以上相应方框内打“4 ”) 作者签名: 导师签名 胡 芭锨 日期:从年争月譬日 日期:撕牛月占日 移1 、 7 第1 章绪论 1 1引言 第1 章绪论 i n t e m e t 是计算机出现以来甚至是人类有史以来最伟大的创举,它改变 了全球通讯和信息资源共享的方式,它把各种各样的资源从经济、科技、 教育到体育、艺术联系在一起,构成了一个巨大的网络资源库。其中 w w w ( w o r l dw i d ew e b ) 的发展最为迅速,已经发展成为拥有约上亿用户和 几千万个站点、十几亿个网页的巨大分布式信息空间,而且这个数字仍以 每4 至6 个月翻一番的速度迅猛增加。 现在,w e b 已经发展成为一个全球的、巨大的、分布和共享的信息空 间。人们越来越依赖于w e b 来获取信息。我们可以随时从w e b 上查找所需要 的信息,w c b 作为一个庞大的资源库,给我们的学习和生活带来了巨大的 便利。然而,由于w w w 是一个虚拟的开放环境,任何人和任何团体都可以 在其上发表文章或言论和上载各种媒体资料。有些文章或言论散布谣言或 攻击国家制度、人权状态,对党和国家领导人进行人身攻击,有些图片或 视频片段含有不健康内容,对未成年人造成不良影响。所以,w e b 实际上是 一个双刃剑,它既可以作为有效的传媒工具、作正面的媒体宣传和导向, 也可以被敌对势力所利用、成为传播反动言论和思想的武器,起到很大的 破坏作用。因此,如何扬长避短,发挥网络的正面作用,成为人们关注的 焦点。由此而生的基于网页内容的信息安全技术研究已经成为信息安全的 一个重要研究分支。 在基于内容的信息安全的具体实现中最有效的就是文本分类,它把各 种各样的信息通过给定的标准或特征进行分类,内容不符合要求的网页将 禁止在网络中传输和扩散。但是w e b 页面不像传统的文本那样整齐、干净, 其中包含了大量噪声,例如:为了增强用户交互性而加入的s c r i p t ,为了便 于用户浏览而加入的导航链接,出于商业因素所加入的广告链接,这些因 燕山大学工学硕士学位论文 素的存在,大大影响了分类的准确性。 如果分类系统可以以网页的主题内容为处理对象,无疑将大幅提高处 理结果的准确性。因此,为了有效地解决w w w 上内容安全问题,一般应首 先分析w e b 页面结构,并提取相应的逻辑完整的单元中媒体的内容,然后 进行语义分类。 1 2 课题的提出及意义 本课题来源于国家自然基金项目【项目号:6 0 4 7 2 0 8 2 。目的是分析w e b 页面布局结构并找到主题内容,即建立一个w e b 主题内容提取的理论模型。 w e b 上信息正在爆炸式地增长,各种各样的公用信息被大量分发。 w w w 将全世界不同地点的相关信息资源有机的编制在一起,它以超级文本 的方式向用户提供多媒体信息服务,用户只要操纵计算机的鼠标器,就可 以从全世界任何地方得到所需要的文本、图像、声音和影视信息。 不幸的是,w e b 实际上是一个双刃剑,要想引导w e b 健康发展,就需要 对其中的信息进行过滤,禁止负面内容的传播。w e b 网页结构布局分析和内 容提取是w e b 内容安全分析的第一步。 尽管作为信息主要载体的h t m l 提供了一种方便地向读者呈现信息的 方法,但她并不能满足一个很好的可以从中抽取与数据驱动的服务或应用 程序相关的信息结构。这就为内容提取带来了困难。并且,由于各个网站 资源的异构性,很难准确地从大量的网页资源中发现用户需要的信息。 上述问题的出现是由w e b 信息描述方式引起的。现有的w e b 网页大部分 还是由超文本标记语言h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 描述的。h t m l 没有严格的语法限制,也没有清晰的语义,再加上人们为了漂亮的显示效 果而采用的j a v a s c r i p t 等脚本,使得h t m l 网页代码冗长、混乱,几乎淹没 了有用信息。所以,现在的w e b 还停留在“人可理解”的层次,距“机器 可理解”还有很长的距离。 w e b 页面文本的特点与普通文本相比较,w e b 页面文本的特点主要体现 在如下几个方面。 第1 章绪论 f 1 ) 结构松散目前存储在介质上的w e b 页面主要是用h t m l 语言标记 ( t a g ) 的文本文件,h t m l 是由许多t a g 对( 标签) 组成,每个特定的t a g 对具有特 定的意义,文本可以在页面的不同地方自由出现。w e b 页面的文本字串缺 乏普通文本中字串的属性,如位置信息( 标题、小标题、段首和段尾等) 。 ( 2 ) 主题杂合w e b 页面的内容和主题相对比较松散,一个页面往往包 含若干主题。为了显示其丰富的内容,许多网站都尽可能地在其页面,尤 其是首页中放上各种内容和超链接,使页面中文本有时可多达1 干到几千 字。 ( 3 ) 处理不同网页文本的内容处理也有异于传统文本处理。网络是一 个虚拟的世界,包含了一种特殊的文化。比如,网虫喜欢把“东西”说成 “东东”,将“大侠”说成“大虾”,将“漂亮妹妹”说成“p p m m ”, 而“网虫”一词本身也是一种刚流行的称呼。这些词,在现代汉语常用词 典里一般是查不到的。即使查到了,意思也大相径庭。比如,网虫嘴里的 “恐龙”绝对不是灭绝了几千万年的动物,而是专指那些上网的长得不好 看的女孩。因而传统的分词和匹配等处理方法在处理w e b 页面时效果受影 响。 ( 4 ) 处理要求低用户感兴趣、需要深入研究的网页其实比例很低,因 此,w e b 页面文本的主题的自动提取,由于其主要目的是加快网络用户对 页面的浏览速度,因此并不像用手工对数据库文献做主题标引那样,要求 有很高的准确率,而只要达到一定的准确率和覆盖率,就可以满足实用要 求。 为了应对信息爆炸带来的严重挑战,为了保证网络上的信息健康安全, 迫切需要一种有效的方法帮助人们在海量的信息源中迅速找到真正需要的 信息。w e b 页面结构分析和内容提取技术研究正是在这种背景下兴起的, 已经成为当前研究的热点。 1 3 论文主要工作 本文受国家自然科学基金资助的项目是( ( w w w 多媒体内容信息安全分 燕山大学工学硕士学位论文 析与算法研究 项目号:6 0 4 7 2 0 8 2 ,该项目的目标是通过分析w e b 页面结 构,w e b 内容提取,多态语义分类等技术的基础上建立一个信息过滤系统, 在此基础上,对w e b 进行内容安全过滤。w e b 页面结构分析和内容提取是一 个基层模块,主要用在系统数据库的构造上,为下一步语义安全分析研究 提供语料。它的任务是在众多的f - j p 网站上爬行搜集网页,并且对网页进 行结构分析,提取其主题内容,再存入数据库。 本文主要关心的是各种网站的新闻网页。针对此情况,经过对大量门 户网站的网页页面结构进行分析,本文设计了该类网页的内容提取系统, 并且实现了算法,该系统提取内容有:主题文本内容,相关连接内容,相 关图片内容。 所有的提取结果保存在数据库中,并对外提供检索服务,用于其它处 理程序。 系统的逻辑构造如图1 1 所示。 图1 1 系统构造图 f i g 1 - 1t h es y s t e ma r c h i t e c t u r e s p i d e r :网页抓取程序,需要给定站点,设置好抓取级数,该程序将按 设置抓回所有网页。 f i l t e r :在抓回来韵网页中找到新闻网页,网页的自动分类目前还是一 第1 章绪论 个比较困难的问题,所以本系统目前还是采用人工过滤的方式。 b a s i ci n f oe x t r a c t i o n :基本内容提取,包括网页主题文本内容,相关连 接,相关图片。( 本文主要研究对象) s e a r c h i n t e r f a c e :检索接口,用户可以对本系统提取的内容进行各种检 索。如按文本标题,相关连接,相关图片检索等,检索接口返回数据库中 所有相关信息。 1 4 论文研究内容 本文主要介绍w e b 主题内容提取。本文利用h t m l 结构分析、机器学习 等技术实现内容提取,主要包括: ( 1 ) w e b 内容提取技术综述从w e b 内容提取的发展历史、w e b 内容提取 的方法、学习算法和评价标准等方面对w e b t 匈容提取技术进行阐述。 ( 2 ) w e b 页面结构分析 页面结构可反映页面文件结构特征,页面结构 的分析主要根据h t m l 标记的作用和它们之间的关系实现。页面结构分析可 从布局出发,通过区域划分,表示出页面不同主题以及它们之间关系。通 过页面内容结构分析,可以得到属于不同区域的内容,根据这些区域之间 的关系和包含内容的语义信息,可以为w e b 的应用和研究提供帮助。 ( 3 ) w e b 网页中文本内容的提取本文中的w e b 文本内容提取是基于上 述页面结构分析的基础上,提取主题内容。抽取主题内容可由计算机根据 学习算法自动或半自动完成。 ( 4 ) 文本分类本文采用决策支持向量机的方法对抽取出的文本进行了 平面分类。为内容安全过滤进一步奠定了基础。 1 5 论文结构安排 本文余下的内容安排如下: 第二章是全文的基础,首先概要介绍了h t m l ( h y p e r t e x tm a r k u p l a n g u a g e ) 语言和d o m ( d o c u m e n t o b j e c t m o d e l ) 的定义、特点、和逻辑结 一 苤螳三兰堡主兰堡笙壅 构,这是研究w e b n 页内容的基础:接着简述t w e b l 内容提取技术的发展和 国内研究状况;之后介绍了相关研究工作,分析介绍了几种找出w e b 网页 主题内容的方法;再后简述了两种机器学习方法;最后给出了w e b 内容提 取的评价标准。这些是研究w e b n 页的基本知识,全文的算法是在此基础 上得到的。 第三章介绍了系统设计的总体结构,并介绍了w e b 内容提取的两个关 键技术,页面结构分析和网页净化。 第四章详细介绍了本文的两种网页主题内容提取方法,首先介绍简单 而有效的方法一基于统计的方法;接着针对统计法不能提取多媒体信息的 不足,提出了基于坐标树方法。本章详细介绍了算法,并给出了实验结果, 由实验结果可以看出,本文的方法有较理想的准确率和召回率,通用性强。 第五章介绍了文本分类,这是为内容安全过滤进一步奠定了基础。首 先简要介绍了文本常用方法和特征选择方法;接着提出了基于决策支撑向 量机的文本分了方法。 最后作为全文总结,简要概述了本文研究的主要成果,并对w e b 网页 内容提取提出了进一步的设想和展望。 6 第2 章w e b 结构分析及内容提取技术 第2 章w e b 结构分析及内容提取技术 随着w e b 的发展,从网页中提取主要内容变的越来越重要。内容提取 的第一步是对w e b 页面结构的分析,页面结构分析在信息检索、分类、页 面适应( p a g ea d a p t a t i o n ) 等方面都有重要作用。 w e b 文档是用h t m l ( 超文本标记语言) 编写的,是一种无结构或半结构 化的文本。这种文本含有大量的标记和超连接,并且很少有完整的句子, 这种结构特点为主题内容提取带来了很大挑战。因此,研究人员在w e b 结 构分析和主题内容提取方法上做了大量研究。 本章将从h t m l 语言、d o m 树、w e b 内容提取技术、相关的w e b 内容 提取方法、理论基础和评价标准等方面进行阐述。 2 1h t m l 简介 h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 是网页的通用语言,是本文研究的 基础知识,这里将做简单介绍。 2 1 1h t m l 语言简介 h t m l 的全称是超文本标记语言,它是目前w 曲上通用的描述语言,它 用描述性的标记符( 称为标记) 来指名文档的不同内容。标记是区分文本各个 组成部分的分界符,用来把h t m l 文档分成不同的逻辑结构,如段落、标题 和表格等。 从结构上讲,h t m l 文件由元素( e l e m e n t ) 组成,组成h t m l 文件的元素 有许多种,用于组织文件的内容和指导文件的输出格式,不同类型的元素 分别描述文本、图像和超文本链接等。绝大多数元素是“容器”,即它有起 始标记和结尾标记。元素的起始标记叫做起始链接签( s t a r tt a g ) ,元素结束标 记叫做结尾链接签( e n dt a g ) ,在起始链接签和结尾链接签中间的部分是元素 燕山大学工学硕士学位论文 体。每一个元素都有名称和可选择的属性,元素的名称和属性都在起始链 接签内标明。比如体元素( b o d y ) : d e m o t h i s i sm yf i r s th t m lf i l e 第一行是体元素的起始链接签,它标明体元素从此开始。第二行和第 三行是b o d y 元素的元素体,最后一行是b o d y 元素的结尾链接签。结尾链按 签用( 开始,随后是元素名,然后是大于号 。 h t m l 标记一般有两个作用,首先是定义文档结构,以便浏览器可以显 示该文档。其次是提供各种路标,把w e b 客户搜索程序引导到该文档的关键 区域。 h t m l 的标记间具有一定的嵌套结构,通过h t m l 解析器( p a r s e o 可以将 h t m l 文档转化为一棵d o m 树,在此基础上,可以利用d o m 接口完成多种 操作。另一方面。h t m l 不是结构化的,它的许多元素只具有显示效果( 如 , , 等标记) ,另外,h t m l 文件中经常夹杂着大段的脚本 ( j a v a s c f i p t ,v b s c n p t 等) 代码,这些代码完全是为了显示效果而增加的。 h t m l 实际上是普通的文档,没有图形,动画,声音等,但包含了指向 这些类型文件的“指针”或者称为链接,从而使得w e b 页面包含了这些非文 本因素。 2 1 2h t m l 结构树的概念 定义:h t m l 结构树。 h t m l 结构树是一个竹叉树,它的每一个节点对应页面中的一个h t m l 标记,树中的父子关系意味着孩子结点的内容包含在父结点的范围之内。 即: ( 1 ) 如果结点b 嵌套在结点a 之内,那么b 是a 的孩子结点。 ( 2 ) 否则,如果a 是b 最近的逻辑标题( 女h h l ,t i t l e ) ,那么b 是a 的孩子结点。 h t m l 结构树的构造可以直接利用h t m l 标记之间的嵌套关系。 第2 章w e b 结构分析及内容提取技术 2 2 d o m ( d o c u m e n to b j e c tm o d e l ) 树简介 d o m 树结构是研究网页布局结构的主要根据。 2 2 ,】d o m 的定义 按照w 3 c ( w o r l dw i d ew e bc o n s o r t i u m ) 的定义,d o m 是一个允许程序 或者脚本能够动态地存取和更新h t m l x m l 文件内容、结构以及风格的接 口和平台。d o m 目前主要由两部分组成:d o m 核和d o m 扩展。d o m 核主 要定义了处理x m l 文件所需的功能;d o m 扩展定义了处理h t m l 文件所需 的功能。 文档对象模型( d o m ) 是一釉用于h t m l 和x m l 文档的应用程序编程接 口( a p i ) 。使用文档对象模型,程序员可以构造文档,增加、修改、或删 除元素和内容,h t m l 中的任何内容都可以使用文档对象模型进行存取、修 改、删除或增加。d o m 是由一组对象和存取、处理文档对象的接口组成。 下面介绍常用的几种对象,它们包括文档、节点、元素、文本节点、 属性、n 维树。 ( 1 ) 文档( d o c u m e n t ) d o m 的文档是由分层的节点对象构成,这些节点 对象构成一个h t m l 页面:文档是一个节点,该节点只有一个元素,这个元 素就是它自己。文档接口表示整个h t m l 文档,从概念上讲,它是文档树的 根,提供对文档数据的存取。 ( 2 ) 节点科o d e ) 节点是一般类型,它涉及一个文档中存在的所有对象。 ( 3 ) 元素( e l e m e n t ) 在细读一个文档时,最常碰到的对象就是元素,元 素是除文本之外的几乎每一个对象。元素是从节点类型推导出来的。元素 包含属性,而且可以是另个元素的父类型。 ( 4 ) 文本节点( t e x tn o d e ) 文本节点处理文档中的文本。 ( 5 ) 属性( a t t r i b u t e ) 属性是元素的基本属性,因此它们不是元素的子节 点。即使它们是从一般节点类型推导出来,它们的行为也与其它节点的行 为不同- 例如,对属性调用p a r e n t n o d e ,p r e v i o u s s i b l i n g 和n e x t s i b l i n g ,它 9 燕山大学工学硕士学位论文 们将返回n u l l 。也就是说,它们不是文档树的一部分。 ( 6 ) n 维树( n a r yt r e e ) n 维树以像树一样的结构表示数据。n 维树具有 一个根,这棵树有子节点。如果文档是根,则它的子节点是由它下一层的 元素和文本节点构成。 2 2 2d o m 的主要特点 d o m 是语言独立的。d o m 的接口都是符合工业标准的界面定义语言 i d l ( i n t e r f a c ed e f m i t i o nl a n g u a g e ) 描述的,不限制用何种语言具体实现这些 接口。d o m 的核心是将面向对象( o b j e c t o r i e n t e d ) 的概念引入h t m l x m l 文件的处理中。在d o m 以前,无论是h t m l 还是x m l ,均被看作是包含各 种组件的数据集合,以面向数据的方式管理文件。引入对象后,在d o m 看 来,h t m l x m l 的组件不只包含数据本身,每一个h t m l x m l 中的元素 ( e l e m e n t ) 还包含有方法( m e t h o d ) 和属性( a t t r i b u t e ) 。d o m 使用这些方法和属 性的a p i ,通过方法和属性来存取和管理组件。 2 2 3d o m 和h t m l 树型逻辑结构 一般来说,h t m l 文件由标题( t i t l e ) 、头( h e a d ) 、段落( p a r a g r a p h ) 、超链 ( h y p e r l i n k ) 以及其它各种组件组成,并且组件在文件中的顺序与显示顺序相 同。d o m 通过对h t m l 文件的解析,生成一个文件的树型内部结构,称为 文件的树型逻辑结构或逻辑结构。 树型结构可以准确地描述元素的相对位置关系,很适合描述w e b 的半结 构化数据。从h t m l 文档到标记树的转化可以通过h t m l 的语法分析器来完 成。文件的树型逻辑结构与w e b 文档一一对应,可以相互转化,文件的树型 逻辑结构是便于计算机处理,用来表示h t m l x m l 文档的一种数据结构。 d o m 在进行文件解析时,将h t m l 文件看成一棵树。 作为树 的根,而h t m l 文件的其它组件被看作树中的节点( n o d e ) ;节点可以作为父 节点包含节点,也可以作为其它节点的子节点;同一层的节点成为兄弟节 点。 d o m 定义了a p i 允许其它程序浏览树型逻辑结构,并且提供存取、添 第2 章w e b 结构分析及内容提取技术 加、修改和删除节点的功能。图2 1 是一个简单的例子说明了d o m 是如何建 立文件的逻辑结构。 可以看出,原来的h t m l 文件被转化为一个树型结构。其中 是树型结构的根节点; 、 、 都是 的子节点, 是它们的父节点: 、 、 互为兄弟节点。 可以看出使用树结构可以达到以下的好处: ( 1 ) 节点操作添加、删除节点,在特定的节点中增加新的属性或节点, 以及修改节点的内容。在网页视图重构和转化中可以通过这样一些操作不 改变网页内容,而改变内容的表现形式和视图的大小。 ( 2 ) 导出新结构在标记树的结构上根据不同的需要导出或生成一种新 的代表h t m l 文档某方面特征的新的结构。 ( r i t l e ad o c u m e n t t h i si sad o c u m e n t t h eb o d yh a st e x t ( a ) h t m l 文档 ( a ) h t m ld o c u m e n t ( b ) 树型逻辑结构 ( b ) t r e el o g i cs t r u c t u r e 图2 1h t m l 逻辑结构 f i g 2 - 1l o g i cs t r u c t u r eo f h t m l 2 3 w e b 内容提取技术简述 从自然语言文本中获取结构化信息的研究最早始于2 0 世纪6 0 年代期, 这被看作信息抽取技术的初始研究。到了8 0 年代,由于t i p s t e r 的消息理 解会议( m u c ) 的召开,使得信息抽取蓬勃发展起来。随着w e b 的出现和繁荣, 研究人员逐渐将兴趣转移到w e b 信息抽取【2 1 的研究上,涌现出许多算法和系 燕山大学工学硕士学位论文 统。 w e b 内容提取是在信息提取的基础上发展的,但必须指出的是,信息 抽取是提取细粒度的数据,而我们的目标是提取主题内容。 提取网页的主题内容首先要对网页布局结构进行分析,找出主题内容 所在。在内容提取方面,当前主流方法有:基于d o m 的内容提取方法;基 于视觉的内容提取方法;基于位置的内容提取方法;基于机器学习的内容 提取方法;基于模板的内容提取方法;基于链接分析的内容提取方法;基 于n l p 的内容提取方法等。 目前,国内从事w c b 内容提取及内容安全方面的研究尚处于初步阶段, 有北京大学、上海交通大学、哈尔滨工业大学等一些学校。其中北京大学、 上海交通大学等在文本内容分析方面已经取得了进展。 综上所述,w e b 内容提取及内容安全语义识别的研究对w e b 上信息安 全、w e b 的健康发展来说非常重要,有着广泛的应用价值和理论研究价值, 很受研究者的青睐。 2 4 相关研究工作 下面分析了几种w e b 页面主题内容提取方法,可以从中了解它们的优 缺点。 2 4 1利用h t m l 标记的分布规律找出主题 网页中h t m l 标记有一定的规则,可以根据这些规则确定出记录的边 界。各条记录和记录边界处的标记往往呈现一定规律,这些规律可以帮助 确定出记录的边界。 b r i g b h a my o u n gu n i v e r s i t y 的e r n b l e y 做了这方面的尝试叽他处理网页 的范围是“大学教员论文网页”,这种网页一般具有一下两个特征:网页中 只有一个版块,含有多条记录:每个记录间至少有一个分隔符。针对网页 的特点,他提出五个相互独立的启发知识规则,先单独确定记录的边界, 在对五个独立的结果进行整合后,最终确定记录的边界。 第2 章w e b 结构分析及内容提取技术 e m b l e 提出的五个启发规则只是为:把出现次数最多的“候选”分隔符 作为记录的边界;把从训练集中学习到的边界分隔符作为记录的边界;把 所夹字符标准偏差所得的“候选”分隔符作为记录的边界;把同现次数最 多的两个或多个标记作为记录的边界;根据所处理的问题本体内的关键字 段来确立记录的边界。 中科大的朱明 4 】在处理这类多记录网页时,仅采用一条启发知识:每条 记录的格式基本相同的。然后,利用这个启发知识从网页中分析出记录的 格式,进而确定出记录的边界。 这个单纯利用h t m l 标记的分布规律对页面结构进行分析提取主题信 息的方法,在处理简单格式的网页如“论文网页”时很有效;然而,由于 基本启发知识的限制,在应对格式复杂或缺少共同标识特征的w e b l 网页时就 显得力不从心。 2 4 2 利用d o m 树找出主题 h t m l 语言中的标记不是独立的,它们之间有一定的层次关系,通过 d o m 树表示。d o m 是一个常用的标签树构造工具,它可以将网页中的标签 按照嵌套关系整理成一棵树状结构;每个标记对页面产生的作用也不同, 有的标记对视觉特征起作用,有的标记则对结构层次起作用,还有的兼而 有之。 很多研究者都考虑到利用d o m 树【5 1 ,因为d o m 树提供了网页的级联结 构。它有一些有用的t a g : ( p a r a g r a p h ) , , ( 1 i s t l , - ( h e a d i n g ) 等。 l i m 等人就是根据标签间的关系,对d o m 数进行变换,整合语义树 6 】; l i n l 7 j 仅仅考虑 及其孩子标签来划分内容块并用熵值的方法来 发现信息;而k a a s i l l e n 和b u ”k l ( o h e n 【8 】用一些简单的标签如 , , 来分割页面。 这些单纯利用d o m 树的方法,对于特定领域的结构简单规范的网页来 说,效果比较好;但对于结构复杂不规则的网页,该方法就显得无能为力 了。不过这种思想很有借鉴意义。 燕山大学工学硕士学位论文 图2 2 是一个h t m lt r e e 的结构示意图。 h t m l h e a db o d y b 姗“b n f o r t y p e 2 h u b a t t r i b u t e s = l i n k _ l i s 卢( 1 ,2 w e ig i t y _ t a gl i s t = - 1 t y p e = f 主题, 多连接,图片, a t t r i b u t e : w e i g h t l o c a t i o n w 5 d 血 a l i g n w o n ds u m l i n ks u m w e i g h t y _ t a gs u i n f o r m w b o n t y p e 气o p i c a t t r i b u t e s = l i n k _ l i s t = w e i g h t y _ t a g _ l i s t = - b 图2 - 2 一个h t m lt r e e 的结构示意图 f i g2 - 2 as k e t c h m a p o f h t m l a - e es t r u c t u r e 2 4 3 利用模板检测找出主题 除了利用d o m 树的方法,还有多种其它方法。最近,b a r - y o s s e f 【9 】提出 了模板检测问题,一般。在一个绘定匏网站,一些瞬页噪声( 不梗关龄信息 如广告,导航条等) 通常共享一些通用的内容块和表示风格,而那些主题内 容块经常改变它们实质内容和表达方式。基于这些事实,可以建立起网页 的模板。y ia n dl i u t t o , l t l 就是利用这些特点建立模板,对网页进行清洗的, 首先依据 标签构造网页的标签树,进而依据 标签将一张 网页规划为相互嵌套的内容块;而后,对于使用同一个模板生成的网页集, 找出在该网页集中多次出现的内容,作为冗余内容,而在该网页集中共同 出现较少的内容决就是有效信息块。 1 4 整:要监! 丝塑坌堑垄凼窒堡墨垫查 从图2 3 中可以看出:块和块是噪声,一般情况下都会出现在这个 位置,在d o m 结构上是一样的。而块是主题内容块,它在d o m 树中会发 生变化。这样就可以把一个网站的网页压缩成一棵d o m 树。d o m 树中重复 的部分就是模板,不同的部分就是文章的主题。 图2 3 一个模板探测的例子 1 1 1 f 嘻2 3ae x a m p l eo f t e m p l a t ed e t e c t i o n 【1 1 】 1 5 燕山大学工学硕士学位论文 该方法对于同一个站点比较有效,但是同一个站点的网页一般也有好 几个不同的模板,用这种方法只能检测出该站点使用最多豹一个模板,此 外,还要对许多网页进行训练找出模板。并且现在的网页结构多变,很不 规范,网页变化,模板也会随之而变。因此,所有模板的方法不够通用, 有很大的局限性。 2 4 4 利用页面的视觉特征找出主题 我们在前面曾提到,h t m l 文件中的很多标记使用不仅是为了内容的组 织,还可以用来表示页面的外观,例如“t a b l e ”、“p ”等。页面显示的外观 为将页面分割成语义块提供了大量线索。这些视觉特征包括不同的行、空 白区域、段落的长短、字体的大小和颜色等。所以,页面的视觉特征会对 页面的语义分块有很大的帮助。微软亚洲研究院提出了一种基于视觉特征 的解析方法v i p s f s i o n b a s e dp a g es e g m e n t a t i o n ) m 1 5 】算法来抽取w 曲网 页的语义结构,这里的语义结构是等级结构,它的每个节点都有相关的内 容块。v i p s 方法充分利用了一些视觉特征的启发知识来找到各个视觉信息 块,同时得到每一块视觉相似值d o e ;然后,再计算各个相邻块间的视觉间 隔,利用间隔的大小确定各个块的层次地位。算法流程如图2 4 所示。整个 d s 罴e p a r a t o rb叫龇咖,p 唱s t r u c t u r e 归 吲。一曲。j 归 图2 4 v i p s 算法 1 2 】 f i g 2 - 4a r i t h m e t i co f v i p s 【1 2 】 算法是一个迭代的过程,即事先定义一个每个块内部的视觉相似度阈值 1 6 第2 章w e b 结构分析及内容提取技术 p d o c ,然后每分得一块,判断该块内部元素的视觉相似度是否小于- p d o c , 如果d o c p d o c ,则把该块继续分割成更小的块,知道满足条件为止。 这种算法对于多主题的网页提取信息优于其他的方法,并且在一定程 度上能满足复杂页面对算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论