![(电路与系统专业论文)基于新型坐标树的页面分析和内容提取框架[电路与系统专业优秀论文].pdf_第1页](http://file.renrendoc.com/FileRoot1/2019-12/13/e4d939a3-51d8-45ef-8201-1ab247cbeb7b/e4d939a3-51d8-45ef-8201-1ab247cbeb7b1.gif)
![(电路与系统专业论文)基于新型坐标树的页面分析和内容提取框架[电路与系统专业优秀论文].pdf_第2页](http://file.renrendoc.com/FileRoot1/2019-12/13/e4d939a3-51d8-45ef-8201-1ab247cbeb7b/e4d939a3-51d8-45ef-8201-1ab247cbeb7b2.gif)
![(电路与系统专业论文)基于新型坐标树的页面分析和内容提取框架[电路与系统专业优秀论文].pdf_第3页](http://file.renrendoc.com/FileRoot1/2019-12/13/e4d939a3-51d8-45ef-8201-1ab247cbeb7b/e4d939a3-51d8-45ef-8201-1ab247cbeb7b3.gif)
![(电路与系统专业论文)基于新型坐标树的页面分析和内容提取框架[电路与系统专业优秀论文].pdf_第4页](http://file.renrendoc.com/FileRoot1/2019-12/13/e4d939a3-51d8-45ef-8201-1ab247cbeb7b/e4d939a3-51d8-45ef-8201-1ab247cbeb7b4.gif)
![(电路与系统专业论文)基于新型坐标树的页面分析和内容提取框架[电路与系统专业优秀论文].pdf_第5页](http://file.renrendoc.com/FileRoot1/2019-12/13/e4d939a3-51d8-45ef-8201-1ab247cbeb7b/e4d939a3-51d8-45ef-8201-1ab247cbeb7b5.gif)
已阅读5页,还剩49页未读, 继续免费阅读
(电路与系统专业论文)基于新型坐标树的页面分析和内容提取框架[电路与系统专业优秀论文].pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于新型坐标树的页面分析和内容提取框架 摘要 随着互联网的发展和动态网页生成技术的成熟,网页的数量呈爆 炸性的增长。而为了商业上的考虑和网站的维护,很多网页都充斥着 很多重复性高且与网页主题内容无关的信息。例如:广告、表单和版 权声明等。这些内容充斥在每个网页但是却多半不是使用者想要的信 息。而目前一般的搜索引擎无法辨别这些不相关的部分,便索引网页 所有部分,这不但会使得索引档案巨大而不易管理,也会使搜索结果 产生偏差。另外,当使用者利用小型显示装置,如:掌上电脑( p d a ) , 手机等,浏览网页时,也必须经过多次的滚动页面和找寻才能得到想 要的信息。所以,在论文中我们提出了一种网页结构分析和内容提取 系统来获得网页中真正有信息的部分,以提高基于网页内容的应用系 统的服务质量。 针对h t m l 的半结构化特征和d o m 缺乏位置信息和空间关系描 述的不足,本文提出了一种新型的w e b 页面分析和内容提取框架, 该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能 反映空间关系的g r a p h 模型。通过将h t m l 文档转换为坐标树,并 结合位置特征和空间关系可对网页进行分析和提取内容。 对来自1 2 0 个网站的5 0 0 0 个网页进行测试后的结果表明该方法 可达到9 3 8 7 的准确率,并且对相关连接和相关图片的抽取有较高 的准确率和召回率。这表明我们的方法可以很有效的提取出网页的主 题内容,这对基于网页内容的应用系统和基于网页超链指向的应用系 统都有很大帮助。 在本文的最后我们提出了一种基于决策支持向量机的网页自动 分类系统,并将我们的主题内容提取方法应用到该系统,实验表明主 题提取提高了原有系统的正确率和召回率。 关键词页面结构分析内容抽取d o m 坐标树启发式规则 an o v e lf r a m e w o r k o fw e bp a g ea n a l y s i sa n dc o n t e n te x t r a c t i o n a bs t r a c t d u et ot h eg r o w t ho ft e c h n i q u e so fd y n a m i cp a g eg e n e r a t i o n ,t h e a m o u n ta n dt h ec o m p l e x i t yo fw e bp a g e si n c r e a s ee x p l o s i v e l y ,a n ds o d o e st h ei n f o r m a t i o nc o n t a i n e di nw e b p a g e s t oi n c r e a s et h ec o m m e r c i a l v a l u ea n dt h ea c c e s s i b i l i t yo fp a g e s ,m o s to ft h ec o n t e n ts i t e st e n dt o p u b l i s h t h e i r p a g e s w i t hi n t r a s i t er e d u n d a n t i n f o r m a t i o n ,s u c h a s n a v i g a t i o np a n e l s ,a d v e r t i s e m e n t s ,c o p y r i g h ta n n o u n c e m e n t s ,e t c s u c h r e d u n d a n ti n f o r m a t i o nw i l li n c r e a s et h ei n d e xs i z eo fg e n e r a ls e a r c h e n g i n e s a n dm a k et h e t o p i c s o fp a g e sd r i f t e d d i f f e r e n tk i n d so f i n f o r m a t i o n ,i n c l u d i n g r e d u n d a n ta n di r r e l e v a n t i n f o r m a t i o n ,a r e d i s t r i b u t e da n dm i x e di nap a g ea n di ti sh e n c ed i f f i c u l tf o rm a c h i n e st o a u t o m a t i c a l l yi d e n t i f y u s e f u li n f o r m a t i o nf r o mt h e p a g e s u c h a p h e n o m e n o nn o to n l yi n c r e a s e st h ec o s tf o rs e a r c he n g i n e st oi n d e xw e b p a g e s ,b u ta l s om a k ei td i f f i c u l tf o ru s e r sw i t hs m a l ld i s p l a yd e v i c e st o s u r fw e b p a g e s i nt h i sd i s s e r t a t i o n ,w ep r o p o s ean o v e ls y s t e mb yu s i n g p a g el a y o u ta n a l y s i sa n dc o n t e n te x t r a c t i o nt og e tt h ei n f o r m a t i v ep a r t si n p a g e sa n di m p r o v et h e s e r v i c eq u a l i t i e so fw e ba p p l i c a t i o n sb a s e do n p a g ec o n t e n t c o n s i d e r i n gt h e s e m i s t r u c t u r eo fh t m ld o c u m e n ta n dl a c ko f p o s i t i o ni n f o r m a t i o na n dd e s c r i p t i o na b o u ts p a t i a lr e l a t i o nb e t w e e nl e a f n o d e so ft h ed o mt r e e ,an e wf r a m e w o r ko fw e bp a g ea n a l y s i sa n d c o n t e n te x t r a c t i o n ,w h i c hi n c l u d e san o v e lc o o r d i n a t et r e em o d e l c o n t a i n i n gp o s i t i o ni n f o r m a t i o na n dag r a p hm o d e lr e f l e c t i n gt h es p a t i a l r e l a t i o n s ,i sp r o p o s e d b yt r a n s f o r m i n gh t m ld o c u m e n t si n t o c o o r d i n a t et r e e s ,t h ew e bp a g e sa r ea n a l y z e da n de x t r a c t e db a s e du p o n t h ef e a t u r e so fp o s i t i o na n ds p a t i a lr e l a t i o n s e x p e r i m e n tr e s u l to nas e to f50 0 0w e bp a g e sf r o m12 0d i f f e r e n t s i t e ss h o w st h a to u ra p p r o a c hc a na c h i e v e9 3 7 8 i na c c u r a c y a n di ta l s o h a sh i g hp r e c i s i o na n dr e c a l lr a t ei nr e c o g n i z i n gr e l a t e dp i c t u r e sa n dl i n k s i i lh er e s u l ts h o w st h a to u rs y s t e mc a ne f f e c t i v e l ye x t r a c tt h et o p i cc o n t e n t i tw i l lb e h e l p f u l t oe n h a n c et h e p r e c i s i o na n dr e c a l lr a t eo fw e b 印p l i c a t i o n sb a s e do np a g ec o n t e n t sa n dh y p e r - l i n k s i nt h el a s t p a r t o ft h e d i s s e r t a t i o n ,aw e bp a g ec l a s s i f i c a t i o n a l g o r i t h mw h i c hi sb a s e do ns v m d e c i s i o nt r e ei s p r o p o s e d t h e nw e a p p l yt h ec o n t e n te x t r a c t i o na p p r o a c ht ot h ec l a s s i f i c a t i o n a p p l i c a t i o n t h es t r o n ge v i d e n c eo f i m p r o v e m e n ti na p p l i c a t i o nv e r i f i e st h ev a l i d i t vo f t h ec o n t e n te x t r a c t i o na p p r o a c h k e yw o r d s p a g el a y o u ta n a l y s i sc o n t e n te x t r a c t i o nd o mc o o r d i n a t e t r e eh e u r i s t i cr u l e s 北京邮电大学硕士学位论文 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处 本人签名 j 4 啦 本人承担一切相关责任。 日期:3 应! i :丝 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:剑睦筮日期:型鱼:至:丛 导师签名日期 北京邮电大学硕士学位论文 第一章绪论 在基于内容的信息安全的具体实现中最有效的就是文本分类,它把各种各样 的信息通过给定的标准或特征进行分类,内容不符合要求的网页将禁止在网络中 传输和扩散。但是w e b 页面不像传统的文本那样整齐、干净,其中包含了大量 噪声,例如:为了增强用户交互性而加入的s c r i p t ,为了便于用户浏览而加入的 导航链接,出于商业因素所加入的广告链接,这些因素的存在,大大影响了分类 的准确性。如果分类系统可以以网页的主题内容为处理对象,无疑将大幅提高处 理结果的准确性。为此本文深入研究了网页主题内容提取技术,并提出和实现了 自己的内容提取框架。在本章中将简要介绍当前w e b 发展现状以及存在的问题、 本文的主要工作,并讨论在主题提取领域国内外的研究现状以及存在的挑战。 1 1 背景、意义 i n t e r n e t 是计算机出现以来甚至是人类有史以来最伟大的创举,它改变了全 球通讯和信息资源共享的方式,它把各种各样的资源从经济、科技、教育到体育、 艺术联系在一起,构成了一个巨大的网络。其中w w w ( w o r l dw i d ew e b ) 的出现 被认为是i n t e r n e t 发展史上的一个重要的里程碑,它对系统原来的用户使用界面 进行了改头换面的革命,通过文字、图像、声音等各种方式,向人们全方位的展 示了i n t e r n e t 上五彩缤纷的信息世界。 人们越来越依赖于w e b 来获取信息,w e b 作为一个最大的信息库,给我们 的学习和生活带来了巨大的便利。但为了商业上的考虑和网站的维护,很多网页 都充斥着很多重复性高且与网页主题内容无关的信息。例如:广告、表单和版权 声明等,我们将这些内容通称为网页噪音【lj 。噪音内容分布于网页四周,甚至附 着在正文旁边,文档主题很不明确,使用户不能迅速定位所需信息。 这一问题对于使用低端设备,尤其是使用p d a 和手机的用户来说最为突出, 它们需要花费很长时间来操作滚动条,跳过大量无关的图片和文字,这大大影响 了用户获取信息的速度。其次,网页噪音也给基于网页内容的应用系统带来了困 难。 在w 曲信息检索领域,通常用两个指标评价一个w e b 检索系统:检索结果 的相关性和检索的速度。如果不移除网页中的无关内容,索引子系统必然对噪音 内容也建立索引,从而导致仅仅因为查询词在某张网页的噪音内容中出现,而把 该网页作为结果返回,而网页的主题内容可能和这个查询词完全无关。可以看出, 噪音内容不仅使索引的规模变大( 从而会影响效率) ,而且还导致了检索准确性的 下降。 在网页分类领域,由于训练集中的无关内容会导致各个类别的特征不够明 显,而待分类网页中的无关内容则会导致该网页类别不明确,因而影响网页自动 分类的效果。 在网页信息提取领域,目前流行的自动识别模式的方法必须要从整个网页中 提取模式,而不是只针对主题内容进行提取。因此,如果可以只针对主题内容作 信息提取不仅可以排除无关信息对信息提取的干扰,提高信息提取的准确性,而 且可以使得网页中的结构简单化,提高信息提取的效率。 此外,网页噪音还给基于网页超链指向的应用系统带来了困难。在主题搜索 领域,大量的广告、导航条等无关内容会导致主题漂移( t o p i cd r i f t ) 。 从上述分析我们可以看到,网页噪音的存在对基于网页的研究工作的影响是 普遍而严重的。因此,如何更好的消除网页噪音,寻找主题信息,已经成为当前 应用和研究领域的一个重要课题。 1 2 国内外的研究现状 w e b 主题信息提取已经成为当前信息领域的研究热点之一。一般来说,目前 主要有四种方法:一是基于手工编码的方式;二是基于启发式规则的方式;三是 基于机器学习的方式;四是基于树结构挖掘的方式。 1 2 1 基于手工编码的方式 最早人们往往通过手工编码的方式移除广告等无关内容,典型的产品有 w p a r 2 i 、w e b w i p e r 3 】和j u n k b u s t e r s 4 | 。但它们最大的缺点是并不能完全自动的 提取信息,通常是面向特定领域、特定网站或者针对特定格式。由于用户访问 i n t e r n e t 有很强的随机性,当访问新领域或者页面结构时,这些系统就不能有 效的工作。还有一些方法利用内容重构来使页面适合在p d a 上显示,但这样并没 有删除无关内容,浪费了宝贵的显示空间,如o p e r a 5 | 。另外,以上方法都不可避 免的改变了页面原有的结构,而且终端用户完全处于被动接受的状态,对于输出 页面究竟是不是所希望的内容,他们不能做任何调节。 1 2 2 基于启发式规则的方式 由于基于手工编码的方式不够灵活,人们开始根据标记制定启发式规则来进 行信息提取。b a r y o s s e l 4 6 1 定义页面中重复的部分为模板( t e m p l a t e ) 。根据这一理 论,l i n 7 1 首先依据 标签构造网页的标签树,进而依据 标签将一张 网页划分为相互嵌套的内容块;而后,对于使用同一个模板生成的网页集,找出 在该网页集中多次出现的内容,作为冗余内容,而在该网页集中共同出现较少的 内容块就是有效信息块。实验证明该方法是有效的,但该方法必须局限在基于同 一个模板的网页集,而w e b 上的网页模板不计其数,因此该方法显然不够通用。 不同于l i n 7 】利用 标签划分网页的方法,k a o 8 】【9 1 等人利用网页结构中 的一些特性先将网页打散成一些可能具有信息的小区块,再通过一些过滤和合并 的方法找出一个网页内具有信息的部分和信息分布的阶层状况。但是这种方法因 为需要计算熵值,导致处理速度较慢。 s o n g 1 0 通过分析分隔标记在页面出现的频次进行大致的推断决定对页面内 容的抽取:根据在一定位置上出现分隔标记的频次划分出页面中的区域。但是由 于具有分隔作用的标记有多种,一方面不同的标记在页面上会表现出相同的效 果,另一方面相同的标记由于出现的顺序不同,在页面上也会表现出同样的效果, 所以仅仅从分隔标记出发进行内容的抽取,不但繁琐,而且准确率不高。 c h e n 1 i i 提出基于功能的对象模型( f u n c t i o n b a s e do b j e c tm o d e l ) 方式对页面 内容抽取的方法,在p d a 设备屏幕上显示页面。它将不可分的标记定义为基本 标记,然后根据标记在页面中的显示内容和作用的不同,把简单标记组合为不同 种类的复杂标记,逐步表示出页面内容的层次结构。但是因为复杂标记的生成规 则不很明确,给算法的实现带来不便。 k o v a c e v i c u 2 提出了一种根据页面显示对象在页面上的坐标位置,对页面布 局进行区域划分的算法。但是由于w e b 文件结构的复杂性,显示对象的坐标不 易准确得到,而且这种区域划分算法并不适用于所有网页。荆涛和左万利【b 1 根据 i e 浏览器对c s s 等h t m l 元素显示的良好支持,通过其提供的c o m 接口获得 了显示对象的更精确坐标,但他们并没有改进k o v a c e v i c 的区域划分算法。 k a a s i n e n 1 4 提出d e s k c a r d 模型,将网页( d e s k ) 分为若干c a r d ,每次显示一 个c a r d ,减少了页面大小,但是没有提取出信息,用户需要阅读多个c a r d 才能 确定主题。 b u y u k k o k t e n 1 5 儿1 6 j 提出了s t u ( s e m a n t i ct e x t u a lu n i t ) 模型,s t u 对应网页中 的块( b l o c k ) ,将网页分割为平行的s t u ,d e s kc a r d 模型和s t u 模型都采用了分 块思想,后者减少了定位时间,但是它们都改变了源网页的结构和内容,而且没 有提取出主题信息,保留了无关的文字和链接。 g u p t a 等人【l ”的方法是从网页中删除无关部分,维持了源网页的结构和内 容,但在删除链接时较少考虑上下文的语义,极易删除正文中的链接列表,使提 取结果不完整。 王琦等人【1 8 】综合了b u y u k k o k t e n 和g u p t a 的方法,提出s t u d o m 树模型, 在删除无关结点的同时有效保留了与主题相关的文字和链接,但是该方法没有考 虑到显示对象的位置特征。 1 2 3 基于机器学习的方式 基于启发式规则的方法虽然有效,但是面对数以百计的且相互间有着复杂联 系的特征时就无能为力了。基于机器学习的方法最早被用于信息提取 圳( i n f o r m a t i o n e x t r a c t i o n ) ,现在人们开始利用它来自动识别网页上不同类型的信 息。如k u s l u l l e r i c k 【2 0 】提出采用归纳学习 2 1 l ( i n d u c t i v el e a r n i n g ) 的方法来识别广告; d a v i s o n 2 2 1 和张波等人吲采用决策树【2 4 l ( d e c i s i o nt r e e ) 的方法识别无关图片和冗 余链接;h u 等人【2 5 1 采用非均衡感知器【2 6 1 识别h t m l 文档的标题;s o n g 等人【2 7 】 2 8 1 利用支撑向量机【” ( s u p p o r tv e c t o rm a c h i n e ,s v m ) 和神经网络【3 0 l ( n e u r a ln e t w o r k ) 识别网页的主要内容块和噪音,与s o n g 等人的目的相同,但是s h i h 等人【3 1 1 通过 改进朴素贝叶斯分类【32 j 实现了内容推荐和广告拦截。 值得一提的是,人们在特征的提取方面做了大量的研究,从最初只针对流式 w 曲文档提取特征【2 0 】【2 2 】,到把特征的提取建立在w 曲文档的d o m 结构上【2 3 】, 再到综合利用空间、内容和格式特征【2 5 】【2 7 】【2 8 1 以及u r l 和树结构特征【3 1 1 。 随着特征的数量和复杂性的增加,识别正确率不断提高,但同时也给训练集 的标注带来了巨大了困难,不仅要求标注者付出更多的劳动,而且要求标注者必 须具有相关领域的知识。 1 2 4 基于树结构比较的方式 以上的方法都是基于单一页面的处理,而基于树结构比较的方式则是对一个 或多个网站中的页面集进行页面的模板【6 j 检测,这样就可以把网站中为了生成网 页而使用的模板作为噪音从页面中去除。 l i u 等人【33 j 【3 4 j 根据“对同一个网站,那些与主题无关的部分常常有着相同的 内容和表现风格”这样一个事实,根据页面的d o m 结构构造s t y l et r e e ,树上 结点的熵值就代表该结点的重要性。这种方法虽然很容易识别网页中的噪音,但 是对从任意网站下载的网页集无效。 w a n g 等人【3 5 j 提出d s e ( d a t a r i c hs e c t i o ne x t r a c t i o n ) 算法,该算法通过自顶向 下比较两棵同模板的网页树,去除相同的子树,把剩余部分作为网页的主题内容。 但至于如何找到两个属于同一模板的网页,文中并没有提出明确的方法。这一问 题由欧健文等人1 3 6 1 通过定义网页地址树较好的得以解决。 相比于前两种方法,r e i s 等人p7 j 的方法更通用,它把对网页集的限制从同 一网站扩展到同一领域。该方法首先根据树编辑距离对网页集进行聚类,并由此 生成抽取模式,对于爬行来的网页,只要与生成的抽取模式计算并比较树编辑距 离,就可以判断该网页属于哪个抽取模式,然后按照相应的抽取规则就可以抽取 网页的主题内容。 1 2 5 一些其他方法 除了上述的方法,还有一些研究者另辟蹊径,同样取得了不错的效果。 f i n n 等人【3 副将h t m l 文档看作字符和标签组成的序列,在字符集中的区域 提取文字。但这种方法仅适合主题文字集中的网页,如果段落间有表格或链接等 标签丰富的结构,就不能有效处理。同样基于统计的观点,孙承杰等人【39 】为了解 决从中文新闻网页提取正文,分别对每个 结点的字数及其在父 结 点中所占的比率设定了阈值,从实验结果看该方法确实有效。 y i n 等人【4 0 j 创造性的把g o o g l e 的p a g e r a n k 4 1 1 算法应用到识别网页主题内容 上来。该方法把单个网页看成一个网络,把与网页对应的d o m 树的叶结点看成 网络中的站点,然后通过“链接分析”来计算各个结点的p a g e r a n k 值,并最终 根据这些值来识别主题内容。 1 3j a v a 简介 由于j a v a 语言在网络方面的特性,选取它作为本项目的开发语言,以下对j a v a 作以简单的介绍。 j a v a 是一种面向对象的程序设计语言。它是由s u nm i c r o s y s t e m 公司为 开发网络而研制的语言。该语言为我们提供了一种与平台无关、适于分布式系统 的开发和运行环境,主要用于i n t e r n e t 网络的编程。其程序可以在不同的平台上运 行,而不需要考虑移植问题。s u n 公司致力于:t , 各j a v a 开发推广成一种i n t e r n e t 标准 语言。 j a v a 通常包括编译器、解释器或浏览器( i e 等) 以及一些由编译器编译通过 的类库。j a v a 源程序经编译器编译后形成运行于j a v a 虚拟机的j a v a 字节码。这里 所谓虚拟机即是由解释器或嵌入了解释器的浏览器提供的平台。编译器产生的字 节码中,变量的引入采用符号引入,以使某一机器上类库的个性不影响其它机器 上调用此类库的程序的运行。解释器或浏览器负责把字节解释为机器码,以便运 行。各种机器,不论是s u n 工作站、p c 机还是m a c 机,各种操作系统,无论是 u n i x 、d o s 、w i n d o w s 还是0 s 2 ,只要运行适当版本的浏览器或解释器,就 能广泛的共享i n t e m e t 上的j a v a 字节码,所有机种上的程序在网络上自由来往,形 成一种分布应用环境。j a v a 字节码的这种平台无关性正是由解释器或浏览器所形 成的虚拟机支撑的,换言之,这就是通用的o s 的软件。 j a v a 程序可以分为三类:小应用程序( a p p l e t ) 、独立应用程序( a p p l i c a t i o n ) 以及内容和协议处理程序( c o n t e n t sa n dp r o t o c o l sh a n d l e r ) 。大多数j a v a 程序都是 a p p l e t ,a p p l e t 是嵌入到h t m l ( 超文本标识语言) 中在带有j a v a 虚拟机工具的浏 览器中运行。a p p l e t 能下载为w w w 主页一部分的j a v a 程序。它可:t 哿j a v a 可执行的 内容联接n w w w 文u 览器上,突破了原先h t m l 语言限制,实现了在有限的网络 带宽的中传送诸如动画、三维图形等复杂的信息,丰富了w w w 的内容。同时j a v a 的安全特性使得a p p l e t 只能在浏览器范围内使用,从而阻止了a p p l e t 存取用户文档 及网络访问,避免了由此引起的诸多问题。 字节码使用j a v a 解释程序直接解释运行,或生成可执行代码的程序称为 a p p l i c a t i o n 。a p p l i c a t i o n 能运行在浏览器外面,并能访问文档和对网络实现多连 接。它是:t , 哿j a v a 作为一个普通的编程语言来看待,而编写a p p l e t 贝j 是将j a v a 视为对 i n t e m e t 和w w w 的编辑语言来应用。 j a v a 的第三类程序( 记内容和协议处理程序) 从网络上或者从系统中取得所 需要的信息,并给j a v a 类一个可以以标准方式处理的对象,可将其视为数据的过 滤器。在效果上,处于应用程序和硬件类之间,改变了进入对象的数据原是流。 j a v a 语言具有简单、面向对象、可移植、与平台无关、多进程、高性能及使 用安全等特点和优点,为使用者提供了一个良好的开发和运行环境。利用j a v a 可 以自由安全地在网络上调用程序,使一些操作变的简单易行。有计算机常识的人 可能花几个小时就能学会。使用j a v a 时便可根据动作的情况,只要把必要的程序 部分经由网络调到手边的个人机中进行作业,就是庞大的程序在普通的计算机上 也可以进行工作。j a v a 程序还可以激活文件,将视频、音频信息加入该文件,并 使之在i n t e m e t 上传送。 j a v a 语言源于c + + ,它是基于c + + 的语言规格开发的,在语言风格和结构上 与c + + 基本一致,编程者可以很容易地从c + + 转至e j a v a 语言上。j a v a 语言省去了 c + + 中难以理解、不易掌握和极少使用地语言成分,具有更加完善的面向对象特 性。它在三个方便优于c + + :一是使存储器操作不易出错,女d j a v a 取消了指针,程 序员不能通过指针对内存直接操作,采用对用户透明的内存分配和释放技术;二 是去除了运算符重载、多重继承等复杂功能,提高了源码段的可维护性和可靠性; 三是在执行时才决定类别的继承关系,提高了软件部件的独立性。另外,j a v a 中 不再支持独立的函数,所以函数都封装在类中,这是完全面向对象的思想。 j a v a 具有高度的稳定性和安全性,它还可查出进行错误处理的命令,具体措 施是:( 1 ) 基本上限制文档的写入和读出,从而防止发生病毒等不正常程序; ( 2 ) 向网络的连接基本上限于能送出a p p l e t 的w w w 服务器,使存入于w w w 终 端存储装置内的数据和终端操作步骤等不会错误地传送到外部;( 3 ) 不执行a p p l e t 以外的程序和库,从而防止执行其它的错误程序。如果执行包含这样错误的a p p l e t 程序,则j a v a 解释程序将发错误信息,并停止执行。( 4 ) j a v a 需经由解释程序 解释成中间代码段后才能执行,因此在运行速度上要比编译语言落后;但另一方 面,由于采用了多线程技术,其完善的内存管理使编程者不必担心不同线程之间 的冲突,而将敬礼集中于开发高性能的程序上,又使j a v a 的性能得以提高。此 外,除了编译时对j a v a 程序提供检查外,运行时还要进行严格的检查,防止对 系统区有意或无意的破坏,减少了病毒的困扰。我们在实现w 曲页面分析和内 容抽取时就采用了j a v a 作为编程语言。 1 4 论文的主要工作 本文是在参与国家自然科学基金项目“w 曲内容语义结构分析及算法研究” 的研究过程中完成的。我们负责的w e b 页面结构分析和主题内容提取模块主要 是为下一步语义分类提供“清洁”的语料。 本文的工作主要是: 1 ) 提出了新型的坐标树模型和g r a p h 模型,将结点的坐标和叶结点间的相 对位置关系加入到d o m 树中。 2 ) 根据坐标树和g r a p h 模型,提出了一种新的页面结构分析方法和内容提 取框架。 3 ) 编程实现了一个主题提取原型系统。 4 ) 采用决策支持向量机的方法对抽取出的文本进行了平面分类,为内容安 全过滤进一步奠定了基础。 论文的具体结构安排如下:首先在第一章中简要介绍本课题的背景和意义, 并详细讨论在主题提取领域国内外的研究现状以及存在的挑战;接着在第二章中 介绍h t m l 的相关知识,提出坐标树和g r a p h 模型,以及在此基础上的页面结 构分析方法;然后在第三章中根据页面结构分析的结果提出内容提取框架,实现 内容提取原型系统并做实验,描述和分析实验结果,同时又提出了一些新的技术 可能性;最后在第四章中采用决策支持向量机的方法对抽取出的文本进行平面分 类。在文章的最后,对本文进行了总结,并给出了相应的结论。 第二章基于坐标树的页面结构分析 随着i n t e r n e t 的发展,w e b 成为巨大的、分布广泛的信息源。它涉及新 闻、广告、消费信息、教育、政府等信息。为了及时有效地获取信息,搜索引擎 的使用越来越广泛,但是目前的结果并不很令人满意,主要是因为返回结果过于 庞大,其中很多与检索关键字相关性不大,或者包括的内容质量不高。经分析发 现主要是因为w e b 页面中通常包括多类信息,如页面主要内容、导航信息、交互 信息等。但是搜索引擎对整个页面内容建立索引,因此引入了无关信息。为了减 少无关信息对检索结果的影响,人们希望引入页面结构分析,仅对页面主要内容 建立索引。页面结构分析也可作为信息抽取的预处理过程。与信息检索类似,对 页面主要内容进行抽取显然比对整个页面内容抽取的效率和准确性高。此外,结 构分析在页面适应( w e ba d a p t a t i o n ) 方面也有重要作用。页面适应指页面内容 如何在p d a 、手机之类的小屏幕电子设备上显示。因为这些设备屏幕较小,所以 需将页面内容分成不同部分,然后按照一定的顺序依次显示在屏幕上。 本章首先介绍h t m l x m l 语言、d o m 树等网页处理的预备知识,接着讲述 h t m l 解析器的设计,然后对国内外页面结构分析方法进行分析和比较,最后提出 我们的基于坐标树的页面结构分析方法。 2 1h t m l x m l 在介绍d o m 模型之前,我们首先要简要的介绍一下h t m l 语言和x m l 语 言。h t m l 语言是一种在w o r dw i d ew e b 上发布超文本的国际通用的标准标记 语言,h t m l 是英文h y p e r t e x tm a r k u pl a n g u a g e 的缩写,中文意思是“超文本 标记语言”,最初由s g m l 标记语言发展而来。从形式上看,h t m l 文件是标准 的a s c i i 文件,与普通文本文件不同的是,它加入了很多h t m l 标签,这些标 签对应于h t m l 语言中的不同元素( e l e m e n t ) ,这些标签用于组织文件的内容和 指导文件的输出格式。绝大多数元素是“容器”,即它有起始标记和结尾标记。 在起始链接签和结尾链接签中间的部分是元素体。图2 - 1 ( a ) 显示的是一个w e b 页面h t m l 代码的典型结构。 at ) o c u 船e a t 力1 1 l 止) 1 筑a d ) j 1 1 ) 孙i si sad o c u m n t ( 1 1 1 ) p h h eb o d yh a st e x t p ) i 弛d y ) h t m l 交鞘( 的树艘逻瓣绌粕t 均 图2 1h t m l 逻辑结构 f i g 2 1l o g i cs t r u c t u r eo fh t m l 从图中可以看出,h t m l 标签经常是嵌套包含关系,比如h t m l 标签的元素 体部分又包含h e a d 和b o d y 标签。实际上,网页的h t m l 代码往往对应于一颗 树形结构,h t m l 标签为树根,各个不含任何标签的文本块成为该树形的各个叶结 点。标记有三类意义:结构、语义和样式。结构将文档分成元素树。语义将单个 的元素与外部的实际事物联系起来。而样式指定如何显示元素。x m l ,e x t e n s i b l e m a r k u pl a n g u a g e ( 可扩展标识语言) ,x m l 并非象h t m l 那样,提供了一组事先 已经定义好了的标签,而是提供了一个标准,利用这个标准,你可以根据需要定 义自己的新的置标语言,并为你的这个置标语言规定它特有的一套标签。x m l 和s g m l 一样,是一种“元语言”( m e t a 1 a n g u a g e ) 。换言之,x m l 是一样用来 定义其他语言的语法系统。x m l 主要有3 个组成元素:s c h e m a ( 模式) 、x s l ( 可 扩展样式语言) 和x l l ( 可扩展链接语言) 。s c h e m a 规定了x m l 文件的逻辑结 构,定义了x m l 文件中的元素、元素的属性以及元素和元素属性之间的联系, 它可以帮助x m l 的分析程序校验x m l 文件标记的合法性;x s l 是用于规定 x m l 文档样式的语言,它能在客户端使w e b 浏览器改变文档的表示法,从而不 需要再与服务器进行交互通信;x l l 将进一步扩展目前w e b 上已有的简单链接。 单独使用x m l 不能显示页面,因为x m l 是将数据和格式分离的,x m l 本身不 知道如何来显示,必须有辅助文件来帮助实现。比如c s s 或者x s l 。正如前面 所说,x m l 是s g m l 的简化,因此它也属于元语言。可以由使用者自行定义, 进而产生出完全符合使用者需求的应用语言。如应用于数学方面的m a t h m l , 应用于向量图的s v g ,应用于化学方面的c m l ,应用于描述网络资源的r d f 等。 2 2d o m 模型的定义 2 2 1 d o m 的定义 按照w 3 c ( w b r l dw i d ew 曲c o n s o r t i u m ) 的定义,d o m 4 2 j ( d o c u m e mo b j e c t m o d e l ,文档对象模型) 是一个允许程序或者脚本能够动态地存取和更新 h t m l x m l 文件内容、结构以及风格的接口和平台。d o m 目前主要由两部分组 成:d o mc o r e 矛l d o mh t m l 。d o mc o r e 主要定义了处理x m l 文件所需的功能; d o mh t m l 定义了处理h t m l 文件所需的功能。 使用文档对象模型,程序员可以构造文档,增加、修改或删除元素和内容, h t m l 中的任何内容都可以使用文档对象模型进行存取、修改、删除或增加。 d o m 是由一组对象和存取、处理文档对象的接口组成。下面介绍常用的几种对 象,它们包括文档、结点、元素、文本结点、属性、n 维树。 ( 1 ) 文档( d o c u m e n t ) d o m 的文档是由分层的结点对象构成,这些结点 对象构成一个h t m l 页面:文档是一个结点,该结点只有一个元素,这个元素就 是它自己。文档接口表示整个h t m l 文档,从概念上讲,它是文档树的根,提 供对文档数据的存取。 ( 2 ) 结点( n o d e ) 结点是一般类型,它涉及一个文档中存在的所有对象。 ( 3 ) 元素( e l e m e n t ) 在细读一个文档时,最常碰到的东西就是元素,元素 是除文本之外的几乎每一个对象。元素是从结点类型推导出来的。元素包含属性, 而且可以是另一个元素的父类型。 ( 4 ) 文本结点( t e x t n o d e ) 文本结点处理文档中的文本。 ( 5 ) 属性( a t t r i b u t e ) 属性是元素的基本属性,因此它们不是元素的子结点。 即使它们是从一般结点类型推导出来,它们的行为也与其它结点的行为不同。例 如,对属性调用p a r e n tn o d e ,p r e v i o u ss i b l i n g 矛l n e x ts i b l i n g ,它们将返回n u l l 。 也就是说,它们不是文档树的一部分。 ( 6 ) n 维树烈一a r yt r e e ) n 维树以像树一样的结构表示数据。n 维树具有一 个根,这棵树有子结点。如果文档是根,则它的子结点是由它下一层的元素和文 本结点构成。 2 2 2d o m 的主要特点 d o m 是语言独立的。d o m 的接口都是符合工业标准的界面定义语言 i d l ( i n t e r f a c ed e f i n i t i o nl a n g u a g e ) 描述的,不限制用何种语言具体实现这些接1 5 1 。 d o m 的核心是将面向对象( o b j e c t o r i e n t e d ) 的概念引入h t m l x m l 文件的处理 中。在d o m 以前,无论是h t m l 还是x m l ,均被看作是包含各种组件的数据集 合,以面向数据的方式管理文件。引入对象后,在d o m 看来,h t m l x m l 的组 件不只包含数据本身,每一个h t m l x m l 中的元素( e l e m e n t ) 还包含有方法 ( m e t h o d ) 矛l 属- n ! ( a t t r i b u t e ) 。d o m 使用这些方法和属性的a p i ,通过方法和属性来 存取和管理组件。 2 2 3d o m 和h t m l 树型逻辑结构 一般来说,h t m l 文件由标题( t i t l e ) 、头( h e a d ) ,段落( p a r a g r a p h ) ,超链 ( h y p e r l i n k ) 以及其它各种组件组成,并且组件在文件中的顺序与显示顺序相同。 d o m 通过对h t m l 文件的解析,生成一个文件的树型内部结构,称为文件的树 型逻辑结构或逻辑结构。 树型结构可以准确地描述元素的相对位置关系,很适合描述w e b 的半结构化 数据。从h t m l 文档到标记树的转化可以通过h t m l 的语法分析器来完成。文件 的树型逻辑结构与w e b 文档一一对应,可以相互转化,文件的树型逻辑结构是便 于计算机处理,用来表示h t m l x m l 文档的一种数据结构。 d o m 在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美的集团工作流程体系
- 2025年事业单位工勤技能-湖北-湖北水生产处理工三级(高级工)历年参考题库含答案解析
- 文化场馆扩建工程2025年社会稳定风险评估研究
- 2025年事业单位工勤技能-浙江-浙江土建施工人员一级(高级技师)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-河南-河南舞台技术工一级(高级技师)历年参考题库含答案解析
- 2024版房产证抵押合同样本
- 2025年事业单位工勤技能-河北-河北理疗技术员三级(高级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-江西-江西药剂员三级(高级工)历年参考题库含答案解析(5套)
- 2025年事业单位工勤技能-广西-广西计算机信息处理员二级技师历年参考题库含答案解析
- 2025年事业单位工勤技能-广西-广西放射技术员四级(中级工)历年参考题库典型考点含答案解析
- 骨折内固定术术前宣教
- 毛振明《体育教学论》(第3版)配套题库【课后习题+专项题库】
- 集团公司内部资金调剂管理办法
- 思想道德与法治课件:专题五在实现中国梦的实践中放飞青春梦想
- 新人教A必修一《集合》课件
- 复用器械处理流程
- 静安沉恒 沉子恒
- GB/T 23510-2009车用燃料甲醇
- GB/T 14216-2008塑料膜和片润湿张力的测定
- 警械使用课件
- 人教版小学三年级英语上册期中考试试卷
评论
0/150
提交评论