(计算机应用技术专业论文)中文信息过滤技术的研究.pdf_第1页
(计算机应用技术专业论文)中文信息过滤技术的研究.pdf_第2页
(计算机应用技术专业论文)中文信息过滤技术的研究.pdf_第3页
(计算机应用技术专业论文)中文信息过滤技术的研究.pdf_第4页
(计算机应用技术专业论文)中文信息过滤技术的研究.pdf_第5页
已阅读5页,还剩85页未读 继续免费阅读

(计算机应用技术专业论文)中文信息过滤技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京化工大学硕士学位论文 中文信息过滤技术的研究 摘要 近年来,i n t e r n e t 的迅速发展给人们带来诸多方便的同时,也带来 了诸如信息过载、信息迷向等很多问题,为了克服这个问题,有必要对w e b 信息过滤技术进行研究。中文文本信息过滤是中文信息处理的主要方向之 一,它根据用户的需求,在动态的信息流中搜索用户感兴趣的信息,屏蔽 其它无用的信息。为用户获取和使用信息提供便利。 网页文本的提取是进行信息过滤处理的前提。本文对网页的源码进行 结构和控制符进行了分析,实现了文本提取和中文分词的程序,使用该程 序可以从这些文本中提取关键词形成关键词集合,文档以这些关键词来表 示时,信息的处理就变的简单了。 目前在数据挖掘的诸多方法中,基于i d 3 算法的决策树方法是信息过 滤中采用较广泛的方法。在对i d 3 算法学习分析研究的基础上,实现了一 个基于i d 3 算法的决策树分类程序,该程序可以对中文信息进行有效的分 类。此外,该程序还可以从分类数据中提取分类规则,这些规则可以根据 需要进行增加、删除和修改。实验结果表明决策树分类器确实是一种有效 的分类技术。 基于贝叶斯网络模型的分类是当前数据挖掘领域的一个有实用价值 的研究热点。本文从两个方面对贝叶斯分类模型进行了研究和程序实现: 朴素贝叶斯分类与属性关联贝叶斯分类。虽然朴素贝叶斯网是一种简单而 有效的分类模型,但它的属性独立性假设使其无法表达属性变量间存在的 依赖关系,影响了它的分类性能。通过对关键词集合进行分析,根据关键 l 北京化工大学硕士学位论文 词出现的规律,提出了一种建立属性间依赖关系的方案,实现了一个基于 属性关联的贝叶斯分类器,并和决策树、向量空间模型、b p 神经网络、朴 素贝叶斯分类器进行实验比较分析了各个方法的优缺点。实验结果表明, 属性关联贝叶斯方法有更好的性能。 关键词:信息过滤,决策树,朴素贝叶斯,属性关联贝叶斯 i l 北京化工大学硕士学位论文 r e s e a r c ho nn l t ra t l l n gt e c h n o l o g y o f c h 眦s ei n f o r m 姗o n i nr e c c n ty e a r s ,t h es c a l eo fi n t e m e ti si n c r e 髂i n ga taf a s t e s ts p e e d a s w eg e tu s e f l l li n f o r m a t i o n 丘o mi n t e m e t ,w ea l s om e e tm o r ea n dm o r e p r c i b l e m s :i i l f o 加a t i o no v e r l o a d , i n f o 肌a t i o n l o s t , 觚ds oo n t 0 o v e r m et h e s ep r d b l e m s ,t h er e s e a r c ho fw e bi n f o 加a t i f i l t e r i i l gh a s d r a w nm u c ha t t c n t i o n c h i n e s et e x tf n t e 咖gi sab 舢c ho fc h i l l e s e i n f 0 珊a t i o np r o c e s s i n gr e s e a rc :h i ts e a f c h e st h eu s e f i l li n f b n n a t i o n 姐d e l i m i n a t e st h eu s e l e s si i l f o m a t i o ni nt h ed y n a l i l i cd a t as t r e 锄a c c o r d i n g t ou s e r s r c q u i f i n t w 邑bt e x te x t r a 耽i o ni st h eb a s eo fi n f b m a t i o nf i l t e r i n g ,w ee x t r a c t e d t h et e x tc o n t e n tb ya n a l y i n gt h eh 哺ms o u r c ec o d et h a ti l l c l u d i l l gt h e s t m c t u r co ft h eh r m ls v n t a xa 1 1 dc o n t r o ld c n o t a t i o n 1 1 h e ne x 仃a c tt h e k e v w o r d s 丘o mt h i st e x tt of 0 珊ak e y w o r dd i c t i o n a r y s ot h et e x ti s d e n o t e db yt h ek e y w o r dd i c t i o n a r y ,t h a tc o u l dm a k eu sd e a l i n gw i t ht h e i n f o m l a t i o nq u i c l 【l y d e d s i o nt i e em e t h o db a s e do ni d 3 ( i t e r a t i v ed i c h o t o m i z e3 ) i s w i d e l yu s e di ni l l f 研m a t i o nf n t e r i n g w ei m p l e m e n tt h ep r o g r 蛐o f d c c i s i o nt r e eb a s e do ni d 3a l g o r i t h ma i l dm i sp r p 铲锄c 柚d a s s i f y c h 虹e s ei n f o m a t i o n 疆e c t i v e l y f l l n h e rm o r e ,t h i sp r o g r a mc a ne x h a c t c l a s s i f v rm l e s 丘d md a t aa n dt h e s ed 觞s i f ym l e sc a nb ea d d e d ,d e l e t c do r m o d i f i e d e x p e f i m e n t sr e 蛐np m v e sm a td e c i s i o nt r e ed 觞s i f i e ri s a e f f b c t i v ed a s s i f ym e t h o d c l a s s i 句i n gb 嬲e do nb a y e sm o d e li s ar e s e a r c hh o t s p o ti i ld a t a m i n i n g n i sp a p e rs t u d yb a y e s i 柚a 勰s 姆i n gm 0 d e la i l di m p l e m e n t 撕o c l a s s i f i e r :n a t i v eb a v e s i 钮a 鹤s i f i e r 卸da t t d b u t e 一觞s o c i a t c db a y e s i 锄 c l 舔s i 丘e f n a t i v eb a y e sd a s s i f i e ri sas i m p l e 狮de 如c t i v ec l a s s i 丘c a t i o n m e t h o d ,b u ti t sa t t r i b u t ei n d 印e n d e n c ea s s u m p t i o nm a k e si tu n a b l et o i 北京化工大学硕士学位论文 e x p r e s st h ed e p e n d e n c ea m o n ga t t r i b u t e s ,a n da f f e c t si t sd a s s i f i c a t i o n p e 墒姗a n c e i nc o n 妇c t ,a t t d b u e - a s s o c i a t e db a y c s i a na a s s i f i e fa d d s t h ed e p e n d e n c ea m o n ga t t r i b u t e sa f t e ra i l a l y z i n gt h ek e yw o r ds e t w e c o m p a r ce a c h d a s s 讧i e r s a d v 姐t a g e 蛐dd i s a d v a n t a g ea c c o r d i n gt o e 砷e r i m e n t so nd e c i s i o nt r e e ,v e c t o rs p a c cm o d e l ,b pn e t i l f a ln e t 、】i ,o r k , n a t i v eb a y e s i a nc l a s s i f i e fa i l da t t r i b u t e 一弱s o d a t e db a v e s i a nc 1 a s s i f i e r t h er e s u l to fe x p e r i m e n t s p r o v em a ta t t r i b u t e a s s o c i a t e db a y e s i a n c l a s s i f i e rh a sab e t t e rd e r f b n n a n c e k e yw o r d s :i n f o 姗a t i o nf i l t e r i i l g ,d e c i s i o n1 r c e s ,n a t i v e b a y e s , a t t i i b u t e a s s o c i a t e db a y e 8 i v 北京化工大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 完全意识到本声明的法律结果由本人承担。 作者签名奎壁垒 日期:瘌,6 一 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文 规定,即:研究生在校攻读学位期问论文工作的知识产权单位属北 化工大学。学校有权保留并向国家有关部i 、j 或机构送交论文的复印 和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全 或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编 位论文。 保密论文注释:本学位论文属于保密范围,在上年解密后适用 授权书。非保密论文注释:本学位论文不属于保密范围,适用本授 书。 作者签名: 导师签名: 釜壁挛曰期:逊笸= 笸! 也 廿 日期:泄6 = 五二翌 北京化工大学预士学位论文 1 1 论文背景 1 1 1 信息过滤问题的提出 第一章绪言 随着因特网不断普及和发展,信息技术已经渗透到我们社会生活的各个角 落,正以前所未有的速度和能力改变着人们的生活和工作方式,人们真正处于一 个“信息爆炸的时代。一方面,因特网上的海量信息远远超过人们的想象;另一 方面面对如此海量的信息,人们往往感到束手无策,无所适从。于是一个极富挑 战性的课题:帮助人们有效地选择和利用所感兴趣的信息,尽量剔除人们不感兴 趣的信息。 要解决这一问题,就要实现自动收集和整理所需要的各类信息,即对信息进 行处理。根据不同的应用背景和不同的使用目的,信息处理技术已经演化为信息 检索、信息过滤、信息分类等方向。 信息过滤就是根据用户的信息需求,在动态的信息流中,搜索用户感兴趣的 信息,屏蔽其他无用的信息。例如,它的应用背景包括网上电子杂志的订阅、色 情传播信息的屏蔽以及信息自动获取等方面。正是在这种背景下,信息过滤技术 应运而生,成为信息处理领域中的重要分支。各种过滤理论和相应的过滤系统纷 纷涌现,呈现出强劲的发展势头。 由于目前文本信息是网络信息最重要的表现形式之一,而且文本形式也是广 大用户所习惯的形式,因此,本文主要讨论文本过滤的处理技术。文本过滤与文 本处理领域的其他分支有着十分密切的联系( 如文本检索、文本分类、文本洌览 和文本摘要等,信息过滤是建立在信息检索的基础上的,在本论文中,没有严格 区分信息过滤与信息检索) ,它已成为一个重要的信息处理分支,并迅速成为业 界的热点,各种相应的国际学术会议不断召开,已成为计算领域新的增长点“1 。 界的热点,各种相应的国际学术会议不断召开,已成为计算领域新的增长点“1 。 北京化工大学硕士学位论文 1 1 2 信息过滤的研究内容与现状 当前的信息过滤主要分为内容过滤和合作过滤两个方面。按内容过滤是按照 信息内容的特性作出选择,需要研究文档的表示,涉及到自然语言理解领域,一 般采用基于关键词的方法,将进入的信息流和用户模型进行匹配计算,利用一些 基于规则的智能a g e n t 来观察用户的使用风格、检测信息的内容特征、判定其 是否是用户感兴趣的,并向用户提出建议,这种方法比较适合于文本信息过滤。 合作过滤又称为社会过滤,在合作过滤中,一个文档的表示基于前面用户的评注, 通过这些评注或者用户对信息的访问,识别兴趣类似的团体,可根据其它合作用 户对信息的访问判断特定用户对特定信息是否感兴趣。合作过滤的好处在于不需 要考察文章的内容,并且可以兼顾用户的偏好与信息的质量因素。 国内有关信息过滤的研究目前以核心算法为主。算法研究集中在特征抽取、 学习算法和过滤算法。特征抽取的目的在于使用最少的特征表示出文档的含义, 而概念学习的目的在于使用最少的学习文档获取最好的用户模型。用户模型是一 个数据结构,通常包括一组主题,用以描述用户感兴趣的主题。算法研究主要有 两个趋势:第一个趋势是传统的关键词匹配方法逐渐地被较为复杂地自然语言处 理技术所取代,词语字典、语法知识、语义知识被用到信息过滤中。第二个趋势 是用户模型的手动输入逐渐的被自动的机器学习所取代,这种研究模式来源于对 信息过滤中用户行为特征和文档内容特征的观察:通常用户会在上网过程中表现 出哪些信息是自己想取得的,哪些是要摒弃的,但是自己却不能描述需要信息的 特点。而机器学习能够记录用户的行为特征和反馈信息,通过各种机器学习构建 用户兴趣模型、调整用户兴趣模型,很好的反映用户兴趣。 1 2 信息过滤概述 1 2 1 信息过滤的概念与特点 信息过滤( i n f o r m a t i o nf i l t e r i n g ) 一直是伴随着信息检索( i n f o 珈a t i o n r e t r i e v a l ) 而长期被人们研究,信息过滤嗍就是寻找符合人们兴趣的信息的处理 2 北京化工大学硕士学位论文 过程,也就是从大量的动态信息中找出最符合用户需求得的信息,且排除掉其它 无用的信息。 信息过滤根据信息内容本身可分为文本信息过滤和非文本信息过滤。文本信 息过滤。1 ( t e x tf i l t e r i n g ) 就是依据用户的信息需求模型,在动态的文本流中, 搜索用户感兴趣的文本。它可以分为基于内容的过滤( c o n t e n t b a s e df i l t e r i n g ) 和合作过滤( c 0 1 1 a b o r a t i v ef i l t e r i n g ) ,前者主要适用于文本过滤,后者由于可 以根据相同或相近兴趣的用户对有关文本所做的评注而相应地做出过滤的判断, 具有不依赖于内容的特点,故不仅适用于文本过滤,也可以广泛应用于非文本格 式( 如图像、v i d e o 等) 。信息过滤技术主要具有以下特点: ( 1 ) 信息过滤系统主要是为无结构化和半结构化的数据而设计的信息系统。 ( 2 ) 过滤系统包含大量的数据 ( 3 ) 过滤是基于对用户的信息偏好的描述,也称为用户趣向,一般来说,这 个用户的趣向表示的是用户长久的信息偏好。 ( 4 ) 过滤是从动态的数据流中收集或去掉某些文本信息。 1 2 2 信息过滤与信息检索的关系 信息过滤和信息检索既有共同之处又有不同之处h o ,信息过滤和信息检索 都是为了帮助用户寻找感兴趣的信息,过滤实质是建立在检索的基础上的,他们 的关系类似于一个硬币的两个侧面,是处于一个统一体的不同侧面旧。信息过滤 是监测新到达的文件并筛选出和用户摸板相匹配的文件,而信息检索则根据用户 的查询采用基于相似度的方法从文档集中列出所要检索的文档列表。简要地说存 在如下不同:( 1 ) 信息过滤从动态数据流( 网页新闻、e _ m a i l 等) 中筛选,而信息 检索是从相对静态的数据库中选择文本:( 2 ) 信息过滤涉及将过滤的文本分发给 用户组或个人,而信息检索涉及文本收集和组织:( 3 ) 信息过滤的用户需求是相 对稳定长期的查询,而信息检索的用户查询是随机易变的:( 4 ) 信息过滤更需要 用户的反馈,以此增进需求的表达能力,改善过滤的效果,而信息检索的用户查 询因为是易变的,不需要保存和维护。 北京化工大学硕士学位论文 1 2 3 文本过滤结果的评价指标 信息检索效率是研究信息检索原理的核心,是评价一个检索系统性能优劣的 质量标准,它始终贯穿信息存储和检索的全过程。衡量检索效率的指标有查全率、 查准率、漏检率、误检率、响应时间等。本文中过滤的评价标准沿用信息检索中 的评价标准“1 。查全率和查准率。 查全率= 名翟鬈荤薯警篙喾嬖薹篙凳燃,o o 查准率= 堕鲨萼墨妻纂妄曩嘉誉翼学x ,。 从过滤要求来说,希望查全率和查准率都同时达到1 0 0 9 6 ,即所有符合用户兴 趣的信息都被检索出,这是最为理想的效果。但事实上很难达到全部过滤和全部 检准的要求,而只能达到某个百分比,总会出现一些漏检和误检。其漏检和误检 的比率也可用公式表示为: 漏检率= l 一查全率 误检率= 1 一查准率 如果一个过滤( 或检索) 系统中与某一课题有关的信息共1 0 0 条,实际检出 2 0 0 条,其中相关信息为7 5 条,此次检索效率可计算为: 查全率= 7 5 1 0 0 1 0 0 = 7 5 漏检率= 1 7 5 9 6 = 2 5 查准率= 7 5 2 0 0 1 0 0 9 6 = 3 7 5 误检率= 1 3 7 5 :6 2 5 由此可见,查全率与漏检率,查准率与误检率为互补关系,要想取得较高的 检索效率,就须尽可能降低漏检率和误检率。从以上计算结果也可知,查全率和 查准率之间存在着相互制约的现象,即提高查全率会使查准率下降,提高查准率 会使查全率下降。因此,在实际检索过程中,必须同时兼顾查全和查准,不可片 面追求某一方面。 查准率描述系统过滤出的信息中,有用的是多少;查全率表示应该得到的信 息中,已查出了多少。在同一运行环境下,查全率和查准率是两个矛盾的参数, 4 北京化工大学硕士学位论文 一方面性能提高,另一方面性能就会有所下降。这是因为,若要增大查全率,必 须使需求表达尽量全面,以确保获得所有可能相关的信息,因此,用户最终得到 的信息量要比实际需求的信息量大,这就造成了相对低的查准率;若要增大查准 率,必须准确表达用户需求,从而保证用户获得的信息肯定是需要的信息,这就 造成一些相关信息不可避免地会被漏掉,降低了查全率。 1 3 论文研究内容和组织结构 1 3 1 论文研究的内容 本课题对中文信息过滤( 如上面所述,由于信息过滤是建立在信息检索的基 础上的,分类器可以用作过滤器,所以本文没有区分分类器和过滤器) 的几种方 法进行分析研究和程序实验研究,通过实验来比较分析各种过滤模型的特点。探 索中文信息处理的一些有实用价值的方法。本文的主要研究对象是中文文档。针 对中文文本特有的特点,通过设计的检索树来进行多关键词的词频统计。通过词 频检索树,就可以方便的完成对中文进行分词和词频统计的工作。并在信息检索 的基础上,围绕信息过滤模型的查准率和查全率两个主要技术指标,针对当前信 息过滤模型中存在的问题,对几种信息过滤模型进行了研究;详细地论述了决策 树和贝叶斯信息过滤模型的结构、关键技术和理论;实现了向量空间模型、b p 神经网络模型、决策树模型、朴素贝叶斯和属性关联贝叶斯过滤器。对这几种过 滤模型进行了较详尽地实验分析,结果表明,决策树和贝叶斯方法有较好的过滤 性能。 1 3 2 论文的组织结构 本论文内容的组织结构如下: 第1 章绪论,介绍本论文的背景,国内外研究现状和课题研究的目的、信息 过滤技术概述和本文所重点研究的贝叶斯网络方法。 第2 章w e b 文本内容提取,简要介绍了w e b 信息提取的知识,对h t 忱文本的结 5 北京化工大学硕士学位论文 构和控制符进行分析,根据分析设计实现w e b 文本内容的提取。为后续章节的过 滤实验提供文本信息。 第3 章决策树,学习分析决策树算法的原理和建树的步骤及拓展测试属性过 程中所要考虑的情况。实现了一个基于i d 3 决策树分类器并对中文信息进行了分 类处理,对实验结果进行了分析比较。此外,成功地从分类数据中提取出了分类 规则,这些规则可以根据需要进行增加、删除和修改。实验结果表明决策树分类 器确实是一种有效的分类技术。 第4 章介绍了贝叶斯网络的基本原理、分类网络的建造方法和贝叶斯分类 器。在朴素贝叶斯模型的基础上,对关键词集合进行分析,根据关键词频率出现 的规律,提出了一种建立属性间依赖关系的方案,实现了一个基于属性关联的贝 叶斯分类器。并将其与决策树、朴素贝叶斯、向量空间模型、b p 神经网络分类模 型进行了对比,分析了各个方法的优缺点。实验结果表明属性关联贝叶斯方法有 更好的性能。 第5 章总结,对本文所做工作进行总结。 北京化工大学硕士学位论文 第二章网页文本信息提取 网页信息提取技术是知识发现的一项重要技术,其典型应用如元搜索、信息 代理等。同时,网页信息提取又是一个新兴的研究领域,它从出现发展至今不足 十年的时间,还有许多问题值得研究。为了给后续的贝叶斯文本分类器提供网页 文本信息,本章针对网页文本信息挖掘的每一步,详细的给出了处理方法,包括 网页信息的分析、信息的提取流程步骤。 2 1 网页信息提取的研究目标及现状 2 1 1 网页信息提取的研究目标 信息提取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 就是对原文档信息内容和结构 进行分析,抽取出有意义的事实,生成结构化的有价值的信息。信息抽取可以帮 助人们快速找到和浏览网页文本中的有用信息。大量的非结构化或半结构化的网 页文本数据中,包含了很多无用和冗余的信息,同时也包含了很多可以用结构化 信息形式表示的数据。 自从聊w 诞生以来,己经发展成为拥有近亿用户和数亿页面的巨大分布式信 息空间,而且其信息容量仍以指数形式飞速增长。w 卿是以超文本形式呈现给用 户的,包含了从技术资料、商业信息到新闻报道等各种类别和形式的信息,为用 户提供了一个极具价值的信息源。但是,由于i n t e r n e t 是一个具有开放性、动态 性和异构性的全球分布式网络,其本身所固有的3 个特点已经明显的阻碍了人们 充分地使用i n t e r n e t 上的资源。 1 i n t e r n e t 上可利用的资源是无组织的、多种结构形式的。 2 数据和服务的类型以及数量每天都大量增加,因而信息的可利用性和可靠 性也在不断降低。 3 由于存在信息源的动态性以及潜在的有用信息的更新和保存问题,信息 常常是模糊的,有时甚至是错误的。 7 北京化工大学硕士学位论文 由于上述原因,在i n t e r n e t 上进行信息检索时,经常会出现“信息过载”。 网上的信息是海量和无组织的,易发生资源迷向,用户不知道如何更有效的利用 资源等问题。为解决这种问题,现在己经出现了很多的搜索引擎来帮助用户查找 有用信息,尽管如此,但查找的结果也是很庞大的,因此如何从这些文档中直接 抽取出所需信息,而不必一一浏览,是用户迫切需要的。 2 1 2 网页信息抽取发展现状 国外大约在8 0 年代初就开展信息抽取的研究,并取得了一些成果,体现为一 些信息抽取系统,下面简单介绍8 0 年代具有代表性的几个信息抽取系统。 f r u 即系统是比较早期的i e 系统。f r u i i p 系统把有线新闻网络作为数据源,使 用一些新闻故事的简单脚本来对有线新闻网络进行监控。f r u 肝系统采用关键字 检索,概念句子分析,脚本匹配方法寻找相关的新闻故事。f r 删p 系统是一个面 向语义的系统,采用了一个特定领域的事件描述脚本知识库。 a t r a n s 主要从关于植物和动物的正规结构描述中抽取一些简单信息填入一 个具有固定记录格式数据库中。a t r a n s 是一个商品化产品,主要用于处理国家银 行中钱转帐的信息。采用类似于f r u m p 系统的概念句子分析技术。a t r a n s 系统描 述了利用一些简单的语言处理技术能够完成限制在小规模。特定领域的信息抽取 任务,具有一定的实用性,s c i s o r 系统采用文本分析技术,对所有关于公司的信 息进行信息过滤,然后从文本中抽取关于公司名字等条目存入数据库中,供查询 使用。 m e s s a g e u n d e rs t a n d i n g c o n f e r e n c e ( 姗c ) 是一个a r p a 资助的系列工程,有许 多大学及研究所参加。1 9 8 7 年的l i u c 4 采用的文本主题和类型发生变化,采用关于 拉丁美洲国家恐怖事件通用主题的报纸和有线新闻文本作为数据源,系统包括预 定义好的信息模式和辅助抽取规则,基本任务是从在线文本中抽取相关信息填入 预定义的模式中的属性槽中。 9 0 年代由于w e b 的流行,研究人员开始把目光转向w e b 页面的抽取工作,并取 得了很大的进展,出现了众多的基于w e b 的信息抽取系统。w e b 上存在三种类型的 页面,即无结构页面、半结构化的页面以及结构化的页面。三种不同类型的页面 8 北京化工大学硕士学位论文 的信息抽取方法各有特点,目前尚未出现可以使用同一种信息抽取方法处理三类 页面的信息抽取系统。无结构页面抽取最为困难,而且涉及研究问题非常多:结 构化页面抽取工作最为简单,另外w e b 上此类页面较少:半结构化页面抽取工作的 难度处于无结构页面与结构化页面抽取工作之间,此外半结构化页面是w e b 是最 为普遍的形式。大部分研究都是针对半结构化的页面进行的。 2 2 网页信息分析 本章所讨论的网页信息提取仅仅是为我们提供文本数据,所以本章的重点也 就是提取中文网页中的纯文本内容,即网页中的正文部分,对于其它的诸如邮件、 图片、音频等内容不予进行关注,所以我们对网页信息进行分析时,仅仅考虑简 单的提取网页文本信息时所要考虑的内容,如网页的结构和控制符,而没有对网 页信息处理的其它内容和诸多算法进行介绍和深入的研究。 2 2 1 网页的结构分析 网页信息是用h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ) 语言书写的,我们要对其 中的文本信息进行提取,必须首先分析它的结构信息。对网页进行分析之后,可 以得出指导我们进行文本内容提取的特征。 ( 1 ) 由文本和t a g 串组成。对于客户端接收到的信息中,除去视频信息、音频 信息等等二进制数据外,剩余的文本信息可以分为两部分:一部分是起控制作用 的标识符,属于h t m l 语法的一部分,成为t a gs t r i n g ,他们的特点是由“ ”以及它们中间的字串组成如 , 等等;另一部分就是文本字符 串,就是浏览网页时真正看到的文字信息这些文字信息才是网页的真正内容。 ( 2 ) 结构信息明显。对于普通的文本文档,识别标题、小标题、段首旬等结 构信息是一项十分困难的工作,然而在h t 肌中,由于有控制标识符表明这些结 构信息,识别它们就变得十分的简单,在分类过程中可以参考这些信息。 9 北京化工大学硕士学位论文 2 2 2 网页控制符分析 在h t m l 文档中出现的各种控制符号,我们不可能,也没有必要把所有的都考 虑进去,为了简化分析处理过程而又能满足提取网页文本内容的需要,我们仅考 虑下面的控制符: ( 1 ) 标题:即w e b 页面源代码中用 和 标记的文字在实际浏览 的时候它会出现在浏览器界面最上方的标题栏中。标题中的内容与网页的主题的 关系非常密切,起着概括全篇的重要作用。如果标题中出现了与某个主题相关的 关键词。则其主要内容与该主题一般也是相关的,所以标题是很重要的。 ( 2 ) 关键字:在网页的头部说明中可以使用 的形式说明本页的关键字,这种信息在论文类的文章中经常出现 而且,一旦出现了。就可以直接根据这些关键字确定文章的类别了。这些词汇对 文章类别的决定程度远高于其他单词,通常,这些关键字都是专业词汇 ( 3 ) 页面描述:跟关键字类似的,在网页的头部说明中可以使用 的形式来描述页面内容,类似于文章摘要,简要说明本页的 内容。因此,在这种页面描述中出现的词汇同文章类别的关系要比正文中的词汇 同正文的关系更密切。 2 3 提取网页中的文本信息 网页信息提取就是通过分析h t l i l 的语法然后从中解析出数据,但h t m l 在推 出时并没有对其格式进行严格的定义,比如h t l i l 中标签并不一定要成对出现, 但是又要求浏览器能尽量的正确显示其所要表达出来的内容。浏览器经过多年发 展其适应能力越来越强,很多格式非常糟糕的h t m l 文件都能显示得令人满意。 不过如果我们需要精确的获取h t m l 中包含的数据,这恐怕比显示一个h t m l 更令 人头疼。 我们要做的仅仅是从h t m l 中提取我们所需的信息,并不想自己去实现一个 h t m l 语法的分析器。为了解决这个问题,我们借助一些现有的成熟的处理h t m l 1 0 北京化工大学硕士学位论文 信息的a p i 来完成我们的工作,这里使用了一个基于j a v a 语言的开源项目一 h t m lp a r s e r ,这是一个在s o u r c e f 0 r g e n e t 上比较活跃的项目之一,目前的 最新版本是1 4 发行版。h t m lp a r s e r 是一个对现有的h t m l 进行分析的快速 实时的解析器。 2 3 1 网页文本信息的提取流程 根据前面对h t m l 的分析,我们可以得到提取网页信息的简略提取流程如图 2 1 所示。 习 2 3 2m 帆页面的预处理 图2 - 1 网页信息提取流程图 网页信息抽取的基础工作是对w e b 文档的结构和内容进行分析,因此,对w e b 文档进行解析是网页信息抽取的前提。 h t m l 的逻辑结构由超文本标签表达,这些标签清楚地标明了哪些文字属于标 题、哪些文字属于正文等。不同标签中出现的文本,其含义是有差别的。如某一 北京化工大学硕士学位论文 关键词出现在t i t le ,h e a d ,p a r a g r a p h 以及t a b l e 中所代表的含义是各不相同的。 有时需要重点提取某种标签所描述的内容,又由于h t m l 的语法规则有很大的随意 性,经常可以有一些省略和不规范的写法存在。我们随意的对一些网页源码进行 分析便会发现大部分的h t m l 都不符合规范。如果存在如下的h t m l 代码。 m yh e a d i n g h e r ei st h ef i r s tp a r a g r a p h h e r eist h es e c o n d s e c on dl i n eo ft h es e c o n dp a r a g r a p h l - h t m l 标识只有开始标识而缺少结束标识: 2 b o d y 和h l 的开始标识和结束标识的大小写不一致: 3 i m g 标识的链接属性没有加引号,并且缺少结束标识: 4 p 和b r 标识不匹配,同样缺少结束标识。 如果对这样的h t m l 代码进行解析,那么程序的实现是相当困难的,所以一个 好的方法就是首先检测h t 甩并转换成为良好格式“的h t m l 文档。在对网页信息 流进行处理之前对肌m l 文档进行“良好格式”的h t 札文档进行处理,即把h t m l 中不完整的控制符进行填补处理,使不规范的h t m l 文档规范化。下面是使用h t m l p a r s e ra p i 写的对不规范的h t m l 文档进行规范化的代码。 p u b l i cs t r i n gn o r m a l i z e h t m l ( s t r i n gh t m l s t r i n g ) s t r i n g b u f f e rb u f f = n e ws t r i n g b u f f e r ( ”) : t r y p a r s e rp a r s e r = p a r s e r c r e a t e p a r s e r ( n e w s t r i n g ( h t m l s t r i n g g e t b y t e s ( ) ) , g b k ”) : 遍历所有的节点 n o d e l i s tn o d e s = p a r s e r e x t r a c t a l l n o d e s t h a t m a t c h ( n e w 1 2 北京化工大学硕士学位论文 n o d e f i l t e r ( ) p u b l i cb 0 0 1 e a na c c e p t ( n o d en o d e ) ( r e t u r nt r u e : ) ) : f o r ( i n ti = 0 :i n o d e s s i z e ( ) :i + + ) n o d en o d e = n o d e s e l e e n t a t ( i ) : 如果标签不完整,则补齐标签 b u f f a p p e n d ( n o d e t o h t m l ( ) g e t b y t e s ( ”g b k ) t o s t r i n g ( ) ) : ) c a t c h ( e x c e p t i o ne x ) s y s t e o u t p r i n t l n ( e x c e p t i o ni nt h en o r i n a l i z e h t m l ( ) f u n c t i o n ! ”) : e x p r i n t s t a c l ( t r a c e ( ) : r e t u r nb u f f t o s t r i n g ( ) : ) 上述的代码中,函数n o r m a l i z e h t m l ( ) 的参数h t 皿l s t r i n g 是h t 札源码字符串。 函数首先对传入网页文档的字符串建立解析器p a r s e r 对象,p a r s e r 对象中包含对 网页内容进行处理的各种接口,利用解析器对象的e x t r a c t a l l n o d e s t h a t m a t c h ( ) 方法可以把网页源码按控制符划分成一个个的结点,例如 , 便会被解析为t i t l e 类结点,这样方便我们对具体的某个内容进行提取。如果某 类控制符不完整,那么e x t r a c t a l l n o d e s t h a t m a t c h ( ) 方法解析的结点也不是完 整的,那么我们要把控制符不完整的结点进行填补处理,即对不规范的肌m l 文档 进行了规范化,这个工作是由n o d e 对象的t o 删l 方法来完成,所以对每个结点都 调用t o h t m l 方法就可以保证控制符的完整,在对所有结点处理完后,函数返回的 就是规范化的h t m l 文档字符串。这样就可以保证我们后续特定信息提取的正确 性。但需要注意的是我们处理的是中文,所以在生成p a r s e r 对象时,c r e a t e p a r s e r ( ) 方法的第二个参数要设置为g b k 。 北京化工大学硕士学位论文 2 3 3 提取网页中的文本信息 在网页信息中正文部分是最重要的部分。我们对中文文本信息进行处理,首 先是要把网页的文本部分提取出来。以下是使用h t m lp a r s e r 提供的接口提取 文本信息的具体实现代码。 p u b li cs t r i n gg e t h t m l s t r i n g ( s t r i n gu r l s t r i n g ) s t r i n gs c u r r e n t l i n e = 4 : s t r i n gs t o t a l s t r i n g = ”: i n p u t s t r e 锄u r l s t r e 锄= n u l l : s t r i n g b u f f e rb u f f r e a d e r = n u ll : t r y u r ln e w u r l = n e wu r l ( u r l s t r i n g ) : o p e n c o n n e c ti o n ( ) 方法建立连接 h t t p u r l c o n n e c t i o nu r l c o n n e c t i o n = ( h t t p u r l c o n n e c t i o n ) n e 呵u r l o p e n c o n n e c t i o n ( ) u r l c o n n e c t i o n c o n n e c t ( ) : 打开输入字符流 u r l s t r e 咖= r u l c o n n e c t i o n g e t i n p u t s t r e 锄( ) : 用b u f f e r r e a d e r 来读取流数据来提高效率 b u f f r e a d e r = n e wb u f f e r e d r e a d e r ( n e w i n p u t s t r e a m r e a d e r ( u r l s t r e a m ) ) w h i l e ( ( s c u r r e n t l i n e = b u f f r e a d e r r e a d l i n e ( ) ) ! - n u l l ) ( s t o t a l s t r i n g + = s c u r r e n t l i n e : s y s t e m o u t p r i n t l n ( s t o t a l s t r i n g ) r e t u r ns t o t a l s t r i n g : 1 4 北京化工大学硕士学位论文 ) c a t c h ( e x c e p t i o ne x ) s y s t e m o u t p r i n t l n ( ”e x c e p t i o ni nt h eg e t h t m l s t r i n g ( ) f u n c t i o n ! ) e x p r i n t s t a c k t r a c e ( ) : ) l 抽取网页中的文本 p u b l i cs t a t i cs t r i n ge x t r a c t t e x t ( s t r i n gi n p u t h t m l ) s t r i n g b u f f e rt e x t = n e ws t r i n g b u f f e r ( ) : t r y f h r s e rp a r s e r = p a r s e r c r e a t e f a r s e r ( n e w s t r i n g ( i n p u t h t m l g e t b y t e s ( ) ,”g b k ”) ,”g b k ”) : 遍历所有的节点 n o d e l i s tn o d e s = p a r s e r e x t r a c t a l l n o d e s t h a t m a t c h ( n e wn o d e f i l t e r ( ) p u b li cb o o l e a na c c e p t ( n o d en o d e ) r e t u r nt r u e : ) : n o d en o d e = n o d e s e l e m e n t a t ( 0 ) : t e x t a p p e n d ( n e w s t r i n g ( n o d e t o p l a i n t e x t s t r i n g ( ) g e t b y t e s ( g b k ”) ) ) : r e t u r nt e x t t o s t r i n g ( ) : c a t c h ( e x c e p t i o ne x ) s y s t e m o u t p r i n t l n ( ”e x c e p t i o ni nt h ee x t r a c t t e x t ( ) f u n c t i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论