




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)基于词语权重改进的朴素贝叶斯分类算法的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于词语权重改进的朴素贝叶斯分类算法的研究与应用 摘要 论文题目:基于词语权重改进的朴素贝叶斯分类算法的研究与应用 专业:计算机软件与理论 硕士生:刘林 指导教师:王若梅教授 摘要 随着信息技术尤其是i n t e r n e t 相关技术的发展与成熟,人们已经进入一个 信息海量、高速化的时代。这就对人们传统的上网方式提出了挑战,即能否更快 更全的找到并接收你感兴趣的信息。r s s 阅读器的出现无疑在一定程度上解决了 这个问题。同时,使用w e b 文档自动分类技术可以更加有效地组织和管理w e b 资 源,提高信息检索的效率,它目前已成为w e b 挖掘的研究热点之一。 朴素贝叶斯分类模型以其坚实的数学基础和丰富的概率表达能力,尤其是 它能充分利用先验信息的特性越来越受到人们的重视,成为数据挖掘领域中的一 个热点,在数据挖掘中具有广泛的应用。目前对于它的研究工作主要集中在探讨 它的条件独立性假设和如何改善其性能方面。 本文利用加权朴素贝叶斯算法来改进其分类性能,同时考虑到传统权重计 算方法t f i d f 存在一定的缺陷,提出了一种新的权重计算公式t f - i d f - r t c ,该 方法将特征项与类别之间的关联性考虑到了权重计算公式里面,用来突出那些在 类别中作用比较大的特征项,实验证明是可行的。 本文将r s s 技术与朴素贝叶斯分类算法进行了一个很好的结合,构建了一 个自动发布系统,该系统利用r s s 技术收集信息源,对通过解析r s s 摘要得到的 一些内容利用朴素贝叶斯分类算法进行信息条目的分类,该发布系统已经应用于 功能性纺织业界信息的收集与发布中。 关键词:r s s 技术,朴素贝叶斯分类算法,特征权重,t f - i d f - r t c ,自动发布系 统 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 a b s t r a c t t i t l e :r e s e a r c ha n da p p l i c a t i o no fn a i v eb a y e sc l a s s i f i c a t i o na l g o r i t h m b a s e do nf e a t u r ew e i g h t i n g m a j o r :c o m p u t e rs o f t w a r ea n dt h e o r y n a m e :l i nl i u s u p e r vis o r :p r o f r u o m eiw a n g a b s t r a c t w i t ht h ed e v e l o p m e n ta n ds o p h i s t i c a t e do fi n f o r m a t i o nt e c h n o l o g y , w eh a v e e n t e r e da ne r aw i t hl a r g ea m o u n ta n dh i g hs p e e di n f o r m a t i o n , w h i c hc h a l l e n g et h e t r a d i t i o n a lw a yt oa c c e s si n t e r n e t ,t h a ti s , w h e t h e rw ec a nf i n da n dr e c e i v et h e i n t e r e s t e di n f o r m a t i o ne f f e c t i v e l ya n de f f i c i e n t l y t h e e m e r g e n c eo fr s sr e a d e r m a c h i n ec a ns o l v et h ep r o b l e mt os o m ee x t e n t a tt h es a m et i m e ,w e bd o c u m e n t a u t o m a t i c c a t e g o r i z a t i o nt e c h n i q u ec a n b eu s e dt o e f f e c t i v e l yo r g a n i z ew e b i n f o r m a t i o nr e s o u r c ea n di m p r o v et h ee f f i c i e n c yo fw e bs e a r c h i th a sb e c o m eah o t r e s e a r c ha r e ao fw e b m i n i n g i nr e c e n t y e a r sp e o p l c a t t a c hi m p o r t a n c et ot h en a i v eb a y e sc l a s s i f i c a t i o n b e c a u s eo fi t ss o l i dm a t hb a s ea n da b u n d a n te x p r e s s i o nc a p a c i t yo fp r o b a b i l i t y e s p e c i a l l yi t sc h a r a c t e r i s t i co fm a k i n gg o o du s eo ft h et r a n s c e n d e n ti n f o r m a t i o n n a i v eb a y e sc l a s s i f i c a t i o ni s h o t s p o t sa n di sw i l d l yu s e di nt h ea r e ao ft h ed a t a m i n i n g a tp r e s e n t ,p e o p l ef o c u st h e i rr e s e a r c ho nt h ea s s u m p t i o no fc o n d i t i o n i n d e p e n d e n c ea n dh o wt oi m p r o v ei t sp e r f o r m a n c e i nt h i sp a p e r , t h ew e i g h t e dn a i v eb a y e sc l a s s i f i c a t i o na l g o r i t h mi su s e dt o i m p r o v et h ec l a s s i f i c a t i o np e r f o r m a n c ea n dan e wf o r m u l at f - i d f - r t cf o rc a l c u l a t i n g t h ew e i g h t i n go ff e a t u r e si s p r o p o s e dt os u p p l yag a po ft r a d i t i o n a lw e i g h t i n g c a l c u l a t i n gm e t h o dt f i d et h en e wf o r m u l at a k e st h er e , v a n c eb e t w e e nf e a t u r e sa n d c l a s s i f i c a t i o n si n t oa c c o u n tt oh i g h l i g h tt h er o l eo ft h o s ef e a t u r e sw h i c ha r es t r o n g 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 a b s t r a c t c o r r e l a t i o nw i t hc a t e g o r i e s e x p e r i m e n t sp r o v ei tt ob ef e a s 访l e t h es y s t e mc o m b i n e sr s st e c h n o l o g yw i t hn a i v eb a y e s i a nc l a s s i f i c a t i o n a l g o r i t h m , i tu s e sr s st e c h n o l o g yt og a t h e ri n f o r m a t i o ns o u r c ea n dc l a s s i f yt h ei t e m s u s i n gn a i v eb a y e sc l a s s i f i c a t i o na l g o r i t h m a na p p l i c a t i o np l a t f o r mi sb u i ra n di s a p p l i e dt og a t h e ra n dr e l e a s ei n f o r m a t i o no ff u n c t i o n a lt e x t i l e s k e yw o r d s :r s st e c h n o l o g y , n a i v eb a y e s i a nc l a s s i f i c a t i o na l g o r i t h m , f e a t u r e sw e i g h t i n g , t f - i d f - r t c , a u t o m a t e dr e l e a s es y s t e m m 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 赳球 日期: 亟! ! 刍筚主as 2 垒日 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入 有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。 学位论文作者签名:如l 株 日期:o ) q 口1 年岁月妒日 导师签名:立羞嗜码 日期:刚年j 月砷日 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 第1 章绪论 1 1 研究背景及意义 第1 章绪论 随着网络的普及和相关技术的发展,互联网已经成为主流的信息发布源之 一,越来越多用户通过网络浏览来获取新闻。但是传统的网页浏览方式随着网络 信息的累积和扩展也暴露出一些问题,例如纷繁复杂的新闻首页为用户的浏览带 来了困扰,网页内容的更新也难以被用户第一时间获取,传统的一些搜索引擎也 只能提供大量相关的非精确信息。这就使得用户在搜索自己所需要的信息上花很 多的时间都搜索不到准确信息。因此,如何快捷高效地筛选并整合对用户有用的 知识成为了互联网技术中的关键研究问题之一。 由于i n t e r n e t 上充满的大量信息是以超链接的形式组织在一起的,所以在 信息发布的时候,很多情况下人们并非只在自己的网站上发布原创新闻,往往还 需要引用其他网站上的新闻来充实自己的内容。在一个网站中引用的新闻如果来 自多个不同的站点,这是一种新闻聚合( n e w sa g g r e g a t i o n ) 过程。新闻聚合是 一种基于订阅的内容交换过程,当新闻发布者与读者达成某种协议后,由新闻发 布者向读者提供特定的内容。新闻聚合技术可以避免传统w e b 浏览方式的一些弊 端,比如说用户需要打开多个浏览器窗口,进入不同的门户网站,再从这些站点 寻找感兴趣的标题,点击相应的链接后才能看到目标信息。同时,并非任何人都 可以在网站上发布信息,一般来说只有网站的信息管理员才有权更新网站内容, 网站信息管理员的工作量与新闻发布者的数量、需要发布的新闻条数以及需要更 新的网页数量三者的乘积成正比,而且每一条新闻和每一个网页的更新都是独立 进行的。如果信息的发布与更新都由人手工完成的话,一方面工作量会非常大, 同时也会存在很多手工的错误。 正是因为传统w e b 浏览方式存在这些问题,新一代信息发布技术r s s 应运 而生。目前,r s s 文档的分类依赖于预先设定。例如,百度的r s s 新闻订阅,把 新闻分为若干类,分别是:国内新闻、国际新闻、互联网、科技、社会、娱乐、 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 第1 章绪论 体育等。可以看出,这样的分类存在着不足。其中很重要的一个问题就是用户不 能按照自定义的类别去订阅这些新闻。r s s 技术发展到今天受到越来越多用户的 推崇,因为它从根本上改进了传统的被动获取新闻的方式,而采用了一种更加人 性化的、互动性强的机制。r s s 技术目前广泛应用于b l o g 、w i k i 和网上新闻频 道等。本文针对目前存在的这些问题,主要研究如何通过r s s 技术收集信息源, 并解析r s s 摘要,然后通过朴素贝叶斯分类算法进行信息内容的自动分类。 1 2 国内外研究现状 国外对文本自动分类的研究始于2 0 世纪5 0 年代末,h p l u h n 首先将词频 统计思想用于自动分类,在该领域进行了开创性研究。1 9 6 0 年,m a r o n 在j o u r n a l o ft h ea c m 上发表了有关自动分类的第一篇论文 o nr e l e v a n c e ,p r o b a b i l i s t i c i n d e x i n ga n di n f o r m a t i o nr e t r i e v a l 1 ,其后许多学者在这一领域进行了 卓有成效的研究,如k s p a r k 、g s a l t o n 以及r m n e e d h a m 、m e l e s k 、k s j o n e s 等 2 。到目前为止,国外的文本自动分类研究已经从最初的可行性基础研究经 历了试验性研究进入到了实用化阶段。 1 9 9 4 年,a t & t 实验室的d a v i dd l e w i s 等人研究了基于非确定性的分类技 术。两年后,该实验室将分类的技术应用于电子邮件领域。1 9 9 7 年,德国d o r t m u n d 大学计算机系的t o r s t e nj o a c h i m s 等人对基于向量空间模型的自动分类系统做 了研究。同年,美国s t a n f o r d 大学计算机系的d a p h n ek o l e 等人提出了基于很 少语料词汇的层次自动分类方法。1 9 9 8 年,美国c a r n e g i em e l l o n 大学计算机 系的y i m i n g y a n g 等人在文本在线自动分类领域中应用了决策树等聚类算法。 1 9 9 9 年,美国j u s tr e s e a r c h 公司的a n d r e wm c c a l l u m 等人运用信息熵理论、 b a y e s 理论等实现了多类号的自动分类。随后,美国m a s s a c h u s e t t s 大学计算机 系专门针对文本库开发了自动分类系统,为了推广电子商务,美国i b m 和o r a c l e 公司研制了基于文本内容的电子邮件自动分类系统,m i c r o s o f t 公司也为其浏览 器开发了基于内容属性分类的插件。 在2 0 世纪6 0 年代和2 0 世纪8 0 年代末期间,由专家人工构建的基于知识工 程技术的分类系统一直是最有效的文本分类系统。其典型应用就是卡内基集团委 2 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 第1 章绪论 托路透社开发的c o n s t r u e 系统,它主要是由专业人员编写一些分类规则来指导 分类,在r e u t e r s 的部分语料库上它的效果非常好,平均准确率和召回率大约都 可以达到9 0 ,然而在其他应用领域采用该系统将会消耗大量的人力和物力。这 种自动分类器构造方法的缺点是知识获取瓶颈的存在,它必须要为领域专家获取 的知识和知识工程师的表示之间架起桥梁,二者缺一不可,如果这种分类器被转 到完全不同的领域,工作必须重新开始。到了9 0 年代初期,基于机器学习 ( m a c h i n el e a r n i n g ) 3 的分类技术开始成为文本分类的主流技术。这种方法通 过归纳文本集的特征自动创建一个分类器,这些文档集合事先被领域专家人工地 分类到类集c = ( c l ,c :,c 艉) 的各个类q 中,分类器可作为一个规则来决定文档d , 是否属于类c 。当类集c 被更新,或者系统要应用到其他不同的领域,则只需要 重新构造一个人工分类集合,通过机器学习,自动的构造一个分类器。显然这种 分类方法不再需要知识工程师和领域专家的介入,从而节约了大量的专家人力资 源,同时也加快了分类系统的建立速度。 当前,在国外比较流行的文本分类方法主要有k 一近邻法( k n n ) 4 :5 :6 、 r o c c h i o 方法 7 、决策树( d e c i s i o nt r e e ) 方法 8 、n a i v eb a y e s 方法 9 、最 大熵模型、回归模型、神经网络方法 i 0 、基于统计投票的方法和s v m 支持向量 机方法 1 1 ,遗传算法等。这些方法在英文文本自动分类上有着广泛的应用。还 有一些研究人员研究表明结合不同的分类器能够提高分类的精度。国外的自动分 类系统在邮件分类、电子会议、信息过滤等方面都取得了较为广泛的应用。 自从文本分类的概念在国内出现以来,该技术在国内得到了长足的发展。然 而和国外的发展状况相比,发展水平仍相对滞后。一方面由于国内起步较晚,另 一方面则是因为国内的工作主要是针对中文文本。汉语由于存在着许多不同于英 语的特点,使得中文文本分类的难度更大。比如,汉语中的词与词之间没有自然 的界限,因此,在进行文本分类之前,首先要对文本进行分词。另外,在不同的 语言的研究工作中,句法分析和语义分析所占的比例是不同的。在英语中,句法 分析比语义分析的比例要大,而汉语是一种分析型语言,语义分析在汉语研究中 起着举足轻重的作用,其所占的比例比句法分析要大得多。这使得在中文文本分 类中,通过句法分析等基于语法的手段把握文本的内容变得更加困难。1 9 8 1 年 候汉清先生首先对自动分类在文献中的应用作了探讨,从计算机分类检索、计算 3 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 第1 章绪论 机管理分类、计算机自动分类、机编分类等四个方面介绍了国外的发展概况。之 后,中国科学院、清华大学、复旦大学、南京大学、山西大学、东北大学以及新 加坡、香港和台湾的一些大学的著名学者在该领域做出了一些研究成果,研制出 一批基于词典法和基于专家系统的自动分类系统。这其中有基于人工智能技术的 分类系统,有基于统计学技术的分类系统,近几年基于统计知识的方法占主流, 也不乏基于规则的分类方法。 从实现技术上看,国内的文本分类可分为基于词典法的自动分类系统和基于 专家系统的自动分类系统两大类;从用户参与的程度上划分,可分为辅助分类系 统和自动分类系统两大类。基于词典法的自动分类系统主要有叶新明的中文文献 自动分类系统、吴军的自动分类系统、刘开瑛等人的金融档案自动分类系统等 1 2 。基于专家系统的自动分类系统主要有长春地质学院图书馆的图书自动分类 专家系统、基于神经网络优化算法的中文自动分类系统等 1 2 。 国内当前流行的文本分类方法主要有k 一近邻法( k n n ) 、n a i v eb a y e s 方法、 决策树方法、神经网络方法、s v m 支持向量机方法,遗传算法等,在近期的研究 中,较为常用的研究方法是采用基于统计的方法,由于统计方法实现文档分类简 单,对大多数实际文档分类速度较快,准确度在一定的条件约束下较高,系统成 本比较低,因此为大多数文档分类系统所采用,其中k n n 、n b 和s v m 由于分类效 果较好成为近几年人们研究的热点。 在这些经典的文本分类方法当中,朴素贝叶斯方法有一个独立假设前提一 在给定目标值时属性值之间相互条件独立。这个前提忽略了特征之间存在的条件 依赖关系。在朴素贝叶斯分类算法里,选出能够代表类别特征的特征项很重要, 因为如果特征项不能够很好地标识一个类别的特征,则应用朴素贝叶斯的分类效 率必然低下。而特征项在类别中的权重表示的是特征项在类别中的重要程度,如 果权重越大,则表示的是该特征项越能表示该类别的特征。对于应用朴素贝叶斯 方法进行的分类,有必要重点研究特征项的权重计算。传统的权重计算公式t f i d f 存在一定的缺陷性,没有考虑特征词在类间以及类内的分布情况从而有可能会给 那些对分类贡献不大的特征项赋予较高的权重,而那些对分类有比较大贡献的特 征项又相对地赋予了较低的权重。特别是t f i d f 公式中i d f 的计算是基于训练集 中所有文本的,不能很好的体现特征项和类别之间的关联性。 4 基于词语权重改进的朴素贝叶斯分类算法的研究与应用第1 章绪论 1 3 本文的主要研究工作 本文在研究朴素贝叶斯分类算法的基础上以词语权重的计算方法为重点研 究对象,针对特征项与类别之间的关联性以及传统权重计算方法t f i d f 标准的特 点,提出一种新的权重计算方法t f i d f r t c ,该方法将特征项与类别之间的相 关性与t f x d f 标准相结合来进行权重的计算。同时在分析了如何通过r s s 聚合器 收集新闻以及如何将读取到的新闻自动进行文本分类的基础上,构建了一个可以 自动收集、分类并在页面上更新功能性纺织业界新闻的发布系统。具体的工作如 下: 1 对t f i d f 词语权重计算方法算法进行研究,发现了t f i d f 算法存在三 个方面的缺点:没有考虑特征词在类间的分布情况;没有考虑特 征词在每个类内部的文档中的分布情况;没有考虑特征项与单个类 别之间的关联情况。这些缺点可能导致该算法:将那些在类间均匀 分布的对分类贡献不大的特征词赋予了高的权重;对那些在某个类 中大量出现,在其它类中很少出现的特征词却赋予了较低的权重;针 对t f i d f 算法存在的缺点,本文提出一种对t f i d f 改进的算法 t f - i d f - r t c ,该方法衡量了特征项与类别之间的相关性,将那些同类 别相关性强的特征项赋予相对较高的权重,从而在分类的时候体现了 那些与类别关联性比较高的特征项的作用。 2 。利用r s s 技术收集新闻源,解析r s s 摘要。 3 将解析过的r s s 摘要利用朴素贝叶斯算法进行分类,实现信息的自动 分类显示,并最终完成信息自动收集、分类以及显示的发布系统。 4 构建应用平台,并将这个平台应用于功能性纺织业界信息的收集与发 布中。 1 4 论文结构介绍 1 绪论:介绍相关工作的研究背景及意义,国内外的研究现状以及本文的 主要研究内容和技术方法。 5 基于词语权重改进的朴素贝叶斯分类算法的研究与应用第1 章绪论 2 介绍本文用到的理论知识,r s s 技术和文本分类。 3 对传统的t f i d f 词语权重计算方法算法进行研究,指出其存在的一些缺 点,同时提出新的权重计算方法t f i d f r t c ,该方法重点考虑了特征项 与类别之间的相关性,并将该权重计算方法与传统的权重计算方法进行 比较,最终得出该计算方法的可行性。 4 发布系统的设计与实现:本章主要介绍系统数据库的设计以及如何进行 r s s 摘要的解析,重点介绍朴素贝叶斯分类器的构建。 5 结论:总结本论文的主要工作,并对下一步的工作进行展望。 6 基于词语权重改进的朴素贝叶斯分类算法的研究与应用第2 章r s s 技术与文本分类 第2 章r s s 技术与文本分类 2 1r s s 技术 2 1 1r s s 技术的发展 r s s 技术的英文解释有三种:r e a l l ys i m p l es y n d i c a t i o n ,r d f ( r e s o u r c e d e s c r i p t i o nf r a m e w o r k ) s i t es u m m a r y ,r i c hs i t es u m m a r y ,起源于网景公司 ( n e t s c a p e ) 的“推( p u s h ) 技术,一种应用于当时浏览器的新闻频道功能的 技术,但是r s s 的具体含义与其版本密切相关。n e t s c a p e 创建了r s s 的最初版 本0 9 0 ,该版本的r s s 定义为“r e a l l ys i m p l es y n d i c a t i o n ,但是随着n e t s c a p e 的每况愈下,并且“推 技术由于缺乏合适的商业定位而被其他网络工具的出现 而淡化了其优势,最终新闻频道在浏览器中消失,r s s 的发展也一度停滞。最近 几年,随着x m l 技术的发展和博客( b l o g ) 逐渐在网络流行起来,2 0 0 1 年,著名 的博客写作软件开发公司u s e r l a n d 接手了r s s o 9 1 版本的发展,并且把r s s 作 为描述博客主题和更新信息的最基本方法继续开发,逐步推出了0 9 2 、0 9 3 和 o 9 4 版本的r s s 标准。随着r s s 在各种博客软件中的广泛应用,越来越多的新 闻网站也开始支持这项技术。u s e r l a n d 公司在开发r s s 的同时,很多专业人士 认为需要通过一个第三方以及非商业的组织,将r s s 发展成为一个通用的规范, 并进一步将其标准化。于是2 0 0 1 年一个w 3 c 的联合小组在r s s0 9 0 版本的开发 原则下,以w 3 c 新一代的语义网技术r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 为基础,对r s s 进行了重新定义并发布了r s s1 0 ,将其定义为“r d fs i t e s u m m a r y 。到2 0 0 2 年9 月,u s e r l a n d 公司发布了版本r s s2 0 ,将r s s 定义为 “r e a l l ys i m p l es y n d i c a t i o n 。r s s 目前广泛用于网上新闻频道,b l o g 和w i k i 。 2 1 2r s s 规范 7 基于词语权重改进的朴素贝叶斯分类算法的研究与应用第2 章r s s 技术与文本分类 实际上r s s 是一种简单x m l 格式,用于为内容整合客户端提供选择性的、汇 总过的w e b 内容。更准确地说,r s s 是一种“轻量级、多用途、可扩展的元数据 描述及联合推广格式 ,它能够用于共享各种各样的信息,包括新闻、简讯、w e b 站点更新、事件日历、软件更新和基于w e b 进行拍卖的商品等。r s s 订阅方式的 功能有一个很大的优势,比如说,如果读者订阅了几百个网站的信息,且这些网 站中每天只有一小部分的内容有更新,那么读者完全没有必要把所有这些网站全 都浏览一遍。r s s 的浏览方式正是按照读者的要求只显示所订阅的各个网站的更 新内容,也就是说r s s 订阅的本质在于“同步更新。 r s s 将网站看作一系列频道( c h a n n e l s ) 的组合,各个频道又包含了一系列资 源( i t e m s ) ,通过对频道及所含资源的描述就可实现对作为资源集合的网站的描 述。利用r s s 元素描述的网站内容汇总文件称之为一个r s sf e e d 。r s sf e e d 由 内容提供者的网站发布与推广,再由内容整合者的网站使用,或者由独立的桌面 工具( e p 聚合工具) 使用。 下面我们以r s s2 0 为例,看下r s s 的格式规范。在一个r s s 文档中,最外 层是一个 元素,这个元素必须规定v e r s i o n 属性,该属性明确了本文档遵 从何种r s s 版本规范。 元素只有一个子元素 ,包含了关于这个频 道( 元数据) 和它的内容的一些信息。 下面是一个必须包含的频道( c h a n n e l ) 元素的列表。 ( 1 ) 频道的名称,它表明别人如何访问你的服务。如果你有一个与 你的r s s 文件内容一致的h t m l 网站,你的t i t l e 元素值应该与你的网站的标题 相同。 ( 2 ) 对应频道的网站的u r l 链接地址。 ( 3 ) 关于频道的描述。 其中还包括一些可选的频道( c h a n n e l ) 元素的列表,其中包括 , , , , , , , , , , , , , , , 。 2 1 3r s s 特点 8 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 第2 章r s s 技术与文本分类 r s s 通过x m l 标准定义内容的包装和发布格式,能够把预定信息( 包括标题、 提要、内容) 按照用户的要求推送到用户端,从而使内容提供者和接收者都能从 中获益。对内容提供者来说,r s s 技术提供了一个实时、高效、安全、低成本的 信息发布渠道;对内容接收者来说,r s s 技术提供了一种崭新的网络信息获取模 式,大大增加了单位时间内获取有益信息的数量。具体而言,r s s 技术具有以下 特点 1 3 : 1 个性化信息主题聚合 随着r s s 被广泛采用,提供r s s f e e d s 的站点越来越多,包括专业新闻站点、 电子商务站点、企业站点,甚至个人站点等。这样,用户可以根据自己的喜好, 订阅多个站点,通过一个r s s 阅读器,为用户提供多来源信息的“一站式 的个 性化服务。信息聚合用户搜索的每一个关键词均生成一个r s s f e e d s 的链接,如 果用户订阅了该r s s f e e d s ,以后只要与关键词有关的内容就会自动添加到 r s s f e e d s 中用户可以长期关注有关关键词的某一特定领域。 2 信息获取高时效性 r s s 技术秉承“信息推送 概念,一旦站点有内容更新,更新内容就在第一 时间被“推到用户端阅读器中,从而极大地提高了信息的时效性和价值。 3 信息发布低成本 由于r s s 是一种轻量级、多用途、可扩展的元数据描述及联合推广格式,且 r s s f e e d s 本身为一个结构化的x m l 文件,具有简单、标准、通用、容易生成等 特点,它能够共享各种各样的信息,因此很多网站都利用r s s 来发布动态更新的 最新信息。而且,服务器端内容的r s s 包装在技术实现上极为简单,是一次性的 工作,从而使长期的信息发布边际成本几乎降为零,这些是传统的发布方式所无 法比拟的。 4 知识信息过滤与积累 r s s 推送技术提供自定义式的服务,信息源的选择和信息内容的过滤由用户 自主配置,r s s 用户端阅读器软件的特点是完全由用户根据自身需求以“频道 的形式订阅值得信任的内容来源,r s s 阅读器软件完全屏蔽掉其他所有用户没有 订阅的内容以及弹出广告、垃圾邮件等噪音内容。从这个角度而言,r s s 在其中 充当着知识和信息的“过滤器”,与此同时,还可通过网络形成最好的知识积累 9 基于词语权重改进的朴素贝叶斯分类算法的研究与应用第2 章r s s 技术与文本分类 方式,“隐性知识”由此通过网络真正转化为“显性知识 。 5 本地信息易于管理 对下载到阅读器软件本地的订阅r s s 内容,用户获取无须任何帐号和密码, 使用方便快捷。信息的本地存储和管理功能为用户建立起个“随身资料库 , 用户可以进行离线阅读、存档保留、搜索排序、相关分类、更新、停止更新、删 除、重命名等多种管理操作,简单方便。 2 1 4r s s 体系结构 对于r s s 信息发布系统的研究来说,r s s 解析体系是一个至关重要的研究 问题。r s s 网络的解析包括三个主要部件,如图2 - 1 所示1 1 4 1 : 内容聚合器 图2 - 1r s s 解析体系结构 ( 1 ) 内容提供者。提供的内容一方面包括完整内容的网页,另一方面还要 提供对该内容进行描述的r s s 文件。 ( 2 ) r s s 聚合器。定时到众多的消息源读取最新的r s s 文件,汇总并进行 索引,并按索引提供给读者已定制的特定主题的消息。 ( 3 ) 浏览器。以用户订阅为基础,连接到r s s 聚合器,获取消息并将其呈 现给读者。读者在浏览消息时,可以通过点击消息标题的链接,直接进入内容提 1 0 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 第2 章r s s 技术与文本分类 供者的网站读取详细内容。 2 1 5 传统w e b 浏览与r s s 订阅信息的区别 传统w e b 浏览方式需要打开多个浏览器窗口或者标签以进入不同的门户网 站,然后寻找浏览者感兴趣的标题。在一些门户网站,浏览者为了查看某些具体 的内容,往往需要进入多个页面。通过r s s 订阅w e b 消息,则是把订阅者订阅发 布的消息全部集中到一个窗口中,然后订阅者再点击相应的感兴趣的内容,订阅 者可以在r s s 聚合站点或者r s s 阅读器中有针对性的订阅自己感兴趣的内容,重 要的是这些信息是即时的,对于r s s 订阅,只要有更新,就会自动推送到聚合站 点或者r s s 阅读器中,图2 - 2 描述了传统的w e b 浏览行为,而图2 - 3 则描述了通 过r s s 订阅的浏览行为 1 5 。 图2 2 传统w e b 浏览方式 基于词语权重改进的朴素贝叶斯分类算法的研究与应用第2 章r s s 技术与文本分类 图2 - 3r s s 订阅信息行为 2 2 文本分类的相关技术 文本自动分类( a u t o m a t i ct e x tc a t e g o r i z a t i o n ,a t c ) 1 6 是指根据文本 的内容,将待分类的文本分配到已经存在的一个或者多个类别之中的过程,即建 立一个待分类文本与已有类别的映射。它找出描述并区分数据类或概念的模型 ( 或函数) ,以便能够使用模型来预测类标记未知的对象类。导出模型是基于对 训练数据集的分析 1 7 。基于机器学习的文本分类过程由两个阶段组成:训练阶 段以及分类阶段。训练阶段是指从训练文本中学习分类知识,建立分类器。在训 练阶段过程中,训练集合中的文本已经确定了其对应的类别;而分类过程则是把 待分类的文本通过与分类器中的类别向量进行相似度计算,从而匹配最大的相似 度的类别的过程。文本分类的训练过程和分类过程可以用图2 - 4 来表示: 基于词语权重改进的朴素贝叶斯分类算法的研究与应用第2 章r s s 技术与文本分类 训练过程 分类过程 2 2 1 向量空间模型 图2 4 文本分类流程图 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是文本分类中应用很广泛的一 个模型,它由g e r a r ds a l t o n 和m c g i1 1 1 8 于1 9 6 9 年提出的。它使用向量表示 文本,并成功应用于著名的s m a r t 系统中。该模型现已经成为最简便、最高效的 文本表示模型之一。 向量空间模型( v s m ) 的基本思想是:把文档表示成特征向量,通过相似度 来确定文档内容间的相关程度。在向量空间模型中,每个文档都可被抽象表示成 如下形式: y ( d ,) m ( ( f l ,w 。( d ,) ) ,( f 2 ,w 2 ( d ,) ) ,( f ,w j ( df ) ) ,( f 。,w 。( d ,) ) ) 其中,t l 是特征项( t e r m ) ;w , j ( d ) 是在文档d 中的权重函数,反映特征 决定文档d ;属于某一类的重要程度。特征项是从文档中选取出来的特征词,根 据“贝叶斯假设,假定特征项之间对文本的类别归属的影响相互之间是独立的, 这样就可以把文本表示成由特征项的集合所表示的向量。对于一个训练文本集 合,我们可以得到如图2 - 5 所示的一个向量空间。 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 第2 章r s s 技术与文本分类 d 1”d - | ”d w u 弛) m , ,) w 月限) 图2 - 5 向量空间模型 向量空间模型仅仅提供了一个理论框架,项的权重评价、相似度的计算没有 统一的规定,可以使用不同的权重评价函数和相似度计算方法,使得此模型有广 泛的应用。 向量空间模型具有较强的可计算性和可操作性,特别是随着网上信息的迅速 膨胀,它的应用己经不仅仅局限于文本检索、自动文摘、关键词自动提取等传统 问题,还可以应用到搜索引擎、个人信息代理、网上新闻发布等信息检索领域中。 2 2 2 常用特征选取方法 一般来说,文本特征选取是通过构造一个评估函数,把测量空间的数据投影 到特征空间,得出一个在特征空间中的值,然后根据特征空间中的值对每个特征 进行评估,选择值最高的若干个特征。大部分特征选取还会使用一个停用词表对 特征进行预选,这样可以减少无用特征对特征选取的影响,同时提高特征词的选 取效率。 “特征选取” 1 9 ,i2 0 的任务就是要将信息量小,“不重要 的词汇从特征 1 4 气 岛 一一 气 基于词语权重改进的朴素贝叶斯分类算法的研究与应用第2 章r s s 技术与文本分类 项空间中删除,从而减少特征项的个数,它是文本自动分类系统中的一个关键步 骤。目前文本处理中一些比较常用的评估函数有文档频数( d f ) 、信息增益( i g ) 、 互信息( m i ) 、z 2 统计( c h i ) 、期望交叉熵( c e ) 和术语强度( t e r ms t r e n g t h ,t s ) 等。y i m i n gy a n g 2 1 3 在ac o m p a r a t i v es t u d yo nf e a t u r es e l e c t i o ni nt e x t c a t e g o r i z a t i o n - - 文中针对英文纯文本比较研究了上述五种经典特征选取方法 的优劣。实验结果表明:i g 和c h i 方法的效果最佳:d f 方法的性能同i g 和c h i 的性能大体相当,而且d f 方法还具有实现简单、算法复杂度低等优点;t s 方法 性能一般;m i 方法的性能最差。 ( 1 ) 文档频数d f :特征项的文档频率是指在训练语料中出现该特征项的文档数。 d f 方法基于如下假设:d f 值低于某个阈值的特征项是低频词,它们不含或含 有较少的类别信息。将这样的特征项从原始特征空间中移除,能够降低特征 空间的维数,提高分类的精度。同时将那些d f 值大于某个阈值的特征项也去 掉,因为这些特征项没有区分度。d f 方法形式简单,缺点也很明显。低频词 可能包含更多有用的信息,而高频词可能包含较少的信息。 ( 2 ) 信息增益:i g 通过统计某个特征项在一篇文档中出现或不出现的次数来预测 文档的类别。文本中单词t 的信息增益如公式( 2 - 1 ) 所示: g ( f ) - 一善p r ( q ) l 。g n ( c j ) + p r ( t ) 善p , ( q l t ) i 。g p ,( c ji t ) 一一 ( 2 - 1 ) 啊 + 所( f ) p ,心i t ) l o g p , 心l f ) 其中:刃 ) 表示一篇文档属于类别q 的概率;肼( f ) 表示特征项t 在一篇文档 内出现的概率;刃仃) 表示特征项t 不在一篇文档内出现的概率;p r 心i t ) 表 示特征项t 在属于类别c ;的文档内出现的概率;p ,( c ;l f ) 表示特征项t 不在属 于类别c i 的文档内出现的概率。m 是文档类别数。g ( t ) 值大则被选取的可能性 大,即特征项按照g 值排序。 ( 3 ) 期望交叉熵:文本中单词w 的期望交叉熵如公式( 2 - 2 ) 所示: ,c ,( 小p ( w ) ;p ( c ti 训。g 等 ( 2 - 2 ) 基于词语权重改进的朴素贝叶斯分类算法的研究与应用 第2 章r s s 技术与文本分类 它与信息增益唯一的不同之处在于没有考虑单词未发生的情况。 ( 4 ) 互信息:互信息m i 使用公式( 2 - 3 ) 计算某个特征项t 和类别c 之间的相关性。 乩g 面并专南 3 , 其中:a 为t 和c 同时出现的次数;b 为t 出现而c 没有出现的次数;c 为c 出现而t 没有出现的次数。n 为所有文档数。如果t 和c 不相关,i 0 1 ( t ,c ) 值为0 。如果有 m 个类,于是对于每个t 会有m 个值,取它们的平均,就可得到特征项选取所需 的一个线性序。大的m i 平均值的特征项被选取的可能性大。 ( 5 ) z 2 统计( c h i ) :使用m i 衡量特征项的重要程度时,只考虑了正相关对特征项 重要程度的影响。如果特征项t 和类别c 反相关,就说明含有特征项t 的文 档不属于c 的概率要大一些,这对于判断一篇文档是否不属于类别c 也是很有 指导意义的。为克服这个缺陷,c h i 使用公式( 2 4 ) 计算特征项t 和类别c 的相关性: 舳,- 两捌焉若 协4 , 其中:a 为t 和c 同时出现的次数;b 为t 出现而c 没有出现的次数;c 为c 出现而t 没有出现的次数;d 为t 和c 同时没有出现的次数。n 为训练集中的 文档数。和m i 类似,如果t 和c 不相关,则z 2 0 ,c ) 值为0 。同m i 相同,如 果有m 个类,每个t 就会有m 个值,取它们
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公路施工方案软件(3篇)
- 翻土车施工方案图片(3篇)
- 排球周年庆活动方案策划(3篇)
- 景区寻宝游戏活动方案策划(3篇)
- 北京市门头沟区2023-2024学年八年级下学期第二次月考数学试卷及答案
- 安徽省芜湖市南陵县2022-2023学年高三下学期高考二模地理考试题目及答案
- 心理护理问答题目及答案
- 校园录像面试题目及答案
- 河北2025中考作文题守常范文(7篇)
- 保护牙齿从我做起15篇
- 2024年4月自考05424现代设计史试题
- 水利安全生产风险防控“六项机制”右江模式经验分享
- 2023版马原专题课件:专题一马克思主义观;专题二辩证唯物主义世界观
- 2024年烟台蓝天投资发展集团有限公司招聘笔试冲刺题(带答案解析)
- 单侧双通道UBE手术
- 数智治水系统平台建设需求
- 展厅维护方案
- 工艺流程的可靠性与稳定性分析
- 管理学基础(第3版)全套教学课件
- 儿科护理学(高职)全套教学课件
- 汽车租赁服务投标方案
评论
0/150
提交评论