




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华北电力大学硕士学位论文 摘要 从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类 是实现这个任务的最重要的方法之一。特征选择和文本分类算法是文本分类的两个 重要的研究方向,特征选择是为了选取最能表示文本内容的特征来对庞大的文本空 间进行约减,既提高了文本分类的效率又可以通过去除噪音特征提高分类精度,而 好的分类方法能够有效地提高分类的效果。 本文针对现有特征选择算法没有利用有用的词条频率信息。没有定性分析的现 状,提出了基于词条频率的改进特征选择算法,对特征选择算法进行了定性分析,提 出了构造高效特征选择方法的约束条件和步骤,构造出一种高效的特征选择方法, 并用实验证明了改进方法的有效性。 关键词:文本分类、特征选择、词条频率、t c c a b s t r a c t a b s o l u t e l y , d r w a i n g t h ev a l u e di n f o r m a t i o nf r o mt h e l a r g eq u a n t i t y o f m i s c e l l a n e o u st e x ti sah a r da s s i g n m e n t ,w h i l et e x tc a t e g o r i z a t i o ni sj u s tt h a ts o l u t i o nt o i m p l e m e n tt h i s a m o n gw h i c h , t h ef e t u r es e l e c t i o na n dt e s tc a t e g o r i z a t i o na r i t h m e t i ca r et h e t w ok e yr e s e a r c hd i r e c t i o n s r e g a r d i n gt h ef e t u r es e l e c t i o n , t h eg o a lo fi ti st os e l e c tt h em o s t r e p r e s e n t a t i v ef e a t u r e , b yw h i c ht h et e x ts p a c ec a l lb ec o td o w n a tt h es a m et i m e ,n o to n l y t h et e x tc a t e g o r i z a t i o ne f f i c i e n c yi se n h a n c e d ,b u ta l s ot h ec a t e g o r i z e dp r e c i s i o ni si m p r o v e d b ya v o i d i n gv o i c ec h a t r a c t o r s o nt h eo t h e rs i d e ,t h el a t t e ro ni sas t r o n gw c a p o nt oa d v a n c e t h ec a t e g o r i z a t i o ne f f e c t u n d e rt h ec o n d i t i o n st h a tt h ee x i s t e df e a t u r es e l e c t i o nm e t h o dh a v en o tt a k e n a d v a n t a g eo ft h eu s e f u lt e r mf r e q u e n c yi n f o r m a t i o n ,a n db e i n gs h o r to fq u a l i t a t i v e a n a l y s i s t h i sd i s s e r t a t i o na c h i e v e sa sf o l l o w i n g , p r o p o s i n gaf e a t u r es e l e c t i o nm e t h o db a s e d o nt h et e r mf r e q u e n c y , a n a l y z i n gq u a l i t a t i v e l yt of e a t u r es e l e c t i o nm e t h o d ,i n n o v a t i n g t h ec o n s t r a i n e dc o n d i t i o na n ds t e p so fc o n s t r u t i n gh i g he f f i c i e n c yf e t u r es e l e c t i o nm e t h o d , f o r m a t t i n gah i g he f f i c i e n c yf e a t u r es e l e c t i o nm e t h o da n dp r o v i n gt h ea b o v em e t h o db y e x p e r i m e n t a s u n c h u n m i n g ( c o m p u t e ra p p l i c a t i o nt e c h n o l o g y ) d i r e c t e db yp r o f l i nb i y i n g k e yw o r d s :t e x tc a t e g o r i z a t i o n ,f e a t u r es e l e c t i o n ,t e r mf r e q u e n c y , t c c i 声明 本人郑重声明:此处所提交的硕士学位论文高性能特征选择及文本分类算法 研究,是本人在华北电力大学攻读硕士学位期间,在导师指导下进行的研究工作 和取得的研究成果。据本人所知,除了文中特别加以标注和致谢之处外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得华北电力大学或其他教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡 献均己在论文中作了明确的说明并表示了谢意。 学位论文作者签名:塑! 盘蜩 日期:塑:! ! ! 三 关于学位论文使用授权的说明 本人完全了解华北电力大学有关保留、使用学位论文的规定即:学校有权 保管、并向有关部门送交学位论文的原件与复印件;学校可以采用影印、缩印或 其它复制手段复制并保存学位论文;学校可允许学位论文被查阅或借阅;学校 可以学术交流为目的,复制赠送和交换学位论文:同意学校可以用不同方式在不同 媒体上发表、传播学位论文的全部或部分内容。 ( 涉密的学位论文在解密后遵守此规定) 作者签名:圣盔蜩 日 期:型丑:! :垦 导师签名:壹鹾耋 日期:逝z :三:省 华北电力大学硕士学位论文 1 1研究背景 第一章引言 我们正处在一个信息爆炸的时代l 全世界每年出版图书8 0 多万种,期刊4 0 万 种,其他文献信息资料4 0 0 万种;发表的科学论文大约5 0 0 万篇。加利福尼亚大学 伯克利分校的一项研究表明【1 】过去3 年中全球信息量翻了一番,据他们统计所得, 仅2 0 0 2 年全球由纸张、胶片及电子介质所记录的信息总量达到5 万兆字节,约等 于1 9 9 9 年的两倍,也就是说1 9 9 9 到2 0 0 2 年的三年问,全世界的信息量以平均每 年3 0 左右的速度飞速增长。i n t e r n e t 是信息增长的另一个主要增长渠道。随着 i n t e r n e t 的日益普及,i n t e r n e t 上的信息量也飞速膨胀。1 9 9 9 年的统计结果表明, i n t e r n e t 上约有3 5 亿个静态h t m l 页面,每天增加约1 0 0 万,截至到2 0 0 4 年1 2 月,g o o g l c 宣称已经索引的网页数量已经超过了8 0 亿。 面对如此庞大而且还在飞速膨胀的信息海洋,我们迫切需要一种有效的,高速 的工具来帮助组织与管理这些海量信息,其中一种有效的方法就是对这些信息进行 分类。由于这些信息大都是文本信息,文本分类就显得非常的重要。 本文主要工作是在中科院计算所信息检索实验室完成,受到北京市自然科学基 金资助。 1 2 研究意义 文本分类作为信息过滤、信息检索、文本数据库、数字化图书馆和邮件分类等 领域的技术基础,有着广泛的应用前景。 ( 1 ) 信息过滤 网络的发展与普及,大大方便了我们获取信息。但信息量之大给人们对信息的 处理带来的很大困难,无法快速地得到所需的信息,同时还会带来一些反面的信息。 信息过滤技术可以用来解决这些问题,信息过滤的本质是一个分类问题,既可以用 来将用户反感的信息滤掉,也可以用来将用户感兴趣的信息过滤出来,主动地推送 给用户,方便了用户快速准确地获得信息。 ( 2 ) 信息检索 把大量的文本信息按主题层次归类组织可以极大地简化对信息的检索。如果按 照类别对文档进行检索或对检索结果进行一次文档分类,都可以提高检索的查准 率。目前很多w e b 搜索引擎站点都使用了w e b 文档层次化分类组织。只是,目前主要 以人工分类为主。 1 华北电力大学硕士学位论文 ( 3 ) 文本数据库 随着研究的深入,文本数据库的功能已经不再局限于存储、组织和查询文档信 息,而是要提供多层次的服务,如文本挖掘等。文本分类技术不仅对文本数据库如 何存储、组织文档具有重要的意义,而且也是文本挖掘的重要内容。 ( 4 ) 数字化图书馆 图书馆的数字化管理是大势所趋,图书期刊全文数字化的比重正日益增大。对 图书进行归类时,图书管理员不可能对各个学科都非常了解,使用自动文本分类技 术,可以帮助图书管理员正确地对图书资料进行归类。 ( 5 ) 邮件分类 电子邮件作为最广泛和成功的i n t e r n e t 服务已经成为人们日常生活中不可缺 少的组成部分。但是在给人带来巨大方便的同时,也日益显示出其负面影响,那就 是我们每天收到的邮件中有很大一部分是那种“不请自来”的所谓“垃圾”邮件, 它们或者是推销广告,或者是一些有害的不良信息,甚至还有病毒。这些垃圾邮件 不仅对网络安全形成威胁,而且还造成了各方面资金上的巨大浪费。2 0 0 2 年由于垃 圾邮件造成的损失大约在9 0 亿至1 0 0 亿美金,2 0 0 3 年这个数据是成倍增加。2 0 0 4 年7 月,中国互联网络信息中心( c n n i c ) 发布的第十四次中国互联网发展状况统计报 告显示垃圾邮件在数量上是正常邮件的两倍。对垃圾邮件进行“围剿”已经刻不 容缓。目前邮件分类可以看作通常的文本分类问题,它可以分为两种模式。其一是 两类模式,即按照垃圾与非垃圾来分类;另一种是多类模式,比如工作、会议、垃 圾等。 1 3 本文工作 近些年来,文本分类中的特征选择和分类算法的研究取得了很大的发展,但是 在特征选择中有一些信息并没有充分利用也没有构造特征选择算法的标准。在分类 算法中,对于最近邻和贝叶斯等模型简单,分类效果较差的改进也不尽如人意,本 文针对这些做了以下工作: 1 利用文本中的1 1 p 信息对d f 、i o 、m i 等经典特征选择方法做了改进,并通 过试验证明改进的特征选择方法有效地提高文本分类的效果 2 对特征选择方法进行定性分析,提出有效的特征选择方法必须满足的三个约 束条件,并根据这些约束条件构造一个有效的特征选择方法,并实验验证其有效性。 3 分析最近邻和贝叶斯等弱文本分类器分类效果较差的原因,实验验证k n n 分类器的分类器偏差,提出弱文本分类器改进的方向。 2 华北电力大学硕士学位论文 1 4 论文组织 本文从对文本分类性能有重大影响的两个方面:特征选择和分类算法两个方面 进行阐述。 第一章介绍了文本分类的研究背景,从多个方面阐述了文本分类的重要意义 第二章对文本的表示方法、特征选择、文本分类的应用及文本分类算法等方面 做了详细的介绍。 第三章介绍了一种d f 的粗糙集解释,并提出了一种基于t f 的改进特征选择方 法。 第四章分析了特征选择算法的特点,指出高性能特征选择算法的构造方法,并 构造出一种高性能的特征选择方法,并用试验验证。 第五章分析了弱分类器的分类效果较差的原因和一些改进的算法,并指出了弱 文本分类器改进的方向。 第六章总结与展望,对本文工作进行总结,指出下一步工作的方向。 3 华北电力大学硕士学位论文 第二章特征选择及文本分类综述 2 1文本的表示方法 计算机并不能读懂文章,从根本上说,它只认识0 和1 。因此,跟所有机器学习 问题一样,要想让计算机自动对文本进行分类,就需要把一篇文本表示成一个个特 征,比如词( 包括字) 、n - g r s m 、词组、概念等等。下面介绍文本的表示方法。 2 1 1 词 词是应用的最广范的特征。对于英文或相似语种来说,由于单词之间由空格或 标点符号隔开,因而取得英文单词是非常容易的。对于中文而言,词与词之间没有 明显的界限,取得词就比较困难,需要进行分词。 通常在文章中会有很多词对于文章的内容没有很大的影响,例如中文中的“的、 地、得”,英文中的“a ,a l l ,t h e ”等等,这些词我们称之为停用词,为了文本分 类的速度,我们会在预处理阶段把停用词都去掉。 由于英文中存在各种时态、语态及名词的单复数,因此英文单词常常有多种形 式,如m a k e 就可以以四种形式出现,即m a k e 、m a k e s 、m a k i n g 、m a d e 。但是这些形 式都基本表示一个意思,于是,人们常常借助于词干还原来压缩词空间。 2 1 2 n - g r a m 在英语等西方语言中显得非常简单的分词问题,在汉语等亚洲语言中却显得十 分困难。因为分词是一项非常复杂的工作它的性能常常依赖于词典的质量与规模; 另外,鉴于语言的领域相关性和随时间变化的特性,采用词语作为文档属性的方法 和系统需要不断修正和扩充词典,并改进分词技术,以适应语言环境变化因此, 独立于语言的文本表示方式一字符串( n 掣a m ) 方式l2 l 逐步受到人们的重视。字符串方 式根本不考虑组成文本的语义单位是字、词还是词组,而是将整个文本看成是由不 同字符组成的字符串,因而可以方便地表示包括汉语、阿拉伯语在内的各种语言文 本文档。在著名的t r e c 5 和t r e c 5 中,人们作了几组实验,用以比较基于词的 中文信息检索和基于n g r a m 的中文信息检索例。实验结果表明,两种方法可得到近 似的检索效果。但n g r a m 也有其不足之处。一个显著的缺点就是它的计算量大。同 时n g r a m 表示还存在着数据噪声大、易于过学习等缺点。 此外,还有词组、概念等表示方法,详细介绍请参考文献【4 l 【5 】【6 】用。 4 华北电力大学硕士学位论文 2 2 降维技术 文本分类中存在两大难题,即数据的“高维性”和“稀疏性”,这两个问题在 时间和精度上影响着文本分类的结果。因而,文本特征空间的降维就有着重要的现 实意义。文本空间的降维技术主要有两类;特征选择和特征提取( 特征重构) 。 2 2 1 特征选择 特征选择就是透过某种选择标准,去除对文本分类贡献较小的特征从而达到降 维的且的。主要的特征选择方法有:文档频率、信息增益、互信息、期望交叉熵、 文本证据权、奇异率、x 2 统计量。 ( 1 ) 基于文档频率( d o c u m e n tf r e q u e n c y ) 方法 d f 是指在语料集中包含某个词条的文档数目通过统计语料集中每个词条的 d f 值,去除d f 值小于预定阀值的词条。d f 是一种经验方法,并没有明确的理论解 释( 稍候给出一种基于粗糙集的d f 的理论解释) ,但是因为d f 方法简单,执行效 率较高,效果与复杂的统计学方法相差不多,因而也有较广的应用 ( 2 ) 互信息( m u t u a li n f o r m a t i o n ) 项t 和类c 之间的互信息定义如下: m ,( f ,c ) - i o g2p ( f c ) 一i o g2p ( f ) “等 倍- , 乩g :揣 对予一个项t 和一个类c ,我们可以得到如下数据:a 为项t 在文本中出现并且 该文本属于类c 的文本数,b 为项t 在文本中出现但该文本不属于类c 的文本数,c 为项t 在文本中没有出现但该文本属于类c 的文本数,d 为项t 在文本中没有出现而 该文本不属于类c 的文本数。如表2 - 1 所示。 表2 - 1 项、类关系表 cc t a b f cd 设n 为u i l 练文本的总数,则我们可以用下面的公式来近似的表示项t 和类别c 5 华北电力大学硕士学位论文 之间的互信息: 柳( f ,c ) - l 0 9 2 丽百a x 丽nj ( 2 - 2 ) 式( 2 - 2 ) 表示的是一个项和一个类别之间的互信息,而我们通常用平均互信 息和最大互信息来衡量一个项和语料集之间的互信息: m i 舶) - 艺p ( c f m ( f ,q ) ( 2 3 ) 柳一( f ) i m ,q ) ) ( 2 4 ) 互信息的缺点在于,没有考虑项出现的频率,在很大程度上会受到项的边缘分 布的影响,由前面的公式可知,在条件概率相同的情况下,稀有词汇将获得更高的 互信息量,从而造成了互信息评价函数常倾向于选择稀有单词,因而这种方法不适 合于对那些出现频率差别很大的项进行比较评估。 ( 3 ) 信息增益( i n f o r m a t i o ng a i n ) 方法 信息增益是通过计算一个词项能带来多少用于分类的信息,来衡量词项对于分 类的重要度。 设s 是n 个文本构成的训练集合。c : c 1 ,c 2 ,q ) 为类别集合。设墨是s 中属于 类别a 的文本数,则一个文本关于其类别的熵( 即期望不确定度) 为: 7 瓴,矿,凡) - 一著p f l o g z ) ( 2 - 5 ) 其中,a 是任意样本属于类q 的概率,该概率可用墨s 来估计。 设根据项t 是否在文本中出现,可把样本集分为两类,一类a 是t 在其内容中 出现了的文本,另一类b 是t 没有在内容中出现的文本。则a 类中的文本关于其类 别的熵为: e ( f ) - 一善p i f ) 1 0 9 :p l f ) ( 2 - 6 ) 其中,p i f ) 表示当t 出现在文本中时,文本属于类q 的概率,可以用a 中属 于类q 的文本数与a 中所有的文本数的比值来估计与之类似,b 类中的文本关于 其类别的熵为:t e ( - ) 一一吝p 瓴l - ) l o g :p ( c l i 乃 6 ( 2 - 7 ) 华北电力大学硕士学位论文 其中,p i f ) 表示当t 没有出现在文本中时,文本属于类别q 的概率,可用b 中属于类c 。的文本数与b 中所有文本数的比值来估计。 因而,如果训练文本集按项t 来划分的话,文本关于其类别的熵将变为: ,( f ) - p o ) e o ) + p ( f ) e ( f ) 一p ( f ) 多p i t ) l o g :p 心i t ) 一p ( - ) 窆p ( c fi t ) l o g :p i - ) ( 2 8 ) 其中,p ( t ) 为项t 在文本中出现的概率,可用l a i s 来估计,p ( t ) 为项t 不在 文本中出现的概率,可用l b l s 来估计。一般情况下,此时的熵将比原来的熵 i ( s l ,s 2 ,s n ) 更小,即这个项给我们提供了一定的信息,使得分类时的不确定 程度降低了。它提供的信息量的多少可以用信息增益来表示: r e ( t ) i x ( s x ,屯,) 一x ( o 哪) 砉p ) l 0 9 2 雩学+ p ( - ) 砉p 1 0 9 :号学 。, 信息增益的不足之处在于,它考虑了项未出现的情况,即( 2 - 9 ) 的右边后半 部分。虽然某个项不出现也可能对判断文本类别有贡献,但实验证明【羽,这种贡献 往往远远小于它所带来的干扰,特别是在类分布和项分布高度不平衡的情况下。对 某一类来说,绝大多数项都是“不出现”的,即p ( t ) p ( t ) ,此时信息增益的 主要部分是信息增益公式中后一部分( 代表项不出现的情况) ,而不是前一部分( 代 表项出现的情况) ,这时信息增益的效果就会大大降低了。通过实验得到,原始t f i d f 法的分类精度为7 3 ,用信息增益进行特征选择后精度提高到8 2 ,但在处理上述 。高度不平衡”数据集时,精度下降到7 5 。 上面三种特征选择方法是最常用和效果效率较好的特征选择方法,剩余的像期 望交叉熵、文本证据权、奇异率、x 2 统计量等特征选择方法这里就不详细介绍了, 有兴趣的读者可以参考文献【9 】。 2 2 2 特征提取 特征提取( f e a t u r ee x t r a c t i o n ) 又称综合评估法,它是将原有的特征集t 加以 联系和转化以构建新特征集t 的过程,一般i t l 1 ,那么w ( 1 ,n 2 ) = w ( 1 ,1 ) + w ( 1 ,2 - 1 ) ( 由定义1 ( 5 ) 知) = 1 + w ( 1 ,n 2 1 ) ;= 1 1 2 同样的,w ( n l ,n z ) = w ( n 2 ,n 1 ) ( 由定义1 ( 3 ) 知) = w ( 1 1 2 , 1 ) + w ( n 2 ,n 1 1 ) = = n l w ( n 2 ,1 ) = n l w ( 1 ,n 2 )- - n l x n 2 = 罗弗fx 捍, l f 乃2 所以等式成立。 当m 一1 拍2 时w ( n 1 ,1 1 2 ,s i n 1 ) = 罗厅f 厅,那么 w ( n l ,n 2 ,n m ) = w “l 订:_ 一l b b n 2 + + n m n 叭n 2 ,n 2 ”n m b n l “n 2 + + n m ) + :渤煳厂。涩枷, ( 由定义i ( 4 ) 知) 由归纳法可知原等式成立。 5 d f 的粗糙集的具体解释 下面我们给出d f 的粗糙集的具体解释。 给出一个文本分类的信息系统的四元组 ,u - - d 。d 。 为文档集合, 1 3 华北电力大学硕士学位论文 a = t l ,“,t 。 为特征( 词条) 集合, 为一个u v 的信息函数: l 3 a 毪:搬潜叭i v 是t 。( 1 i k ) 的取值范围,v _ 0 ,1 ,f ( 3 - 1 ) 表3 1 是一个信息表的例子,每一行代表每一个类别d i ,d 。d 。,每个文档 的属性t l ,t 。t 。,l ,t i 代表词条( 特征) 。 表3 - 1 一个文档的信息表 ! !1 2b旦 d t o 0 1l d ,o1o1 d 3 1 o1 1 d 4 0011 d so00 1 d o1o1 在表3 - 1 中,t 。只在d 。中出现,t 将 d 。,d :,d b ) 划分成两个等价类 d 。,d 。,d 。, d 。,d 。 和 d 。 ,每个等价类中文档的数目分别为n l = 5 ,r l z = 1 。 根据定理1 ,t l 对于 d 。d :d 。 的区分能力( t 。的知识量) 为 矿k 翟刑,。5 姐。5 。 同样的:乃24 2 = 8 ,乃23 x 3 = 9 ,l 厅,2 0 7 ,r 3 以 丑 丑 u 代表一个语料集中的所有文档,n 代表u 中的文档数目,m 代表文档中出现 词条t 的文档个数,那么t 的知识量定义为: ,。= w ( 1 ,1 ) m ( n m )( w ( 1 ,1 ) 是一个常量) ( 3 2 ) 在式( 3 2 ) 中。= w ( 1 ,1 ) m ( n m ) a ( n m ) 表明: ( 1 ) 当r e = n 2 时,形r 。最大。 ( 2 ) 如果m 1 啦s n 2 ,那么矸0 山山 ( 3 ) 如果m l m m 2 n 2 ,那么, 矸0 ,: 我们计算训练集中每个词条的知识量并且去除特征空间中知识量小于某一个 预定阀值的词条,这就是我们提出的不考虑词条频率的基于粗糙集的特征选择方 法。词条的信息量排列和d f 排列是相同的。这就是d f 方法的解释。 3 3 改进的d f d f 没有考虑词条频率,在一个文档中出现多次的词条可能比只出现一次的词条 1 4 华北电力大学硕士学位论文 有更多的信息,因而我们把文档分为3 个等价类而不是2 个 给定一个四元组 代表信息系统,u = d b ,d 。 为文档的集合,a = t 。,t 。 为特征( 词条) 集合,v 是t 。( 1 $ i k ) 的取值范围,v = 0 ,1 ,2 ) ,定义一 个信息函数f ,u v : f ( d 3 ;e :竺翟竺竺& ,一加岛。鼬胁( 3 - 3 ) 表3 2 给出一个这样的信息表的例子 表3 - 2 文档信息表( 考虑词条频率) 在表3 - 2 中,词条t ,在d - 和d 5 中出现一次,t 2 在d l 中出现一次,在d 5 中出 现不止一次,t l 和t :的文档频率相同,但是 旷。融舢,观娟。8 矿 = ( 1 x l + l x 4 + 1 x 4 ) = 9 , ,马 ,五 1 3 代表语料中的文档数目,词条t 把文档分成3 个等价类,这三个等价类中的 文档数目分别为n 。r t 。,1 1 。,n t 代表t 没有出现的文档数目,n 2 代表t 只出现一次的文 档数目,m 代表t 至少出现一次的文档数目。t 的知识量可以定义为; 厂,。荟y 雄,( 3 - 4 ) 对于训练集,我们按照( 3 4 ) 式计算每个词条t 的d v ( t ) ,并对所有的词条排序, 去掉特征空间中值较低的词条。这就是我们改进的d f 方法,称之为i m p r o v e d d f 。 3 4 改进的信息增益 改进的信息增益通过一个词条在文档中出现一次、多次还是没有出现来计算分 类的信息量。化磁。代表目标空间中的类别集合,毛代表t 出现一次,f 2 代表t 出现 多次。那么t 的信息增益定义为: g ( f ) 一一:= i b 如) 1 0 9p ,( c j ) + p ,6 ) 墨p , i ;) l o g p ,( c li - ) 1 5 霄 华北电力大学硕士学位论文 + p ,瓴) = d b t z ) l o g p , ( qi ) + b ( f 2 ) 二p ,( c l t 2 ) l o g p , ( qi t 2 ) ( 3 - 5 ) 这就是我们改进的i m p r o v e d i g 方法。 3 5 改进的互信息 对于给定的类别c 和一个词条t ,a 。表示c 类文档中包含t 的文档个数( t 只出 现一次) ,a 2 表示c 类文档中包含t 的文档个数( t 至少出现两次) 。b l 表示非c 类 文档中包含t 的文档个数( t 只出现一次) ,b 2 表示非c 类文档中包含t 的文档个数 ( t 至少出现两次) ,c 表示c 类文档中不包含t 的文档个数,n 表示c 中所有文档 的数目。那么t 和c 之间的互信息定义为: 地,c ) 一l o g p ,p 博 ( j t l 。 肼c 西) ,断) - l o g 而p r 万0 2 云c 丽) ( 3 - 6 ) - 7 以近似的表示为: c ) - l o g 币 j ) 礼g 瓦丽a 2 丽x n 那么平均互信息为: k ( f ) - 三。b v 瓴,q ) + :。p ,( c i v 也,q ) 这就是我们改进的i m p r o v e d - m i 方法。 3 6d f 的进一步改进 ( 3 7 ) ( 3 8 ) ( 3 - 9 ) 本文上面利用t f 信息对d f 进行改进的部分,只是将文档分成三个等价类,将 词条出现一次的等价类和出现多次的等价类同等对待,而事实上,我们认为词条出 现多次的等价类比出现一次的等价类重要,由于公式( 3 - 4 ) 为一个递增函数,因而 我们可以进一步改进加入1 1 f 信息的d f 方法。 d f ( 0 一( ,l lx l 2 + c ( x n 3 + n 2 坞) ) ( 3 1 0 ) 其中c 1 。 由语料的分布特点我们可以预测c 为大于1 的值,而且随着c 值的增大,起初 t f 值大的词条的权重排名会逐渐增加,也就是说在用d f 特征选择方法进行特征选 择时,d f 值相近而 i t 值大的特征会被首先选择出来,而随着c 的值逐步增大,会 】6 华北电力大学硕士学位论文 有一个临界点,在c 达到这个临界点后,特征选择的排名会在一个基本稳定的状态, 在分类效果的曲线上我们可一看到前面是一个向上的曲线而后基本是一条直线。 3 7 试验结果及分析 3 7 1 语料集及分类器 在这个试验中我们使用的语料集为r e u t e r - 2 9 ,它是路透社1 9 8 7 间播发的2 1 ,5 7 8 篇财经新闻。每篇新闻可能属于一个或多个类别。最多的达1 6 个,平均1 2 个。而且 这2 1 。5 7 8 篇财经新闻还
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 音乐治疗神经发育障碍-洞察及研究
- 2025年护理员派出协议书
- (2025年标准)啥叫代办协议书
- 疫苗免疫持久性评估-洞察及研究
- 学校信息化教育解决方案定制协议
- 2025年新客户看房协议书
- (2025年标准)回收保管协议书
- (2025年标准)婚内财产协议保障协议书
- (2025年标准)同意拆危房协议书
- 2025年新燃油供货合同协议书
- 2023砌体结构后锚固技术规程
- 子宫内膜癌医师教学查房市公开课一等奖课件省赛课获奖课件
- 膝痹中医护理方案效果总结分析报告
- 铸造基础知识及常见铸造缺陷简介演示
- 中式烹调师(高级技师考试资料)
- 仓储技术与库存理论简论
- 日地空间灾害性天气的发生发展和预报研究课件
- 西安大唐不夜城的项目整体推广的策略提案的报告课件
- 可下载打印的公司章程
- 少先队辅导员工作记录表(共7页)
- 公开课教学评价表
评论
0/150
提交评论