




已阅读5页,还剩89页未读, 继续免费阅读
(计算机软件与理论专业论文)基于机器学习算法的文本分类系统.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 任石 3七 本论文先是从机器学习、 模式识别、数据挖掘等领域讨论文本分类的 应用, 研究了 文本分类和这些领域之间的 联系。 然后, 详细地介绍了文本分类的各个步 骤, 包括 特征提取和文本分类方面的经典算法以及我们的 研究中出现的算法。 最 后, 我们提出了, - k l d分 类算法、基于l e e 模型的贝叶 斯分类和t f i d f 分类, 比 较了 它们的试验性能和优缺点。 新的 文本分类算法: - k i d 相对于 k l d , 它简化了类和文档的 特征向 量的计 算, 去掉了 过多的参数以 及,的约束条件。它在处理大规模的文档和高维特征 空间 上的分 类精度与k l d相当,比t f i d f 要好。同时,计算量比k l d小, 运 行速度较快,克服了两者的缺点,取得了良好的性能。 我们在l e e 模型的基础上将数学期望引入了 影响度计算公式, 消除影响度在 正类和反类训练数据集上的倾斜性, 试验结果也表明了改进( 或调整) 的必要性。 随后我们对测试文档的 部分读 策略进行了 研究, 其中随机读并没有表现出比全读 更好的 性能, 而启发式的读取策略, 却表现了 非常高的分类精度。 将l e e 模型的 思 想 运用 于n a i v e b a y e s (n b ) 分 类和t f id f 分 类, 比 较 了 影 响 度 和t f - id f 两 种 不同的文档表示方法对分类精 度的影响。 结果表明, l e e 模型的 部分读取思想能 显著地提高 算法的分类精度,影响度的文档表示方法比t f - i d f 更好一些。 关键词 : di s t a n c e一 机器学习 模式识别 文本分类t f i d f k u l l b a c k - l e i b l e r k l d贝叶斯方法l e e 模型影响度 t e x t c a t e g o r i z a t i o n o n ma c h in e l e a r n i n g a l g o r i t h m ma j o r : c o m p u t e r s o f t w a r e a n d t h e o r y na me :j i n xi a o b o s u p e r v i s o r : v i c e - p r o f e s s o r x i a q i n g g u o abs tract f i r s t t h e p a p e r i n t r o d u c e s t e x t c a t e g o r i z a t i o n i n t h e a p p l i c a t i o n o f ma c h i n e l e a rn - i n g , p a t t e r n d i s c r i mi n a t i o n a n d d a t a m i n i n g a n d e x p l o r e s t h e c o n n e c t i o n b e t w e e n t e x t c a t e g o r i z a t i o n a n d t h e m. n e x t , we p r e s e n t t h e p r o c e d u r e o f t e x t c a t e g o r i z a t i o n i n c l u d i n g c h a r a c t e r s e l e c t i o n a n d t e x t c l a s s i f i c a t i o n a l g o r i t h m . a t l a s t , w e p u t f o r w a r d , 一 k l d, b a y e s wit h l e e mo d e l , t f i d f w i t h l e e mo d e l . , 一 k l d s i mp l i f y t h e c o u n t i n g o f v e c t o r a n d d e c r e a s e t h e n u mb e r o f t h e p a r a m e t e r s a n d r e s t r i c t i o n s . i t i s a n e w e f f e c t i v e o n e w e l l s u i t e d f o r t e x t c a t e g o r i z a t i o n t a s k w h i c h e v e n w o r k s o n t h e c o n d i t i o n : h i g h n u m b e r o f d o c u m e n t s a n d h i g h d ime n s i o n a l s p a c e o u t p e r f o r min g . t h e r e s u l t s s h o w t h a t s - k i d c o u n t s t h e v e c t o r o f t h e c l a s s a n d t h e d o c u me n t m o r e s i m p l y a n d a c h i e v e s a c o r r e s p o n d i n g p r e c i s i o n c o m p a r i n g w i t h k l d . o n t h e w h o l e , t h e p e r f o r m a n c e o f r - k l d m e t h o d i s p r e f e r a b l e t o k l d me t h o d . a c c o r d i n g t o l e e s m o d e l a n d b a y e s p r o b a b i l i t y , w e r e d e f i n e t h e i n fl u e n c e o f t h e w o r d a n d e l i mi n a t e t h e s k e w n e s s . t h e n , w e c o m p a r e tw o d i f f e r e n t v e c t o r r e p r e s e n t a t i o n -i n fl u e n c e a n d t f i d f w h i c h s w a y t h e c l a s s i f i c a t i o n p r e c i s i o n a n d a n a l y z e t w o f a c t o r s w h i c h e f f e c t t h e a l g o r i t h m d i f f e r e n t l y i n t h e m o d e l . i n t h e e n d , e x p e r i me n t s s h o w t h a t h e u r i s t i c m e t h o d a n d i n fl u e n c e r e p r e s e n t a t i o n c a n i m p r o v e n a i v e b a y e s g r e a t l y a t m u c h l o w e r t i m e c o s t k e y w o r d s : ma c h i n e tfi df l e a rn i n g p a t t e r n d i s c r i mi n a t i o n k u l l b a c k - l e i bl e r d i s t a n c ek ld t e x t c a t e g o r i z a t i o n b a y e s le e mo de li n flu e n c e 西北工业大学硕士学位论文 第 一 章绪 创 仑 1 .1选题意义 随着网上 信息的迅速增长, 文本分类技术逐渐成为处理和组织文档的关键技 术。文本分类可以 根据用户阅读新闻的爱好来建立一个个人的网络新闻过滤器 p 。 或将新闻自 动分类 2 j 或指导用户在 w 。 上搜索。因为手工建立文本分类器 比 较困难, 并且是耗时的, 因 此通过训练样本来学习和优化文本分类器成为一个 解决的方法。 尽管文本分类领域己有大量的研究, 但是如何将相关领域的最新研 究成果和思想应用到文本分类中, 仍然是一个颇具挑战的研究。 该毕业论文 试图 将其他领域 ( 数据挖掘, 机器学习, 演化计算, 神经网 络)的 学习和优化算法应 用到文本分类方面,希望能丰富和改进信息提取领域的分类算法。 1 .2 文献综述 1 9 7 1年 , r o c c h io 1 提出 了 在 用 户 查询 中 不断 通过 用 户 的 反 馈来 向 用 户 提 供 更有用的信息。ma r k v a n u d e n 4 1 将这种方法引入文本分类,根据分类器分类的 正例和反例的数量来学习类的权向量 。缺点是只能对少量的文本进行学习。 m u n 5 提出基于错误驱动 ( e r r o r - d r i v e n ) 的学习方 法,它通过乘除来 修改正例和 反例的权重参数。 1 9 7 9 年, v a n r i j s b e r g e n b 总结了前人的研究, 对信息提取的各个方面 ( 信 息过滤, 分类以 及评估) 作了 详细的 论述。 文中提出的文本向 量表示, 分类算法 的评估标准 ( p r e c i s i o n , r e c a l l ) 直到现在仍在使用。1 9 9 5年, v i p n i k l 基于 统计理论提出了 支持向量机( s u p p o r t v e c t o r m a c h i n e ) 。 实质是寻找最优的高维 分类超平面。由于它以成熟的统计理论作为基石,因而得到广泛的应用。关于 5 v m的应用和改进至今仍然是研究的热点。 j o a c h i m s l 8 1 根据特征值之间的相关 性,用 s v m来对文本进行分类。 l e o n v e r s t e e g e n 1 把 b a y e s 的 统 计 方 法引 入 文 本分 类中 得 到 简 单 的b a y e s 方法。 j o a c h i m s ( 0 ) 将f u h r l 区分文档和文 档的表示的思 想 ( 通过一个函 数 f 将 西北工业大学硕士学位论文 第 一 章绪 创 仑 1 .1选题意义 随着网上 信息的迅速增长, 文本分类技术逐渐成为处理和组织文档的关键技 术。文本分类可以 根据用户阅读新闻的爱好来建立一个个人的网络新闻过滤器 p 。 或将新闻自 动分类 2 j 或指导用户在 w 。 上搜索。因为手工建立文本分类器 比 较困难, 并且是耗时的, 因 此通过训练样本来学习和优化文本分类器成为一个 解决的方法。 尽管文本分类领域己有大量的研究, 但是如何将相关领域的最新研 究成果和思想应用到文本分类中, 仍然是一个颇具挑战的研究。 该毕业论文 试图 将其他领域 ( 数据挖掘, 机器学习, 演化计算, 神经网 络)的 学习和优化算法应 用到文本分类方面,希望能丰富和改进信息提取领域的分类算法。 1 .2 文献综述 1 9 7 1年 , r o c c h io 1 提出 了 在 用 户 查询 中 不断 通过 用 户 的 反 馈来 向 用 户 提 供 更有用的信息。ma r k v a n u d e n 4 1 将这种方法引入文本分类,根据分类器分类的 正例和反例的数量来学习类的权向量 。缺点是只能对少量的文本进行学习。 m u n 5 提出基于错误驱动 ( e r r o r - d r i v e n ) 的学习方 法,它通过乘除来 修改正例和 反例的权重参数。 1 9 7 9 年, v a n r i j s b e r g e n b 总结了前人的研究, 对信息提取的各个方面 ( 信 息过滤, 分类以 及评估) 作了 详细的 论述。 文中提出的文本向 量表示, 分类算法 的评估标准 ( p r e c i s i o n , r e c a l l ) 直到现在仍在使用。1 9 9 5年, v i p n i k l 基于 统计理论提出了 支持向量机( s u p p o r t v e c t o r m a c h i n e ) 。 实质是寻找最优的高维 分类超平面。由于它以成熟的统计理论作为基石,因而得到广泛的应用。关于 5 v m的应用和改进至今仍然是研究的热点。 j o a c h i m s l 8 1 根据特征值之间的相关 性,用 s v m来对文本进行分类。 l e o n v e r s t e e g e n 1 把 b a y e s 的 统 计 方 法引 入 文 本分 类中 得 到 简 单 的b a y e s 方法。 j o a c h i m s ( 0 ) 将f u h r l 区分文档和文 档的表示的思 想 ( 通过一个函 数 f 将 西北工业大学硕士学位论文 文档映射到文档的表示) 对 b a y e s 方 法进行改进, 从文档的t f 工 d f 表示方法中推 导出 p r t f i d f方法。 随着数据挖掘,人工智能, 神经网络, 统计学, 演化计算, 机器学习的不 断发展。 这些领域的学习和优化方法被应用到文本分类中。 常用的方法有最近的 k 邻居分类算法 ( k n n ) . 线性回归方法的分类和预测1 1 2 1 , 神经网络的前馈网络的 反向传播算法, 决策树学习, b a y e s 信念网 络学习 1 3 1 神经网络中的w h , e m 算法 1 4 1 ,本质上是通过沿平方误差的梯度下降方向 来不断的 改进类的权向量。 传统 的遗传算法 1 5 1 基于种群中的 个体之间的 优胜劣汰以 及不断的迭 代个体来优化类 权重。 粒子群优化算法与之不同, 它基于种群间的信息共享从种群的其他个体和 其他种群不断的学习 来达到最优1 6 1 。 最新的 研究集中在神经网 络和演化计算的 分类方法上。 在国内 研究文本分类方面, 庞剑锋等1 7 1 实现了一个文本分类系统。 汪伦文等 1 8 1 利用粗糙集约减非数值型的属性冗余信息,对数值型特征构 造领域覆盖的几 何模型来实现精确的 分类。 孙德山等1 9 1 针 对支持向 量回归算法的随机误差的方 差不等以及不独立 问题提出了利用加权的方法来给予不同的影响因素不同的影 响 程度, 取得了较好的效果。 覃刚力2 0 1 等将机器学习中主动学习方法引 入文本 分 类,它通过学习者主动影响样本的训练过程。 张玲1 2 1 1 等提出将 n维的 分类超 平面映射成球形分类面,对文档的线性不可分问题提供了一个较好的解决方案。 另外,关于中文文档的分类遇到的第一个问题是中文词的提取,基于1 2 2 1 的 英文的词性标注方法,李晓黎1 2 3 1 对中文的词性标注进行了研究。并且张月杰等 2 a 提出了 汉语的文本自 动分类的模型。可以想见, 汉语文本的分类方法仍然是 个值得研究的方向。 2 0 0 3 年, j o n e s 2 5 1 系统的总结了 文档提取的发展历程, 分析了 各种文 本分类 模型之间的联系, 他将所有的提取模型看作查询与相关文档之间的关系的作用特 征。 v s m ( v e c t o r s u p p o r t m o d e l ) 将这个关系看作是一 个客 观的 近似关系, i m ( i n d u c t i v e m o d e l ) 将它看作是一个联接关系,n o n - c l a s s i c a l l o g i c m o d e l 将它看作一个证明关系。 概率模型从查询到文档有一个产生关系。 最近又有一个 西北工业大学硕士学位论文 新的模型称作语言模型 ( l a n g u a g e m o d e l ) 它也是一个产生关系, 但它是从文档 到查询的 产生关系, 该 模型的潜在应用在多任务上( 像文本翻译, 文本摘要等) z h a o x u 等 2 6 1 介绍了s v m r o h h i o 的 消极反馈方法和 s v m 对反 馈的积极学习,前 者从最相关文档中得到反馈,缺点是学习率不高,后者从不确定的 ( 未标记)文 档中得到反馈, 缺点 提供这种不相干文档让用户作出判断会让用户失去耐心, 该 论文结合它们的 优点得到 h y b r i d s v m r f方法。b i g i 2 7 提出 将 k u l l b a c k - l e i b e r 距离应用到文本分类中, k u l l b a c k - l e i b e r 距离在这里被 用来计算文档的特征分 布和类的特征分布之间的距离。 将文档分到与它的 分布最接近的 类中。 为保证分 母中的某些特征的 概率不为0 , 给这些未出 现的特征的概率分配小概率, 在文档 中已出现的特征的概率以 一定的比率下调。k o s t e r 2 8 1 研究了 用短语 ( 或词组与 词的混合表示) 表示文档和类的 特征的方法, 结果 却表明这不但没有改善分类的 精度, 反而增加了计算的复杂性。 这表明 用单词来表示特征项己 经足够了。 总之, 2 0 0 3 年的 最新文献表明 , 基于黑箱法的 统计学习方法与 基于语义分析 的学习方法相比, 仍然占 有很大的 优势,以s v m ( s u p p o r t v e c t o r m a c h i n e ) 为代 表。当然, 未来的发展趋势仍不明 显。 1 . 3 潜在的研究方向 根据文献的分析,我们认为有以 下的潜在的 研究方向 可供研究: ( 1 ) 1 2 8 1 的分类方法与其它的经典的计算文档和类向量的方法的结合对提高 算法性能的可能 性,比 如, r o h h i o 反馈方法13 1 文档长度的变化对于k l d的方法 的影响。该方法在什么样的情况下达到最佳性能。 ( 2 ) 对于很多的算法,比如,r o h h i 。 反馈方法3 1 中的参数如何用自 适应的 演化策略来优化这些参数 。 演化算法的各个参数包括表达方式, 选择策略, 变异 方式,评估函数的选取等如何选择。 ( 3 ) 数理统计 2 9 1 中求最优的统计假设的方法如何来给出最优的分 类方法和 评估学习算法的性能。 比较成熟的 统计方法有 s v m. b a y e s 估计, b a y e s 网 络模 型 1 3 1 等。 这些方法包括统计中的柯尔莫哥洛夫假设检验, 正交分析, x 2 检验 ( 用 来求矢量的最优维数)等己经用到分类的方法中。 ( 4 ) 关于中文的文本的分类方法,能否用识别手写体的方法来提取汉字的 特征向量。因为汉字的不规则形 与手写体的不规则形具有相似性。 ( 5 )最新的信息提取模型 一语言模型能否用到文本分类中。 西北工业大学硕士学位论文 新的模型称作语言模型 ( l a n g u a g e m o d e l ) 它也是一个产生关系, 但它是从文档 到查询的 产生关系, 该 模型的潜在应用在多任务上( 像文本翻译, 文本摘要等) z h a o x u 等 2 6 1 介绍了s v m r o h h i o 的 消极反馈方法和 s v m 对反 馈的积极学习,前 者从最相关文档中得到反馈,缺点是学习率不高,后者从不确定的 ( 未标记)文 档中得到反馈, 缺点 提供这种不相干文档让用户作出判断会让用户失去耐心, 该 论文结合它们的 优点得到 h y b r i d s v m r f方法。b i g i 2 7 提出 将 k u l l b a c k - l e i b e r 距离应用到文本分类中, k u l l b a c k - l e i b e r 距离在这里被 用来计算文档的特征分 布和类的特征分布之间的距离。 将文档分到与它的 分布最接近的 类中。 为保证分 母中的某些特征的 概率不为0 , 给这些未出 现的特征的概率分配小概率, 在文档 中已出现的特征的概率以 一定的比率下调。k o s t e r 2 8 1 研究了 用短语 ( 或词组与 词的混合表示) 表示文档和类的 特征的方法, 结果 却表明这不但没有改善分类的 精度, 反而增加了计算的复杂性。 这表明 用单词来表示特征项己 经足够了。 总之, 2 0 0 3 年的 最新文献表明 , 基于黑箱法的 统计学习方法与 基于语义分析 的学习方法相比, 仍然占 有很大的 优势,以s v m ( s u p p o r t v e c t o r m a c h i n e ) 为代 表。当然, 未来的发展趋势仍不明 显。 1 . 3 潜在的研究方向 根据文献的分析,我们认为有以 下的潜在的 研究方向 可供研究: ( 1 ) 1 2 8 1 的分类方法与其它的经典的计算文档和类向量的方法的结合对提高 算法性能的可能 性,比 如, r o h h i o 反馈方法13 1 文档长度的变化对于k l d的方法 的影响。该方法在什么样的情况下达到最佳性能。 ( 2 ) 对于很多的算法,比如,r o h h i 。 反馈方法3 1 中的参数如何用自 适应的 演化策略来优化这些参数 。 演化算法的各个参数包括表达方式, 选择策略, 变异 方式,评估函数的选取等如何选择。 ( 3 ) 数理统计 2 9 1 中求最优的统计假设的方法如何来给出最优的分 类方法和 评估学习算法的性能。 比较成熟的 统计方法有 s v m. b a y e s 估计, b a y e s 网 络模 型 1 3 1 等。 这些方法包括统计中的柯尔莫哥洛夫假设检验, 正交分析, x 2 检验 ( 用 来求矢量的最优维数)等己经用到分类的方法中。 ( 4 ) 关于中文的文本的分类方法,能否用识别手写体的方法来提取汉字的 特征向量。因为汉字的不规则形 与手写体的不规则形具有相似性。 ( 5 )最新的信息提取模型 一语言模型能否用到文本分类中。 西北工业大学硕士学位论文 ( 6 )数据挖掘中的基于距离的聚类与文本分类方法中的基于距离的原理相 同。这些聚类方法还有那些可以用到文本分类当中。 1 . 4论文的内容安排 第二章从不同的角度来介绍了数据挖掘、 机器学习、模式识别、 进化计算 等领域在文本分类领域中的应用和文本分类领域内的基本概念和方法。 第三章主 要介绍了文本分类领域里的特征提取方法。 第四章对我们研究中用到的文本分类 方法和主流分类方法作了介绍。第五章我 们在此基础上提出了三个算法 - k l d , 基于 l e e 模型的贝叶斯分类, 基于 l e e 模型的t f 工 d f 分类, 并且比较了它们的试 验性能。第六章我们对全文作了总结,并对未来的研究方向作了预测。 西北工业大学硕士学位论文 ( 6 )数据挖掘中的基于距离的聚类与文本分类方法中的基于距离的原理相 同。这些聚类方法还有那些可以用到文本分类当中。 1 . 4论文的内容安排 第二章从不同的角度来介绍了数据挖掘、 机器学习、模式识别、 进化计算 等领域在文本分类领域中的应用和文本分类领域内的基本概念和方法。 第三章主 要介绍了文本分类领域里的特征提取方法。 第四章对我们研究中用到的文本分类 方法和主流分类方法作了介绍。第五章我 们在此基础上提出了三个算法 - k l d , 基于 l e e 模型的贝叶斯分类, 基于 l e e 模型的t f 工 d f 分类, 并且比较了它们的试 验性能。第六章我们对全文作了总结,并对未来的研究方向作了预测。 西北工业大学硕士学位论文 第 二 二 章文 本 盛 全 类 概 成 龙 z . 1引言 在过去的几年中,随着数据挖掘、机器学习、进化计算、 模式识别、最优 化理论、神经网 络等领域的发展, 不断的有新的 算法被应用到文本分类中,丰 富和发展了 信息提取领域的成果。 因此, 文本分类领域的进展与这些领域是 休 戚相关的,从不同的领域来看待文本分类,可以 让我们对文本分类有一个更加 清楚的认识。 2 . 2数据挖掘中在文本分类中的应用 2 . 2 . 1数据挖掘的概念 在数据挖掘中, 文本数据属于非结构化数据, 数据挖掘 3 0 就是对观测到的一 数据集进行分析, 目 的是发现未知的关系和以数据拥有者可以理解的 并对其有价 值的新颖方式来总结数据。 这里观测到的数据集是非常庞大的数据集, “ 挖掘过程” 在数据挖掘中 通常 指多个环节, 涉及到数据准备、 模式搜索、 知识评价。 挖掘出的模式须满足的条 件:非平凡的、 有效性、新颖性。该 过程要求是 “ 非平凡的” , 意思是要有一定 程度的智能性、自 动性。 “ 有效性” 是指发 现的模式对于新的 数据仍保持有一定 的可信度。“ 新颖性”要求发现的模式应该是新的。 2 . 2 . 2数据挖掘的过程和组件 许多人将数据挖掘视为知识发现 ( k d d )的一个基本步骤, 这里采用数据挖 掘n 2 的广义的观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的 大量数据中挖掘有趣的知识的过程。因此,数据挖掘有以下的步骤组成: ( 1 ) 数据清理: 消除噪声或不一致的 数据。 在文本挖掘中, 对应文档 特征 词的提取, 包含去除无用的停止词, 去掉词的前 缀和后缀, 留下词干。 ( 2 ) 数据集成:多种数据源可以 组合在一 起。将文档集中的 所有文档的 特 征词存入计算机综合处理。 ( 3 ) 数 据选择: 从数据库中检索与分析任务 相关的数据。 即文本挖掘中 特 征词的选取, 对文档矢量进行降 维处理,一方面减少计算量,一 方面 起了数据清理的作用。 ( 4 ) 数据挖掘: 使用智能方法提取数据模式。 本论文着重研究了文本分类, 因此在这里的 目 标在于如何更好的对未知类标 号的文档分类 ( 预测) 。 西北工业大学硕士学位论文 第 二 二 章文 本 盛 全 类 概 成 龙 z . 1引言 在过去的几年中,随着数据挖掘、机器学习、进化计算、 模式识别、最优 化理论、神经网 络等领域的发展, 不断的有新的 算法被应用到文本分类中,丰 富和发展了 信息提取领域的成果。 因此, 文本分类领域的进展与这些领域是 休 戚相关的,从不同的领域来看待文本分类,可以 让我们对文本分类有一个更加 清楚的认识。 2 . 2数据挖掘中在文本分类中的应用 2 . 2 . 1数据挖掘的概念 在数据挖掘中, 文本数据属于非结构化数据, 数据挖掘 3 0 就是对观测到的一 数据集进行分析, 目 的是发现未知的关系和以数据拥有者可以理解的 并对其有价 值的新颖方式来总结数据。 这里观测到的数据集是非常庞大的数据集, “ 挖掘过程” 在数据挖掘中 通常 指多个环节, 涉及到数据准备、 模式搜索、 知识评价。 挖掘出的模式须满足的条 件:非平凡的、 有效性、新颖性。该 过程要求是 “ 非平凡的” , 意思是要有一定 程度的智能性、自 动性。 “ 有效性” 是指发 现的模式对于新的 数据仍保持有一定 的可信度。“ 新颖性”要求发现的模式应该是新的。 2 . 2 . 2数据挖掘的过程和组件 许多人将数据挖掘视为知识发现 ( k d d )的一个基本步骤, 这里采用数据挖 掘n 2 的广义的观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的 大量数据中挖掘有趣的知识的过程。因此,数据挖掘有以下的步骤组成: ( 1 ) 数据清理: 消除噪声或不一致的 数据。 在文本挖掘中, 对应文档 特征 词的提取, 包含去除无用的停止词, 去掉词的前 缀和后缀, 留下词干。 ( 2 ) 数据集成:多种数据源可以 组合在一 起。将文档集中的 所有文档的 特 征词存入计算机综合处理。 ( 3 ) 数 据选择: 从数据库中检索与分析任务 相关的数据。 即文本挖掘中 特 征词的选取, 对文档矢量进行降 维处理,一方面减少计算量,一 方面 起了数据清理的作用。 ( 4 ) 数据挖掘: 使用智能方法提取数据模式。 本论文着重研究了文本分类, 因此在这里的 目 标在于如何更好的对未知类标 号的文档分类 ( 预测) 。 西北工业大学硕r学位论文 ( 5 ) 模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式。 在文本分类中,评估模式的常采用误分率衡量。 ( 6 ) 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。文 本分 类系统输出算法的准确率 ( p r e c i s i o n ) ,查全率( r e c a l l ) 。 它们 可以通过表或曲线图表示。 为实现以上的步骤,典型的数据挖掘系统包含以下的组件: ( 1 )数据库、数据仓库、信息库 ( 2 ) 数据仓库服务器: 根据用户的数据挖掘请求,数据库负责提取相关的 数据。 ( 3 ) 知识库:用于指导搜索或评估结果模式的 兴趣度。 ( 4 ) 数据挖掘引擎: 用于特征化、关联、 分类、 聚类分析以 及偏差分析。 ( 5 ) 模式评估模块:它使用兴趣度度量,并与数据挖掘模块交互,以 便将 搜索聚焦到有趣的模式上。 ( 6 )图形用户界面: 支持用户与系统之间的交互。 2 . 2 . 3数据挖掘的任务 数据挖掘 30 】 实现的主要任务有: ( 1 )探索性的数据分析 ( e x p l o r a t o r y d a t a a n a l y s i s )仅对数据进行探 索,在探索目 标时并没有确定。 例如主成分分析 ( p c a , p r i n c i p a l c o m p o n e n t a n a l y s i s ) , 它在文本分类中可以 用作特征提取,降低文 档矢量的维数。 ( 2 )描述性建模( d e s c r i p t i v e m o d e l i n g ) 目 标是描述数据的 所有 特征。 包括密度分析和聚类分析。在大多数的分类算法 ( 包括文本分类) 中,它们 的实现最终转 化为概率密度估计 ,比如常用的贝叶斯 ( b a y e s ) 分类方 法,最小风险的贝叶斯决策 3 3 等。 ( 3 )预测建模 ( p r e d i c t i v e m o d e l i n g ) 。 根据变量的值 来预测 其他的某 变量值。 在分类中, 预测的变量是范畴型的,回归中被预测的 变量 是数量型的。文本分类中用到的是前者。 ( 4 )根据 内容检索:用户有一种感兴趣的模式并希望在数据集中找到相 似的模式。 在文本提取中,它用于文本文档的检索中。相似性的 度 量在应用距离度量的分类中起到关键的作用,比如文档向量的余弦 度量 1 0 和 k l d i 。 2 . 3机器学习在文本分类中的应用 2 . 3 . 1机器学习的概念 西北工业大学硕r学位论文 ( 5 ) 模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式。 在文本分类中,评估模式的常采用误分率衡量。 ( 6 ) 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。文 本分 类系统输出算法的准确率 ( p r e c i s i o n ) ,查全率( r e c a l l ) 。 它们 可以通过表或曲线图表示。 为实现以上的步骤,典型的数据挖掘系统包含以下的组件: ( 1 )数据库、数据仓库、信息库 ( 2 ) 数据仓库服务器: 根据用户的数据挖掘请求,数据库负责提取相关的 数据。 ( 3 ) 知识库:用于指导搜索或评估结果模式的 兴趣度。 ( 4 ) 数据挖掘引擎: 用于特征化、关联、 分类、 聚类分析以 及偏差分析。 ( 5 ) 模式评估模块:它使用兴趣度度量,并与数据挖掘模块交互,以 便将 搜索聚焦到有趣的模式上。 ( 6 )图形用户界面: 支持用户与系统之间的交互。 2 . 2 . 3数据挖掘的任务 数据挖掘 30 】 实现的主要任务有: ( 1 )探索性的数据分析 ( e x p l o r a t o r y d a t a a n a l y s i s )仅对数据进行探 索,在探索目 标时并没有确定。 例如主成分分析 ( p c a , p r i n c i p a l c o m p o n e n t a n a l y s i s ) , 它在文本分类中可以 用作特征提取,降低文 档矢量的维数。 ( 2 )描述性建模( d e s c r i p t i v e m o d e l i n g ) 目 标是描述数据的 所有 特征。 包括密度分析和聚类分析。在大多数的分类算法 ( 包括文本分类) 中,它们 的实现最终转 化为概率密度估计 ,比如常用的贝叶斯 ( b a y e s ) 分类方 法,最小风险的贝叶斯决策 3 3 等。 ( 3 )预测建模 ( p r e d i c t i v e m o d e l i n g ) 。 根据变量的值 来预测 其他的某 变量值。 在分类中, 预测的变量是范畴型的,回归中被预测的 变量 是数量型的。文本分类中用到的是前者。 ( 4 )根据 内容检索:用户有一种感兴趣的模式并希望在数据集中找到相 似的模式。 在文本提取中,它用于文本文档的检索中。相似性的 度 量在应用距离度量的分类中起到关键的作用,比如文档向量的余弦 度量 1 0 和 k l d i 。 2 . 3机器学习在文本分类中的应用 2 . 3 . 1机器学习的概念 西北工业大学硕r学位论文 ( 5 ) 模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式。 在文本分类中,评估模式的常采用误分率衡量。 ( 6 ) 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。文 本分 类系统输出算法的准确率 ( p r e c i s i o n ) ,查全率( r e c a l l ) 。 它们 可以通过表或曲线图表示。 为实现以上的步骤,典型的数据挖掘系统包含以下的组件: ( 1 )数据库、数据仓库、信息库 ( 2 ) 数据仓库服务器: 根据用户的数据挖掘请求,数据库负责提取相关的 数据。 ( 3 ) 知识库:用于指导搜索或评估结果模式的 兴趣度。 ( 4 ) 数据挖掘引擎: 用于特征化、关联、 分类、 聚类分析以 及偏差分析。 ( 5 ) 模式评估模块:它使用兴趣度度量,并与数据挖掘模块交互,以 便将 搜索聚焦到有趣的模式上。 ( 6 )图形用户界面: 支持用户与系统之间的交互。 2 . 2 . 3数据挖掘的任务 数据挖掘 30 】 实现的主要任务有: ( 1 )探索性的数据分析 ( e x p l o r a t o r y d a t a a n a l y s i s )仅对数据进行探 索,在探索目 标时并没有确定。 例如主成分分析 ( p c a , p r i n c i p a l c o m p o n e n t a n a l y s i s ) , 它在文本分类中可以 用作特征提取,降低文 档矢量的维数。 ( 2 )描述性建模( d e s c r i p t i v e m o d e l i n g ) 目 标是描述数据的 所有 特征。 包括密度分析和聚类分析。在大多数的分类算法 ( 包括文本分类) 中,它们 的实现最终转 化为概率密度估计 ,比如常用的贝叶斯 ( b a y e s ) 分类方 法,最小风险的贝叶斯决策 3 3 等。 ( 3 )预测建模 ( p r e d i c t i v e m o d e l i n g ) 。 根据变量的值 来预测 其他的某 变量值。 在分类中, 预测的变量是范畴型的,回归中被预测的 变量 是数量型的。文本分类中用到的是前者。 ( 4 )根据 内容检索:用户有一种感兴趣的模式并希望在数据集中找到相 似的模式。 在文本提取中,它用于文本文档的检索中。相似性的 度 量在应用距离度量的分类中起到关键的作用,比如文档向量的余弦 度量 1 0 和 k l d i 。 2 . 3机器学习在文本分类中的应用 2 . 3 . 1机器学习的概念 西北工业大学硕士学位论文 学习u 3 1 是计算机程序针对某一类问题 ( 任务) t从经验 e中学习, 它的性 能用p 来衡量。 很多的学者认为为使机器具有推广性 ( 具有小的测试错误率) 的 唯一因素是使它在训练集上的错误率最小。 学习工程的研究, 分化成两个分支: 学习过程的应用分析和学习过程的 理论 分析。 前者注重寻找使 训练错误率最小的决策规则系 数, 后者研究除最小化训练 错误率的归 纳原则之外, 或许还有其他的归纳原理能够达到更好的 推广能力。 2 . 3 . 2机器学习的模型和目 标 样本学习的一般模型主要包括 以下几个部分: 图2 . 1学习的一 般模型: 学习机器在观察到( x , 力之后对任意的输入x 输出y ( 1 ) 产生 器( g ) : 产生 随 机向 量x c r , 它 们相 互 独 立 且 都 服从 分 布f ( x ) o ( 2 ) 训练器( s ) : 对每个输入向量x 返回一个输出 值y , 它们也相互独立且都 服从分布f ( y i x ) . o t 3 ) 学习机器( l m ) : 它能 够实现一定的函数集f ( x , a ) , a c a. 学习的目 标就是从给定的函数集f ( x , a ) , a ( =- a中选出最好的逼近训练器响 应 的函 数 。 训 练 集 序 列( x y r ) ( i 一 1 ,2 , 二 .1 ) 服 从 分布 f (x , y ) 二 f ( x ) f ( y i x ) 。 因 此, 学习的 目标是最小化如下的风险泛函: r ( a ) 一 q (z ,a ) d f ( z )( ) 其 中q ( z , a ) 表 示 对 样 本 序列中 训 练 样本 z 而a , 采 取 决 策a 时 造成 的 损 失, f ( 习表示 样本的分布。 最小错误率准则 采用了。 -1 损失。 2 . 3 . 3机器学习的步骤 机器学习主要包括以下的步骤: ( 1 )选择训练经验的类型:它为系统的决策提供直接或间接的反馈。比 西北工业大学硕士学位论文 学习u 3 1 是计算机程序针对某一类问题 ( 任务) t从经验 e中学习, 它的性 能用p 来衡量。 很多的学者认为为使机器具有推广性 ( 具有小的测试错误率) 的 唯一因素是使它在训练集上的错误率最小。 学习工程的研究, 分化成两个分支: 学习过程的应用分析和学习过程的 理论 分析。 前者注重寻找使 训练错误率最小的决策规则系 数, 后者研究除最小化训练 错误率的归 纳原则之外, 或许还有其他的归纳原理能够达到更好的 推广能力。 2 . 3 . 2机器学习的模型和目 标 样本学习的一般模型主要包括 以下几个部分: 图2 . 1学习的一 般模型: 学习机器在观察到( x , 力之后对任意的输入x 输出y ( 1 ) 产生 器( g ) : 产生 随 机向 量x c r , 它 们相 互 独 立 且 都 服从 分 布f ( x ) o ( 2 ) 训练器( s ) : 对每个输入向量x 返回一个输出 值y , 它们也相互独立且都 服从分布f ( y i x ) . o t 3 ) 学习机器( l m ) : 它能 够实现一定的函数集f ( x , a ) , a c a. 学习的目 标就是从给定的函数集f ( x , a ) , a ( =- a中选出最好的逼近训练器响 应 的函 数 。 训 练 集 序 列( x y r ) ( i 一 1 ,2 , 二 .1 ) 服 从 分布 f (x , y ) 二 f ( x ) f ( y i x ) 。 因 此, 学习的 目标是最小化如下的风险泛函: r ( a ) 一 q (z ,a ) d f ( z )( ) 其 中q ( z , a ) 表 示 对 样 本 序列中 训 练 样本 z 而a , 采 取 决 策a 时 造成 的 损 失, f ( 习表示 样本的分布。 最小错误率准则 采用了。 -1 损失。 2 . 3 . 3机器学习的步骤 机器学习主要包括以下的步骤: ( 1 )选择训练经验的类型:它为系统的决策提供直接或间接的反馈。比 西北工业大学硕士学位论文 学习u 3 1 是计算机程序针对某一类问题 ( 任务) t从经验 e中学习, 它的性 能用p 来衡量。 很多的学者认为为使机器具有推广性 ( 具有小的测试错误率) 的 唯一因素是使它在训练集上的错误率最小。 学习工程的研究, 分化成两个分支: 学习过程的应用分析和学习过程的 理论 分析。 前者注重寻找使 训练错误率最小的决策规则系 数, 后者研究除最小化训练 错误率的归 纳原则之外, 或许还有其他的归纳原理能够达到更好的 推广能力。 2 . 3 . 2机器学习的模型和目 标 样本学习的一般模型主要包括 以下几个部分: 图2 . 1学习的一 般模型: 学习机器在观察到(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 动脉粥样硬化危险因素分析
- 2025年医院VTE的预防和护理考试试题(附答案)
- 2025企业融资合同协议书范本
- 2025年医疗机构废弃物处理考试真题及完整解析
- 糖果仙子舞曲教学设计-2025-2026学年小学音乐人音版五线谱二年级上册-人音版(五线谱)
- 第一单元 探索生命的奥秘2025-2026学年七年级上册生物同步说课稿(苏教版)
- 老年低血压的护理课件
- 2025【合同范本】无偿借款合同书模板
- 8.2 脊椎动物 说课稿-2024-2025学年苏科版生物七年级下册
- 工程汽车出动救援方案(3篇)
- 哮病(支气管哮喘急性发作)中医护理方案
- 传统建筑元素在现代建筑中应用
- 王道勇保障和改善民生
- 医疗法律法规知识培训
- 血友病课件完整版
- 神经系统的分级调节课件 【知识精讲+备课精研+高效课堂】 高二上学期生物人教版选择性必修1
- 三年级上册数学试卷-第一单元 混合运算 北师大版 (含答案)
- 临床职业素养
- 种子学-种子的化学成分课件
- 手术室无菌技术 课件
- ISO 31000-2018 风险管理标准-中文版
评论
0/150
提交评论