(计算机软件与理论专业论文)基于模糊—粗糙集的文本分类模型.pdf_第1页
(计算机软件与理论专业论文)基于模糊—粗糙集的文本分类模型.pdf_第2页
(计算机软件与理论专业论文)基于模糊—粗糙集的文本分类模型.pdf_第3页
(计算机软件与理论专业论文)基于模糊—粗糙集的文本分类模型.pdf_第4页
(计算机软件与理论专业论文)基于模糊—粗糙集的文本分类模型.pdf_第5页
已阅读5页,还剩86页未读 继续免费阅读

(计算机软件与理论专业论文)基于模糊—粗糙集的文本分类模型.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

签于 模糊一相糙集的分本分 类模型 摘要 如何在浩若烟海而又纷繁芜杂的文本信息中获取最有效的信息是信息处理 的一大任务。 文本自 动分类是实现这个任务的重要方法之一。 在文本分类过程巾, 由1 几 同义词、 多义词、 近义词的存在导致许多类并不能完个划分开来, 造成类之 ri 3 的边界模糊。 此外交叉学科的发展, 使得类之间出现重叠, i - 是造成许多文本 信息并非绝对属于某个类。这两种情况均会导致分类有偏差 针对上述情形, 本文提出利月 粗糙一模糊集理论来处理在文木分类问题中出 现的这些偏差。 模糊一粗糙集理论有机的结合了 模糊集理论与粗糙集理论 在处理 不确定信息方面的能力。 粗糙集理论体现了 由于属性不足引起集合中对象间的不 可区分性, 即山于知识的粒度而导致的粗糙性; 而模糊集理论则对集合中子类边 界的不清晰定义进行了 模型化, 反映了山于类别之间的重叠体现出的隶属边界的 模糊性。 它们处理的是两种不同类别的模糊和不确定性。 将两者结合起来的模糊 一粗糙集理论能更好地处理小完全知识 本文的创新点如下: i 、 将模糊一粗糙集理论用于文本分类,并将模糊一粗糙集理论与 k - n n 模型 相结合。 2 、 利用基于距离的邻域空i h l 来取得与 每个类和待分类文本有 一关的邻近点数。 改变以 往k - n n 模型通过训 练取得一个对所有类都一样的最优k 伯 . . 通过实验比较, 基于粗糙一模糊集理论的分类模型使分类结果有了较好的语 义 解释, 并在一定程度上提高了分类的精度和召 回率, 同时并没有增加分类计算 过程的复杂度。 但是实验中某此参数的获取还存在不足之处, 如不确定性出现时 调节参数的设置以及划分邻域空il l 时距离的获取, 都还须改进。 这些问题有待f - 我们在今后的i _ 作中作进一步研究。 关键字:文本自 动分类;模糊一粗糙集:模糊一粗糙隶属函数;邻域空间; k - 近邻 摹于模糊一机糙集的分木分类模酬 ab s t r a c t o n e o f t h e g o a l s o f i n f o r m a t io n p r o c e s s i n g i s t o g e t t h e m o s t v a l u a b l e i n f o r m a t i o n f r o m t h e h u g e a n d v a s t t e x t d a t a . i n t h e a u t o m a t e d t e x t c l a s s i f i c a t i o n , t h e e x i s t e n c e o f p o l y s e m y a n d s y n o n y m y c a u s e m a n y t e x t s n o t b e i n g a b s o l u t e l y c l a s s i f i e d , s o t h e b o u n d a r i e s o f t h o s e c la s s e s a r e r o u g h . i n a d d i t i o n , t h e b o u n d a r i e s o f m a n y c l a s s e s a r e v a g u e d u e t o o v e r l a p p in g c l a s s e s , s o s o m e t e x t s a m p l e s d o n t a b s o lu t e l y b e l o n g t o a c e rt a i n c l a s s . b o t h t h e c a s e s w o u l d l e a d t o c l a s s i f i c a t i o n d e v i a t i o n s b a s e d o n a b o v e a n a l y s e s , t h i s p a p e r i n t r o d u c e s t h e f u z z y - r o u g h s e t s t h e o ry t o d e a l w i t h t e x t c l a s s i f i c a t i o n . f u z z y - r o u g h s e t s t h e o ry p u t t h e f u z z y s e t s t h e o ry a n d r o u g h s e t s t h e o ry t o g e t h e r , w h i c h m a k e f u l l u s e o f t h e t w o t h e o r i e s t o d e a l w it h u n c e rt a i n t y i n fo r m a t io n s . r o u g h s e t s t h e o ry c a n c a p t u r e t h e i n d i s c e r n i b i l it y d u e t o i n s u f f i c i e n t f e a t u r e s , t h a t i s t h e r o u g h u n c e r t a i n t y o w i n g t o t h e g r a n u la r i t y o f t h e k n o w le d g e . a n d f u z z y s e t s t h e o ry c a n c a p t u r e t h e f u z z y u n c e rt a i n t y d u e t o t h e o v e r la p p i n g c l a s s e s t h e t w o t h e o r i e s c a n d e a l w it h t h e t w o d i ff e r e n t u n c e rt a i n t i e s r e s p e c t i v e l y , s o i t i s a d v i s a b l e t o c o m b i n e t h e m t o d e a l w it h i n c o m p l e t e k n o w l e d g e t h e m a i n c r e a t i v e s o f t h i s p a p e r a r e a s f o l l o w s : , g iv e n a n e w m o d e l , f u z z y - r o u g h s e t s m o d e l s , f o r a u t o m a t e d t e x t c l a s s i f i c a t i o n 2 , u s i n g n e i g h b o r - s p a c e , c a n o b t a i n a s u it a b l e v a l u e o f k f o r k - n n t h i s m o d e l m a k e s m o r e s u i t a b l e s e m a n t i c e x p la i n f o r t e x t c l a s s i f i c a t i o n c o m p a r e w it h e x i s t m o d e l s , it i m p r o v e t h e p r e c i s i o n a n d r e c a l l o f t e x t c la s s i f i c a t i o n , a n d d o n t i n c r e a s e t h e c o m p u t e c o m p l e x d e g r e e . h o w e v e r , t h e r e a r e s t il l s o m e u n r e s o l v e d p r o b le m s . h o w t o s e t t h e a d j u s t p a r a m e t e r i s o n e p r o b l e m . a n d h o w t o g e t m o r e e ff e c t i v e d i s t a n c e f o r n e ig h b o r - s p a c e i s a n o t h e r p r o b le m . a l l t h e s e p r o b l e m s a r e t o b e r e s o l v e d i n o u r f u t u r e r e s e a r c h . k e y w o r d s : a u t o m a t e d t e x t c l a s s i f i c a t i o n ; f u z z y - rou g h s e t s ; f u z z y - r o u g h ; m e mb e r s h i p f u n c t i o n ; n e i g h b o r - s p a c e ; k - n n 基于 模糊一粗糙集的分本分类模a 第一章 引言 1 . 1研究背景 随着信息存储技术和通信技术的飞速发展, 人量的文字信息开始以计算机可 读形式存在。 尤其是近年来随着国际互联网技术的发展, 网络 l 的信息资源呈指 数级增长, w e b 己经成为拥有儿十亿个页面的分布式信息空间,而这个数字仍以 每4 6 个月 翻-番的速度增加。 在这样 一 个信息化的时代, 人们的日 常活动当中 无时无刻不在获取信息、 分析信息,并以此来决策自 我的行为。 从某种程度 l 来 说, 信息的拥有量已经成为决定和制约人类社会发展的重要因素。 如何在这些人 量、 异质的海* s 信息资源中、 快速有效的发掘蕴含具有巨大潜在价值的有用知识 和信p . 合理分类及准确地定位所需信息, 同时过滤大量无用的或不相关的内容, 己成为知识获取和信息过滤的瓶颈, 也 是当今信息发展和信息处理领域的主流技 术。 文本分类技术有助1 = 人们完成这个月 标, 为信息提取与 信息处理打卜 良 好的 幕础,它在文本挖掘( (乃至网 络挖掘中均占 有重要的 地位。文 木自 动分类 ( t e x t a u t o m a t e d c a t e g o ri z a t io n ) 是 指根 据顶 先定 义的 主 题类别, 根据一定的 规则 将文 档 集合中未知类别的文木自 动确定 一 个类别。 涉及数据挖掘、 计算语义学、 信息学、 人工智能等多个学科, 是目 然语言处理的一 个重要应用领域。 文本自 动分类日的 是通过将大量文木进行快速、 有效的自 动归类, 达到信息定位和信息过滤的目 标 基 f 人 匕 智能技术的文本分类系统能依据文本的语义 将大景的文本自 动分f j 别 类, 从而更好地帮助人们把握文本信息。 近年来,文本分类技术己经逐渐与搜索 引擎、 信息推送、 信息过滤等信息处理技术相结合, 有效地提高了 信息服务的质 甲 。 自 动分类研究始于5 0 年代末, 但是直到8 0 年代初, 在文本分类方面占主导地 位的一直是知识 工程的分类方法, 即是由专业人员 专 家) 手 工编写分 类规则来指 导分类。 随着计算机软硬件技术和通信技术的高速发展, 带动了信息领域的革命, 人类真正进入一个信息社会。 大量出现的信息不仅增加了对于快速、自 动分类的 迫切需求, 也 为 基于机器学习的自 动分类方法准备了 充分的资源。 在这种情况下, 机器学习己经取代知识l 程成为文本信息的主要技术手段, 自 动分类方法也逐渐 代替了 知识工程的分类力 一 法、 机器学习的基木原理是通过对预知的感兴趣的内容的 “ 学习” .自 动提取文 木 特征信息, 构建分类器. 最大限度的减少人工千预。 相对 几 应用知识工 程的分 类方法, 用机器学习构建分类器, 不仅可以 大大提高 整个分类系统的效率, 而日 在某种意义上说,由于 减少了人为的干 预, 不需要具有专 业知识的人员,也提高 基于 模糊一粗糙集的分本分类模a 第一章 引言 1 . 1研究背景 随着信息存储技术和通信技术的飞速发展, 人量的文字信息开始以计算机可 读形式存在。 尤其是近年来随着国际互联网技术的发展, 网络 l 的信息资源呈指 数级增长, w e b 己经成为拥有儿十亿个页面的分布式信息空间,而这个数字仍以 每4 6 个月 翻-番的速度增加。 在这样 一 个信息化的时代, 人们的日 常活动当中 无时无刻不在获取信息、 分析信息,并以此来决策自 我的行为。 从某种程度 l 来 说, 信息的拥有量已经成为决定和制约人类社会发展的重要因素。 如何在这些人 量、 异质的海* s 信息资源中、 快速有效的发掘蕴含具有巨大潜在价值的有用知识 和信p . 合理分类及准确地定位所需信息, 同时过滤大量无用的或不相关的内容, 己成为知识获取和信息过滤的瓶颈, 也 是当今信息发展和信息处理领域的主流技 术。 文本分类技术有助1 = 人们完成这个月 标, 为信息提取与 信息处理打卜 良 好的 幕础,它在文本挖掘( (乃至网 络挖掘中均占 有重要的 地位。文 木自 动分类 ( t e x t a u t o m a t e d c a t e g o ri z a t io n ) 是 指根 据顶 先定 义的 主 题类别, 根据一定的 规则 将文 档 集合中未知类别的文木自 动确定 一 个类别。 涉及数据挖掘、 计算语义学、 信息学、 人工智能等多个学科, 是目 然语言处理的一 个重要应用领域。 文本自 动分类日的 是通过将大量文木进行快速、 有效的自 动归类, 达到信息定位和信息过滤的目 标 基 f 人 匕 智能技术的文本分类系统能依据文本的语义 将大景的文本自 动分f j 别 类, 从而更好地帮助人们把握文本信息。 近年来,文本分类技术己经逐渐与搜索 引擎、 信息推送、 信息过滤等信息处理技术相结合, 有效地提高了 信息服务的质 甲 。 自 动分类研究始于5 0 年代末, 但是直到8 0 年代初, 在文本分类方面占主导地 位的一直是知识 工程的分类方法, 即是由专业人员 专 家) 手 工编写分 类规则来指 导分类。 随着计算机软硬件技术和通信技术的高速发展, 带动了信息领域的革命, 人类真正进入一个信息社会。 大量出现的信息不仅增加了对于快速、自 动分类的 迫切需求, 也 为 基于机器学习的自 动分类方法准备了 充分的资源。 在这种情况下, 机器学习己经取代知识l 程成为文本信息的主要技术手段, 自 动分类方法也逐渐 代替了 知识工程的分类力 一 法、 机器学习的基木原理是通过对预知的感兴趣的内容的 “ 学习” .自 动提取文 木 特征信息, 构建分类器. 最大限度的减少人工千预。 相对 几 应用知识工 程的分 类方法, 用机器学习构建分类器, 不仅可以 大大提高 整个分类系统的效率, 而日 在某种意义上说,由于 减少了人为的干 预, 不需要具有专 业知识的人员,也提高 基于 模糊一粗糙集的分本分类模型 了分类系 统的可靠性 日前, 国外在文本信息处理方肉进行了 大量有益的尝试, 在自 动拼写检杳等 方肉技术已相对成熟, 在语法检查等领域也取得了长足的发展,在文本分类、 聚 类、同义澄清、文本摘要等领域也 有许多研究成果和实川性强的系统。 1 .2本文的工作和论文的组织 虽然经过几十年的发展, 文本分类技术得到了长 足了发展, 但由干文本信息 所固有的一些特点,如维数过高,同义词,多义词, 近义词大量存在的现象,以 及分词方法,训练集不足等等, 极大的影响了 分类的性能。 在使用向量空问模型 12 5 1 的文本分类过程中, 虽然文档集的维数动辄数万, 但这些属性提供的信息往往 含有大量的噪音, 对于刻画某些类并不充分, 由丁 这个原因导致许多类在缺乏特 征属性的情况下并不能完个划分开来, 也就是类之间的边界模糊。 同时科学在发 展的过程中, 许多的学科总是相辅相成的, 一学科的发展会促进另一学科的发展, 有的甚至小断的结合在一起成为交叉学科, 因而反应这类学科的文本信息并不能 绝对的属于 某类或不属某类, 也就是类之间出现了重叠的现象, 这两类情况的出 现引起分类的偏差。 基于卜 述原因, 如果能找到一种理论能够处理好上述两种不确定那将有助十 分类。 在不确定性信息处理的理沦体系中, 模糊集理论能处理由于 类的重叠引起 的模糊不 确定性, 粗糙集理论能处理由于属性不足引起类边界的粗糙不确定性, 在这个基础上,本文利用结合两种理论的模糊一粗糙集理论模型来进行分本分 类,主要工作如下; 1 、分析分类过程中出现的两类不确定性,结合模糊集和粗糙集理论进行处 理 。 2 , 将模糊一粗糙集理沦与 k 近邻理论相结合, 构建基于距离的邻域空间, 根 据每个类的特点,取出适宜的k 值.改变传统k - n n 通过训练取得一个对所有类都 一样的最优k 值。 3 、将基于模糊一粗糙集理论的算法k - n n 模型相结合用于 文本的自动分类。 本文的具体安排如下: 第一章:引言 。简单的介绍本文的研究背景以及本文的丁 _ 作。 第二章:文本分类综述。 介绍了文本分类的基本概念、 分类的流程、 应用邻 域以及发展前景。 同时详细介绍了文本分类中使用的技术, 主要有文本的预处理、 文本的项权重计算方法以及常用的维数约简方法、维数提取方法及其性能的比 较。最后介绍了经典文本分类算法的原理。 第三章: 模糊集与粗糙集。 介绍了 模糊集与粗糙集的基本概念, 研究的背景 基于 模糊一粗糙集的分本分类模型 了分类系 统的可靠性 日前, 国外在文本信息处理方肉进行了 大量有益的尝试, 在自 动拼写检杳等 方肉技术已相对成熟, 在语法检查等领域也取得了长足的发展,在文本分类、 聚 类、同义澄清、文本摘要等领域也 有许多研究成果和实川性强的系统。 1 .2本文的工作和论文的组织 虽然经过几十年的发展, 文本分类技术得到了长 足了发展, 但由干文本信息 所固有的一些特点,如维数过高,同义词,多义词, 近义词大量存在的现象,以 及分词方法,训练集不足等等, 极大的影响了 分类的性能。 在使用向量空问模型 12 5 1 的文本分类过程中, 虽然文档集的维数动辄数万, 但这些属性提供的信息往往 含有大量的噪音, 对于刻画某些类并不充分, 由丁 这个原因导致许多类在缺乏特 征属性的情况下并不能完个划分开来, 也就是类之间的边界模糊。 同时科学在发 展的过程中, 许多的学科总是相辅相成的, 一学科的发展会促进另一学科的发展, 有的甚至小断的结合在一起成为交叉学科, 因而反应这类学科的文本信息并不能 绝对的属于 某类或不属某类, 也就是类之间出现了重叠的现象, 这两类情况的出 现引起分类的偏差。 基于卜 述原因, 如果能找到一种理论能够处理好上述两种不确定那将有助十 分类。 在不确定性信息处理的理沦体系中, 模糊集理论能处理由于 类的重叠引起 的模糊不 确定性, 粗糙集理论能处理由于属性不足引起类边界的粗糙不确定性, 在这个基础上,本文利用结合两种理论的模糊一粗糙集理论模型来进行分本分 类,主要工作如下; 1 、分析分类过程中出现的两类不确定性,结合模糊集和粗糙集理论进行处 理 。 2 , 将模糊一粗糙集理沦与 k 近邻理论相结合, 构建基于距离的邻域空间, 根 据每个类的特点,取出适宜的k 值.改变传统k - n n 通过训练取得一个对所有类都 一样的最优k 值。 3 、将基于模糊一粗糙集理论的算法k - n n 模型相结合用于 文本的自动分类。 本文的具体安排如下: 第一章:引言 。简单的介绍本文的研究背景以及本文的丁 _ 作。 第二章:文本分类综述。 介绍了文本分类的基本概念、 分类的流程、 应用邻 域以及发展前景。 同时详细介绍了文本分类中使用的技术, 主要有文本的预处理、 文本的项权重计算方法以及常用的维数约简方法、维数提取方法及其性能的比 较。最后介绍了经典文本分类算法的原理。 第三章: 模糊集与粗糙集。 介绍了 模糊集与粗糙集的基本概念, 研究的背景 基于模糊一粗糙集的分本分类模7 v i 及其发展。着重介绍了 这两种理论在处理不确定信息方a的方法。 第四章: 基于模糊粗糙集理论的文本分类模型】 详细论述了模糊粗糙集模型 的理论及其在文本分类上的应用。 第五章:实验结果与分析, 详细介绍实验的流程,包括实验采i 日 的数据集、 维数约简的方法、 算法中参数的设置, 同时介绍f 常用的文本分类文本分类的评 估指标和评估方法。 最后给出了论文的实验结果并将它与其它分类方法的结果做 l 匕 较和分析。 第六章: 总结与展望。 对文中提出的文本分类模型和基于该模型的实验结果 进行总结,分析模型的优缺点以及将来的工作方向。 基于 模蝴一粗糙集的分本分类模型 第二章 文本分类综述 2 . 1文本分类的基本概念 简而a 之, 文本分类就是先根据己有的样例文本, 从中找出能描述并区分文 本类别的分类器 ( 或规则、瑕设、模型) ,然后利用该分类器对新的未分类文本 进行分类。 它的任务就是在给定的分类体系下, 根据文本的内容自 动地确定与文 本关联的类别。 从数学的角度而言, 分类的实质是一个映射的过程, 它将未标明 类别的文本映射到己有的类别中, 该映射可以是映射, 也可以是一对多的映 射 文本分类的映射规则是系统根据已经掌振的每类若干样本的统计信息, 总结 出分类的规律而建立的判别公式和判别规则, 然后在遇到新样本时, 根据总结出 的规则,确定文本相关的类别。 自 动文本分 类存在两个基本的 瑕设 lj , 1 .类名仅仅是符号标识而已,在分类器的构造过程中它不能提供额外的知 识。 2 、自 动分类所使用的知识必须是内源性的 ( 即从文档中抽取出来的知识、 , 而不能是外源性的,即不能根据元数据,如文档的出版日期,文档类烈, 或来源 出版物等来完成分类任务(, 2 . 1 . 1文本分类的类型 1 .单标记与多标记分类 单 标记( s in g le - la b e l ) 分类 就是 将一 篇 文 档只 分 入 一 个 类 别中 , 而 多 标记 m u l t i - l a b e l )分类就是将文档分入多个不同的类别中,也就是说 , 个文档可以 同时属于多个类;单 标记分类是一 种特殊的一元 ( b i n a ry )分类。 z . 基于类别的分类与基于文档的分类 基于 类别的分类( c a t e g o ry - p iv o t e d c la s s i f i c a t io n , c p c ) 是一次将属于某个类别 的 文 档 一次 性 分 类完 毕; 而 基 于 文 档的 分 类( d o c u m e n t- p i v o t e d c la s s if ic a t io n ,d p c ) 是将某一文档所属的类别一次性分类完毕。这种区分1 几 要是从应用的角度考虑, d p c 的应用领域主要是 一些文档不能同时获得的情况, 例如, e - m a i l 的过滤。 c p c 主要应用在这样的情况, 文档根据已 有的类信息已分好类, 但又有新的类信息加 入,这时就可以应用c p c 将文档划分到新类中。 3 . 硬分类与排序分类 排序分类( r a n k i n g c a t e g o r iz a t i o n ) 也称半自 动分类, 通常用1 . 分类器的 准确 j性比较差以及全自 动分类系统的分类精度要明显低于人类专家的情况, 它给出文 档属护 各类别的排序列表,给人类专家进行分类做参考、辅助。硬分类 ( h a r d 摹十模瑚一租糙集的分奉分类模掣 第二章文本分类综述 21 文本分类的基本概念 简而占之,文本分类就是先根据已自的抨例文本,从中找出能捕述并区分文 本类别的分类器( 或规则、假设、模型) ,然厢利用该分类器对新的未分类文本 进行分类。它的任务就是在给定的分类体系下,根据文本的内容自动地确定与文 本关联的类别。从数学的角度而肓,分类的实质是一个映射的过程,它将未标明 类别的文本映射剑已有的类别中,该映射可以是映射,也可以是一对多的映 射,文本分类哟映射规刚是系统根据已经掌握的每类若干样本的统计信息,总结 出分类的规律而建立的判别公式和削别规则,然后在邋到新样本时,根据总结出 的规则,确定文本楣关的类别。 f j 动文本分类存在两个基本的假设u j , 1 、类名仪仪是符号标识而已,存分类器的构造过程中它不能提供额外的知 识。 2 、自动分类所使用的知汉必须是内源性的( 即从文档中抽取出来的知识) , 丽不能是外源性的,即不能根据元数据,如文档的出版r | 期,文档类型,或来源 出版物等来完成分类任务。 2 1 1 文本分类的类型 1 单标记与多标记分类 荦标记( s i n g l e l a b e l ) 分类就足将一篇文档只分入一个类别巾,而多枷;记 ( m u l t i 1 a b e l ) 分类就是将义档分入多个,f i 同的类别中,也就是说个文档可以 同时属于多个类;单标记分类是种特殊的一元( b i n a r y ) 分类。 2 基f 类别的分类与基于文梢的分类 基于类别的分类( c a t e g o r y - p i v o t e dc l a s s i f i c a t i o n ,c p c ) 是一次将属于某个类别 的文档次性分类完毕:而基于文档的分类( d o c u m e n t - p i v o t e dc l a s s i f i c a t i o n ,d p c ) 足将菜文档所属的类别一次性分类完毕。这种区分1 :要是从应用的角度考虑, d p c 的应用领域主要是些文档不能同对获得的情况,例如,e m a i l 的过滤。c p c 主要应用在这样的情况,文档根据已有的类信息已分好类,但又有新的类信息加 入,这时就可以应用c p c 将文档划分到新类中。 3 硬分类与排序分类 排序分类( r a n k i n gc a t e g o r i z a t i o n ) 也称半自动分类,通常用j :分类器的准确 性比较筹以及全自动分类系统的分类精度要明冠低于人类专家的情况,它给“3 文 档属于二各类别的排序列表,给人类专家进行分类做参考、辅助。硬分类( h a r d g 摹十模糊一粗糙集的分本分类模型 c a t e g o r i z a t i o n ) 的分类结果则明确给出文档属于或小属 二某些类。 2 12 自动文本分类的过程 个究整的文本分类过干n1 二耍包括以下儿部分:首先是预处理,根槲采用f | f j 分类模型将文档集表示成易j :计算机处理的形式:其次是项权重的计算,根据适 宜的权重汁算方法表“i 文档中各项的重要性;再次是根据预处理的训练集( 三预 知类”0 的文档) 学爿建模,构建出分类器:最后利用测试集文档按一定的测试力 沾测试建立好的分类器的性能,并1 i 断反馈、学习提高该分类器性能,f 兰至达到 瑚定的目标。 2 1 3 文本分类的应用领域 图2 1 文本分类的流程 1 白动标引 标引是通过个或多个关键诩来描述一篇文档镌主题内容。对大掣文献集做 标引需要大最的人力物力,耗费巨大。如果、止标引中的e 题词条肖做类别,那么 在一定程度l :自动标引就与文本自动分类相似,利阁文本自动分类技术叮以大入 提商标引n 勺效率。 2 文本信息过滤 文本信息过滤( t e x tf i l t e r i n g ) 是指从大量的文本信息中寻找或去除特定的信 息以满足用户的需求。,过滤系统首先根据用户的需求建立一个初始的月j 户模板 ( p r o f i l e ) ,然后削断文本信息是否有符合川户模板的文本,根据一定的评判标 准将符合标准的文本提供给州户,并根据用户的反馈来修改用户模板。它的麻只】 很广泛,如垃圾邮件过滤,选择性的信息服务,不良网址过滤等。 基于模糊一姐糙集的分本分类模型 3 智能检索 早期,信息检索是种职、小化的行为,仪限r 些受过专业训练的人员,虽 然随着i n t e r n e t 的发展,搜索引擎发展的很快,血仍有很多缺陷,如有大虽根据 用户奄询关键字反馈的信息与用户需求毫不利t ,特别是埘:同义侧、多义词的 现苏没自得到很好的处埋。,刹崩文本分类技术来处理这些缺陷,改进相关度的计 算方法有助j :智能检索的发展。 随着人类产生信息镊的增多文本分类的应用也越来越广泛,除了1 :述些方 面外,它还在如新闻h 版自动栏目分类、词性标注、涮义排歧等许多方嘲有着缀 霞耍的应川。在文小分类研究的不断深入及其应用领域不断拓展的过稃中,许多 不同的学科和知识也不断被引入这个领域,它们丰富了研究耆们看问题的方法, 同时也带来了更多的机遇与挑战。 22 文本项的权重计算方法 由于通常文本都是非结构化的,计算机很难直接财其进行处理,因瓶在分类 之前要对文本做一定的预处理,将字符串表示成的文档转换为适合于学习算法以 及分类任务的表1 形式。耳前比较常用的方法是词袋表示法( b a go f w o r d s ) , 该方法把文奉看成是若干个诩构成的集合,忽略了文本的结构信息。 在词袋表示法中,文本表示成词的集合,其中每个词冉称为项( 特征) , 根据文本的长度、菜词出现的频率不同,他们的重要性也有所不同,在向量空问 模型( v s m ) 中这种重要性被称为权重:权重的计算主要依据下丽两个经验陛的结 论: 1 、一个项在某文档巾出现的次数越多,它和该文档的 i 题就越相关。 2 、个项在选取的文档集中出现的次数越多,它刻画某个特定义楷的特征 的能力就越剥。 令厶为项( 词) 在文档中出现的频率,为义档集中文档的数f 1 , ,为预 处理后文档集的项数,f 移为项f 在文档集中出现的频率。常用的极重计算力法3 1 如卜: 1 布尔加权法( b o o l e a nw e i g h t i n g ) 项在文档中出现权蕈就为1 ,否则就为0 ,目h 吼:2 1 矿厶0 ( 2 i ) 2 1 :0讲h g r u 。1 2 词频加权法( w o r d f r e q u e n c yw e i g h t i n g ) 项在文档巾的权重就是项在文档巾出现的频率,即 d m = 厶 ( 2 2 ) 基子 模糊一祖糙集的分本分类模型 3 . 智能检索 早期, 信息检索是 种职业化的行为, 仅限于 些受过专业训练的人员, 虽 然随着i n t e r n e t 的发展,搜索引擎发展的很快,但仍有很多缺陷,如有大量根据 用户查询关键字反馈的信息与用户需求毫不相丁, 特别是对j 飞 同义词、 多义词的 现象没有得到很好的处埋 利用文本分类技术来处理这些缺陷, 改进相关度的计 算方法有助于 智能检索的发展。 随着人类产生信息量的增多文木分类的应用也 越来越) 一 泛, 除了卜 述 些方 面外, 它还在如新闻出版自 动栏目 分类、 词性标注、 词义排歧等许多方向有着很 甭要的应少 j 。 在文木分类研究的不断深入及其应i ll 领域不断拓展的过程中, 许多 不同的学科和知识也不断被引入这个领域,它们丰富了研究者们看问题的方 法, 同时也带柬了更多的机遇与挑战。 2 . 2文本项的权重计算方法 由于通常文本都是非结构化的,计算机很难直接对其进行处理, 因而 在分类 之前要对文木做一定的预处理, 将字符串表示成的文档转换为适合于学习算法以 及分类任务的农示形式。目 前比 较常用的方 法是词袋表示法 ( b a g o f w o r d s ), 该方法把文本石成是若干个词构成的集合,忽略了 文本的结构信息。 在同 袋表示法中,文本表示成词的集合,其中每个词有称为 一 项 ( 特征), 根据文本的长度、某词出现的频率不同, 他们的重要性也有所不同, 在向量空ih i 模t ? ( v s m ) 中这种重要性被称为权重; 权重的计算主 要依 据下而 两个经验性 的结 论: 1 、 一个项在某文档中出现的次数越多,它和该文档的一 ! 三 题就越相关。 2 、 个项在选取的文档集中出现的次数越多,它刻画某个特定文档的特征 的能力就越弱。 令人为 项( 词 ) 在 文 档 k 中 出 现 的 频 率 , n 为 文 档 集 中 文 档 的 数日 , m 为 预 处 理后 文 档 集 的 项 数, id f , 为 项 r在文 档 集 中 出 现的 频率 。 常 用 的 权重计 算方 法 ; t 如 下: 1 . 布尔加权法( b o o l e a n w e ig h t i n g ) 项在文档中出现权重就为1 ,否则就为0 ,即 if左 ) 0 o t h e r ( 2 一 i ) lo 一一一一 ji、1 二 所 a 2 . 词频加权) i y j ( 2 - 5 ) ) ) 2 n一峨 q ,k= 艺f lo g ( 关 : + 1 .0 ) x 6 . 嫡加权法( e n t r o p y w e ig h t i n g ) 嫡加权法是基一于 信息论的加权法,反映了 项与文档间信息量的大小。 、 = log(f k 1一。) 1 赫客 。念 log(奇 , ( 2 - 6 ) 当然除了这此权重计算方法外还有许多的计算方法,如经典信息检索模型 b m 2 5 0 0 , s m a r t 等使用的权重计算方法就很特别。 权重的计算只能视具体情况而 定,不今仍没有普遍适用的 正,其实权值也川以取负值 “ 最优公式” 。另外,前面的公式中项的权值一般为 用来描述某川户厌弃某特征。 2 . 3降维技术 文本分 类的 一 个 核心难 题就是 特征空间 的高 维 性 ( h ig h d i m e n s i o n a l i t y ) ,一 个 文档集中的特征项动辄就是上万维, 这么高的维数特征不仅带来极高的计算复杂 度, 产生维度灾难, 也 给分类过程带来了 大量的噪音, i . 容易产生 过度拟合 ( o v e r f it ) 的问题, 因而有必要简化原始的 特征集, 这种简化技术就是降维技术。 降维技术 卞要分成两大类:特征选择和特征提取也称特征重构。 基于模糊一粗糙集的分本分类模型 3 . t j x i d f 加权法 ( t f x i d f - w e i g h t i n g ) 综合考虑1 1 与, 吐 护, 影响, 权重公式为: n 、 1y ,k = 1 ,k x to g (丽) ( 2 - 3 ) 4 . ! ft加 权法( if w e i g h t i n g ) 小仅考虑if , i d 1 w j 影响.也考虑文档长 度的影响,权重公式为: n . j (k x l o g ( . . ) l a d 答r. n、 , , , 乙口 月o g (, ,月 - v 万l u l l ( 2 - 4 ) 5 . i t e 加权法( i t c w e ig h t in g ) i t c 与 !tf c 的差异在干 利用频数的对数代替频数, 减弱f 频数对权重的 影响。 l o g ( 大 * + 1 . 0 ) x , , n 、 1 0 9 欠 二;) i y j ( 2 - 5 ) ) ) 2 n一峨 q ,k= 艺f lo g ( 关 : + 1 .0 ) x 6 . 嫡加权法( e n t r o p y w e ig h t i n g ) 嫡加权法是基一于 信息论的加权法,反映了 项与文档间信息量的大小。 、 = log(f k 1一。) 1 赫客 。念 log(奇 , ( 2 - 6 ) 当然除了这此权重计算方法外还有许多的计算方法,如经典信息检索模型 b m 2 5 0 0 , s m a r t 等使用的权重计算方法就很特别。 权重的计算只能视具体情况而 定,不今仍没有普遍适用的 正,其实权值也川以取负值 “ 最优公式” 。另外,前面的公式中项的权值一般为 用来描述某川户厌弃某特征。 2 . 3降维技术 文本分 类的 一 个 核心难 题就是 特征空间 的高 维 性 ( h ig h d i m e n s i o n a l i t y ) ,一 个 文档集中的特征项动辄就是上万维, 这么高的维数特征不仅带来极高的计算复杂 度, 产生维度灾难, 也 给分类过程带来了 大量的噪音, i . 容易产生 过度拟合 ( o v e r f it ) 的问题, 因而有必要简化原始的 特征集, 这种简化技术就是降维技术。 降维技术 卞要分成两大类:特征选择和特征提取也称特征重构。 基于 模糊一粗糙集的分本分类模t ! 2 . 3 . 1 特征选择 特征选择( f e a t u r e s e le c t io n ) 又称独立评估法,就是去 除文 档中信息量少的项 已 提高分类的 效率并降低计算的 复 杂度, 文献 15 1 1 1 8 2 4 2 6 )3 0 2 3 1 介 绍了 儿 种该 类型 的降维方法:文档频率、信息增益、期望交叉嫡、互 信息、文本证据权、奇率、 x 统计量 等。 1 . 基于文 档频率的d f ( d o c u m e n t f r e q u e n c y ) 方 法 d f方法通过选择项来减少项规模, 其选择基于 种局部项分级技术。该方 法假设所谓重要的项是指那些属于同一类而频繁出现于一组文档中的项, 能很好 表小类别主题的项集应该被属 1 同类的大多数文档所采少 ! 。 具体项的选择操作 是先定义参数d ,每个子项 ( 类)只有那,t e 具有最高等级的最重要的d 个项被选 择。 最后结果即为侮个子 项被选择的项的并集, 2 .信息增益 ( i n f o r m a t i o n g a in ) 信息增益是通过观察个项是否出现在文档中所获得的能够用于分类预期 的信息量,常用j 飞 决策树技术中选择最佳节点. 设 s 是、 个 文 本构 成的 训 练集合。 c . 扣 ! , (: , . . . c 为 类别 集 合。设 s ; 是s 中 属) 几 类 的文 本数, 则一个文本关于 其类 别的 嫡( 即 期望不 确定 度) 为 : 1 ( s】, c 2 , . . ., s ) = - y- p ; lo g , ( p , ) ( 2 - 7 ) 其 中,a是 任意 样本 属于 类c , 的 概率,该 概率 可以 用s , / s 来估计。 设根据项t 是否在文本中出现,可把样本集分为两类,一类a 是t 在其中出现 了 的文本,另 一类b 是t 没有在其中出现的文本 为: 。则a 类中的文本关于其类别的嫡 e ( t ) = 乞p ( c , 1 0 10 9 2 p (c , i ) ( 2 - 8 ) 其中 ,a c , i t ) 表 示当t 出 现在 文 本 中 时 , 文 本 属 于 类c 的 概率 , 可用 a 中 属 于 类c , 的 文 本 数与 a 中 所 有文 本 数的比 值 来 估计 。 与 之类 似, b 类 中 的文 本 关1 -. 其 类别的墒为; e (t ) = 一 艺p ( c f ) lo g 2 p ( c , it ) ( 2 - 9 ) 其中, 中 属于 类c , 因此, p ( c , 0 表 示当t 没 有出 现 在文 本 中 时, 文 本属于 类c , 的 概 率, j a 1 b 的文本数与 b 中所有文本数的比值来估计。 如果训练文本集按项t 来划分的话,文本关于其类别嫡将变为: 基于模糊一粗糙集的分本分类模型 i ( i ) = p ( t ) f ( t ) + p ( t ) - p ( i ) = - p ( i ) y - a c , i t ) lo g , p ( c ) 一 p w艺p ( c , l t ) lo g 2 p ( c , i 了 ) 其巾p ( t ) 为项t 在文本中出现的概率, 可以用 川/ s 来估计, p ( 1 ) 为项t 小在 文本中出现的概率,可以用. b / s 来估计。一般情况下 ,此时的嫡将比原来的墒 工 ( s l , s 2 , - - , s n ) 更小, 即这个 项给我们提供了 定的信息, 使得分类时的不 确定 程度降低了 。它提供的信息景的多少n j 以 i ll 信息增益来表/ r : i c a t ) 二 a s , s . . . . . . . , ) 一 i ( t ) 二 t k t) p ( , 1 0 lo g , h f c , i t ) p ( c , )+ p ( t ) j p (c , i t ) lo g , p ( c , 1 0 爪0 ( 2 - t l ) 信息增益的不足之处在于, 它考虑了项未出现的情况,即( 3 一 土 t ) 右边的后半 部 分 虽然某个 项不出 现也 可能对判断文本类别有贡献, 但实验证明引 , 这种贡 献往往远远小于它所带来的干扰,特别是在类分布和项分布高度不平衡的情况 r - 对某一 类来说, 绝大多 数 项都是“ 不出 现” 的, 即p ( t ) ) p ( t ) , 此时 信息m 益的卜 要部分是信息增益公式中后一部分( 代表项不出 现的情况) , 而不是前一部 分( 代表项出 现的情况) , 这时信息增益的效果 就会大大降低了。 4_ i给出在实验中, 原始t f i d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论