(计算机应用技术专业论文)基于投影寻踪回归的文本分类研究.pdf_第1页
(计算机应用技术专业论文)基于投影寻踪回归的文本分类研究.pdf_第2页
(计算机应用技术专业论文)基于投影寻踪回归的文本分类研究.pdf_第3页
(计算机应用技术专业论文)基于投影寻踪回归的文本分类研究.pdf_第4页
(计算机应用技术专业论文)基于投影寻踪回归的文本分类研究.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(计算机应用技术专业论文)基于投影寻踪回归的文本分类研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于投影寻踪回归的文本分t研究 摘要 川向量表示文本是目前信息检索中最常川的方法,但在向量模型中,特征 空间的维数通常高达数万维,如此高维的 特征向量的处理具有极高的 计算复杂 度,而月 _ 会产生所谓的 “ 维数灾难问题” ,这就要求我们对高维数据进行降维, 而合理的降维技术也正是文本自动分类的研究难点【 现有的文本 自 动分类中的降维方法大多是建立在数据总体服从正态分布这 个假定基础之上的,而文本特征数据并不满足正态分布假定,需要用稳健的或 非参数的方法来解决这个问题。投影寻踪是用来分析和处理高维观测数据,尤 其是非正态、非线性高维数据的一种新兴统计方法。由于投影寻踪回归算法 ( p p r ) 本身不对观 测数据做正态分布等假定, 所以 该方法能 最充分 地利用高维 观测数据中的所有信息,特别是可以利f 11 常规方 一法无法利用的非正态信息 和复 杂的非线性信息。因此,本文 提出了琴于投影寻踪回归的文本自 动分类算法, 通过投影寻踪回归算法,可以真实地描述高维数据的客观内在规律,从而达到 降低特征维数,提高文本分类的精度的目的。 基于投影寻踪回归的文本分类力法的思想是:将文木表示为向量形式,然 后将此高维数据投影到低维子空间上,并寻找出最能反映原高维数据的结构和 特征的投影方向,然后将文本投影到这些方向,并用岭函数进行拟合,通过反 复选取最优投影方向,增加岭函数有限项个数的方法使高维数据降低维数,最 后采用普通的文本分类算法进行分类。 我们采用标准文档集:r e u t e r s - 2 1 5 7 8进行了分类实验,井同时在相同的 预处理条件 下,与 日前常用的方法进行 了对比实验,实验结果表明,该模型对 文本 自动分类具有较高的召回率和准确率,该方法是一个可行而有效的文本分 类方法。 本文的i 几 要 创新点如下: 1 将投影寻踪回归方法应用于文本自动分类,通过投影指标来确定投影方 向,反复将文木向量投影到一维空间,然后用岭函数进行拟合,进行高 维数据的降维,最后进行文本的自动分类。 2 采用h e r m i t e i e 交多项式拟合岭函数,大大降低计算复杂度。 关键词:投影寻踪回归、文本分类、维数约简、遗传算法 基于投影寻踪回归的文本 分类研究 ab s t ra ct i n g e n e r a l , t e x t i s r e p r e s e n t e d b y v e c t o r m o d e l , w h i c h i s a h i g h d i me n s i o n a l i t y f e a t u r e s p a c e . u s i n g t h i s h i g h d i m e n s i o n a l v e c t o r i n t e x t c l a s s i f i c a t i o n wi l l r a i s e t h e c u r s e o f d i me n s io n a l i t y , s o w e s h o u l d u s e d i m e n s i o n a l r e d u c t i o n t o a v o i d t h i s p r o b l e m . a n d t h e r e s e a r c h o n t e c h n o l o g y o f d i me n s i o n a l r e d u c t i o n i s o n e o f t h e d i ff i c u lt , i n t e r e s t i n g p r o b l e m s o f t e x t c l a s s i f i c a t i o n . mo s t t e x t c la s s i f i c a t i o n s r e d u c e d i m e n s i o n a l i t y b y u s i n g f e a t u r e s e l e c t i o n o r f e a t u r e e x t r a c t i o n . t h o s e t e c h n i q u e s h a v e a n a s s u mp t i o n o f n o r m a l d i s t r i b u t i o n . t e x t d a t a d o e s n o t s a t i s f y t h e a s s u m p t i o n o f n o r m a l it y t h a t t h o s e m e t h o d s a r e b a s e d o n , s o w e n e e d a r o b u s t o r n o n p a r a m e t r i c me t h o d t o c o p e w i t h t h i s p r o b l e m . p r o j e c t i o n p u r s u i t t e c h n i q u e i s a n e m e r g i n g s t a t i s t i c a l m e t h o d t h a t i s u s e d i n h i g h d i m e n s i o n a l d a t a a n a l y s i s , p a r t i c u l a r l y i n a n a l y z i n g d a t a t h a t d o e s n o t s a t i s f y n o r m a l d i s t r i b u t i o n a n d n o n l i n e a r i t y . i n p p r t h e d a t a d o e s n o t s a t i s f y t h e a s s u m p t i o n o f n o r m a l d i s t r i b u t i o n ; i t i s a b l e t o i g n o r e ir r e le v a n t ( i .e . n o i s y a n d i n f o r m a t i o n - p o o r ) v a r i a b l e s , s o i t c a n m a k e f u l l u s e o f t h e i n f o r m a t i o n o f h i g h d i m e n s i o n a l d a t a . we p r o p o s e a t e x t c l a s s i f i c a t i o n mo d e l b a s e d o n p r o j e c t i o n p u r s u it r e g r e s s i o n . t h e m a i n i d e a i s t o p r o j e c t t h e d a t a o f t e x t t h a t h a v e b e e n r e p r e s e n t e d b y v e c t o r m o d e l fr o m a h i g h d i m e n s i o n a l s p a c e t o a l o w e r d i m e n s i o n a l s u b s p a c e , f i n d p r o j e c t i o n d i r e c t i o n s t h a t c a n r e fl e c t t h e c o n s t r u c t i o n a n d f e a t u r e o f t h e h i g h d i me n s i o n a l d a t a , a n d t h e n p r o j e c t t h e t e x t t o t h e s e d i r e c t i o n s . we u s e r i d g e f u n c t i o n t o f i t t i n g t h e d a t a , b y s e l e c t i n g t h e m o s t p r o j e c t i o n d i r e c t i o n s r e p e t i t i v e l y , t h i s m e t h o d d e c r e a s e t h e d i m e n s i o n o f h i g h - d ime n s i o n a l d a t a b y i n c r e a s i n g t h e n u m b e r o f r i 叱e f u n c t i o n , a t l a s t , u s e g e n e r a l t e x t c l a s s i fi c a t i o n a l g o r i t h m t o c l a s s i f y . we a l s o d o s o m e e x p e r i m e n t b y u s i n g s v m m e t h o d . k n n m e t h o d a n d s o m e o t h e r m e t h o d s . t h e r e s u lt o f e x p e r i m e n t s h o w s t h a t p r o j e c t i o n p u r s u i t r e g r e s s io n h a s f i n e r e c a l l a n d p r e c i s i o n . t h e p r o j e c t i o n p u r s u i t r e g r e s s i o n is a f e a s i b l e e ff e c t i v e me t h o d o f t e x t c l a s s i f i c a t i o n . t h e m a i n c r e a t i v e s o f t h i s p a p e r a r e : ( 1 ) p r o p o s i n g p p r mo d e l f o r a u t o m a t e d t e x t c l a s s i fi c a t i o n ( 2 ) i n m a n y f i t t i n g r i d g e f u n c t i o n s , s e l e c t i n g h e r m i t e o rt h o g o n a l p o l y n o m i a l t o f i t r i d g e f u n c t i o n ke y wo r d s : p r o j e c t i o n p u r s u i t r e g re s s i o n 、t e x t c l a s s i f i c a t i o n 、d i me n s i o n r e d u c t i o n . ge n e t i c a l g o r i t h m 基于投影寻踪回归的文本分类研究 第一章 引言 1 . 1研究背景 人类社会己经步入一个信息 化的时代, 在人们的日 常活动当中无时无刻不在获取 信息,分析信息,并以此来决策 自我行为。从某种程度上来说,信息的拥有量己经成 为决定和制约人类社会发展的重要因素。 近年来i n t e rn e t 迅猛发 展, 根据统计, 互联网 上在 线发布的网页早己 达到亿数量级, 并以每大百万页的速度增 长。这些网页信息中包含的内容极为丰富,囊括了人类社会 从政治、经济、军事到生活、娱乐、体育的各个方面,而且这些信息又是完全开放的 从发展趋势来看, 互联网 必将成为人们获 取信息的最主要来源。 但是i n t e rn e t 不是一个 组织严密、条理清晰的数字信息库,而是一个杂乱无章的信息仓库。人们要想从其中 获取自己 感兴趣的信息已 经变得越来越困难,往往花费 很多时间却所获寥寥。虽然人 们可以凭借 自 我的分析能力对网页信息进行人工分类、获取信息,而且传统的网页分 类也正是通过人 手工来完成的,即专 业人员在分析网页 的内容后,将它分到 一个或 若 干个比较合适的 类别中,从而达到分类的目 的, 但是随 着网页信息容量极其地快速 增 长,依靠人工的方式来进行网页分类必将耗费大量的人力和物力,这种人工手动的分 类 方式己经显得越来越力不从心了。 要想高效准确地获取到所需的信息,那么对信息进行分类是必不可少的。通过分 类,信息可以得到有效的组织管理,可以在较大程度上解决目前互联网上信息杂乱无 章的现象,这样用户可以更容易、更准确地定位所需的信息。以目前的情况看来,虽 然互 联网上的信息载体呈多样化趋势, 但仍以文本为主, 文字仍是互联网上信息的 最 主要来源。文本分类技术可以帮助人们完成这项工作,为信息提取与信息处理打下良 好的基础。它在文本挖掘乃至网络挖掘中均占有重要的地位。文本 自动分类相对人工 分类而言,具有高效率、高速度的特点。其效率将是人工分类的百倍甚至千倍,从而 大大地节约了人力物力的消耗。具备较高的准确度,消除了人为错误产生的可能而 且具有 良好的自适应性,可快速适应文本的更新及类别设置的变化,适应不同环境及 需求。 这就使得 对文本自 动分类的研究成为了 一个日 益重要的研究 领域。 对 自 动分类技术的研究始 于5 0 年代末, h .p l u h n 在这一领域进行了开创性的研究。 1 9 6 0 年, ma r o n 在 j o u rna l o f a s m 上发表了关于自动分类的第一篇论文 o n r e l e v a n c e p ro b a b il is tic in d e x in g a n d in fo r m a t io n r e tr ie v a l . 随 后 许 多 著名 的 情报 学 家 , 如k .s p a r c h , g s a lt o n 及r . m . n e e d h a m等都在这一领域进行了 卓有成效的 研究。 到目 前为止, 对自 动分类的研究在国 外经历了 三个发展阶段: 第一阶段( 1 9 5 8 - 1 9 6 4 ) , 主要进行自 动分类 的叮 行性研究;第二阶段( 1 9 6 5 -1 9 7 勺, 进行自 动分类的实验研究;第二 阶段( 1 9 7 5 至今) ,进入实用化阶段。目 前, 越来越多的 统计分 类方 法、机器学习方法、 数据挖掘 基于投影寻踪回归的文本分类研究 第一章 引言 1 . 1研究背景 人类社会己经步入一个信息 化的时代, 在人们的日 常活动当中无时无刻不在获取 信息,分析信息,并以此来决策 自我行为。从某种程度上来说,信息的拥有量己经成 为决定和制约人类社会发展的重要因素。 近年来i n t e rn e t 迅猛发 展, 根据统计, 互联网 上在 线发布的网页早己 达到亿数量级, 并以每大百万页的速度增 长。这些网页信息中包含的内容极为丰富,囊括了人类社会 从政治、经济、军事到生活、娱乐、体育的各个方面,而且这些信息又是完全开放的 从发展趋势来看, 互联网 必将成为人们获 取信息的最主要来源。 但是i n t e rn e t 不是一个 组织严密、条理清晰的数字信息库,而是一个杂乱无章的信息仓库。人们要想从其中 获取自己 感兴趣的信息已 经变得越来越困难,往往花费 很多时间却所获寥寥。虽然人 们可以凭借 自 我的分析能力对网页信息进行人工分类、获取信息,而且传统的网页分 类也正是通过人 手工来完成的,即专 业人员在分析网页 的内容后,将它分到 一个或 若 干个比较合适的 类别中,从而达到分类的目 的, 但是随 着网页信息容量极其地快速 增 长,依靠人工的方式来进行网页分类必将耗费大量的人力和物力,这种人工手动的分 类 方式己经显得越来越力不从心了。 要想高效准确地获取到所需的信息,那么对信息进行分类是必不可少的。通过分 类,信息可以得到有效的组织管理,可以在较大程度上解决目前互联网上信息杂乱无 章的现象,这样用户可以更容易、更准确地定位所需的信息。以目前的情况看来,虽 然互 联网上的信息载体呈多样化趋势, 但仍以文本为主, 文字仍是互联网上信息的 最 主要来源。文本分类技术可以帮助人们完成这项工作,为信息提取与信息处理打下良 好的基础。它在文本挖掘乃至网络挖掘中均占有重要的地位。文本 自动分类相对人工 分类而言,具有高效率、高速度的特点。其效率将是人工分类的百倍甚至千倍,从而 大大地节约了人力物力的消耗。具备较高的准确度,消除了人为错误产生的可能而 且具有 良好的自适应性,可快速适应文本的更新及类别设置的变化,适应不同环境及 需求。 这就使得 对文本自 动分类的研究成为了 一个日 益重要的研究 领域。 对 自 动分类技术的研究始 于5 0 年代末, h .p l u h n 在这一领域进行了开创性的研究。 1 9 6 0 年, ma r o n 在 j o u rna l o f a s m 上发表了关于自动分类的第一篇论文 o n r e l e v a n c e p ro b a b il is tic in d e x in g a n d in fo r m a t io n r e tr ie v a l . 随 后 许 多 著名 的 情报 学 家 , 如k .s p a r c h , g s a lt o n 及r . m . n e e d h a m等都在这一领域进行了 卓有成效的 研究。 到目 前为止, 对自 动分类的研究在国 外经历了 三个发展阶段: 第一阶段( 1 9 5 8 - 1 9 6 4 ) , 主要进行自 动分类 的叮 行性研究;第二阶段( 1 9 6 5 -1 9 7 勺, 进行自 动分类的实验研究;第二 阶段( 1 9 7 5 至今) ,进入实用化阶段。目 前, 越来越多的 统计分 类方 法、机器学习方法、 数据挖掘 基丁 投影寻踪回归的文木分类研究 技术和其它新技术被应用到文本自 动分类领域中,如:回归 模型、 最近邻分类器、规 则学习算法、相关反馈技术、专家投票分类法、人 1 一 神经网络等,这些方法在参考文 献 1 2 中有较好的综述。 这些方法都能对 , 个预先分好类的文 本集合进行学习, 获取每 个类别的特征,从而自 动生成分类规则,建立一个文本分类器。它们的优势在于:在 建立分类器时,不需要知识工程师和领域专家的介入,大大节省 了 专家的人 劳动, 却仍然能够获得 与人工分类相当的分类精度。 1 . 2论文工作 从发展现状来看,文本分类技术现在已经相对成熟,但实用性强的技术仍然比较 缺乏。不少分类模型和特征提取算法复杂性较高,实现细节过于复杂,导致训练和分 类的效率低下,难以应付现实中庞大的数据集 】 降维技术要解决的问题就是特征空问维数过高的问题。一般来说,在把文本表示 为向量形式时,训练文本集中的特征项可能多达数万个。通常认为,这些特征中的任 何一个都对实现正确的分类有着它的贡献。但是,在这些大量的特征中肯定还包含着 许多彼此相关的特征,这些相关的特征是冗余的,是 可以去除的。 而且这种高维向 量 的处理具有极高的计算复杂度,尤其是会产生所谓的 “ 维数灾难” 问题,因此,如何 保留那些对分类起着重要贡献的特征,去除那些冗余的特征,以减少特征总数,即如 何进行维数约简,已成为一个日益重要的研究领域。 目前维数约简的方法分为特征选择 ( f e a t u r e s e l e c t i o n )和特征提取 ( f e a t u r e e x t r a c t i o n ) 两种。 1 特征选择: 又叫独立评估法。 在特征选择时一般都是利用某种评价函数独立地 对每个原始特征项进行评分, 然后将它们按分值的高低排序, 从中选取若干个 分值最高的 特征项。 现有的文本分类大部分采用这种方法, 但是通过这种方法 选择的特征项中可能还包含着一些彼此相关的因素, 也就是说还存在一些冗余 的特征。 2 特征提取:也叫综合评估法。其基本思想是利用映射 ( 或变换 ) 的方法把原始 特征项集映射到较低维的空间中, 映射后的特征叫 屯 次特征, 它们是原始特征 的某种组合 ( 通常是线性组合) 。通过降维映射的方法,构造数 目 较少的新特 征,每个特征都是原有特征的函数,并通过新特征进行识别。 特征提取是决定最终分类效果的重要因素,但在现有的应用于文本分类特征提取 的算法有着其自身的缺陷。 特征提取的算法有很多,如:主成分分析、f i s h e : 线性判别 分析等。这些算法不仅可 以降低计算复杂度,减少噪音数据对分类效果的影响,还可 以缩短计算时间。但是这些方法都是建立在数据总体服从正态分布这个假定基础之 上 的,而实际问题中有许多数据是不满足正态分布假定的,因此我们需要用稳健的或非 参数的方法来解决这一问题。从发展方向来看,继续丰富文本分类,深入研究降维技 术是其发展的方向之一,而这也是文本 自 动分类的研究难点。对此,本文提出了基于 2 基丁 投影寻踪回归的文木分类研究 技术和其它新技术被应用到文本自 动分类领域中,如:回归 模型、 最近邻分类器、规 则学习算法、相关反馈技术、专家投票分类法、人 1 一 神经网络等,这些方法在参考文 献 1 2 中有较好的综述。 这些方法都能对 , 个预先分好类的文 本集合进行学习, 获取每 个类别的特征,从而自 动生成分类规则,建立一个文本分类器。它们的优势在于:在 建立分类器时,不需要知识工程师和领域专家的介入,大大节省 了 专家的人 劳动, 却仍然能够获得 与人工分类相当的分类精度。 1 . 2论文工作 从发展现状来看,文本分类技术现在已经相对成熟,但实用性强的技术仍然比较 缺乏。不少分类模型和特征提取算法复杂性较高,实现细节过于复杂,导致训练和分 类的效率低下,难以应付现实中庞大的数据集 】 降维技术要解决的问题就是特征空问维数过高的问题。一般来说,在把文本表示 为向量形式时,训练文本集中的特征项可能多达数万个。通常认为,这些特征中的任 何一个都对实现正确的分类有着它的贡献。但是,在这些大量的特征中肯定还包含着 许多彼此相关的特征,这些相关的特征是冗余的,是 可以去除的。 而且这种高维向 量 的处理具有极高的计算复杂度,尤其是会产生所谓的 “ 维数灾难” 问题,因此,如何 保留那些对分类起着重要贡献的特征,去除那些冗余的特征,以减少特征总数,即如 何进行维数约简,已成为一个日益重要的研究领域。 目前维数约简的方法分为特征选择 ( f e a t u r e s e l e c t i o n )和特征提取 ( f e a t u r e e x t r a c t i o n ) 两种。 1 特征选择: 又叫独立评估法。 在特征选择时一般都是利用某种评价函数独立地 对每个原始特征项进行评分, 然后将它们按分值的高低排序, 从中选取若干个 分值最高的 特征项。 现有的文本分类大部分采用这种方法, 但是通过这种方法 选择的特征项中可能还包含着一些彼此相关的因素, 也就是说还存在一些冗余 的特征。 2 特征提取:也叫综合评估法。其基本思想是利用映射 ( 或变换 ) 的方法把原始 特征项集映射到较低维的空间中, 映射后的特征叫 屯 次特征, 它们是原始特征 的某种组合 ( 通常是线性组合) 。通过降维映射的方法,构造数 目 较少的新特 征,每个特征都是原有特征的函数,并通过新特征进行识别。 特征提取是决定最终分类效果的重要因素,但在现有的应用于文本分类特征提取 的算法有着其自身的缺陷。 特征提取的算法有很多,如:主成分分析、f i s h e : 线性判别 分析等。这些算法不仅可 以降低计算复杂度,减少噪音数据对分类效果的影响,还可 以缩短计算时间。但是这些方法都是建立在数据总体服从正态分布这个假定基础之 上 的,而实际问题中有许多数据是不满足正态分布假定的,因此我们需要用稳健的或非 参数的方法来解决这一问题。从发展方向来看,继续丰富文本分类,深入研究降维技 术是其发展的方向之一,而这也是文本 自 动分类的研究难点。对此,本文提出了基于 2 基于投影寻踪回归的 文本分 类研究 投影寻踪回归的文本自 动分类算法。 由于投影寻踪回归算法 ( p p r ) 本身不对观测数据做正态分布等假定, 所以该方法 能 最充分地利用高 维观 测数据中的 所有信息,特别是可以利 用常规方法无法利用的非 正 态信息和复杂的非线性信息。通过投影寻踪回归算法,可以真实地描述高维数据的 客观内 在规律,从而达到提高 文本分 类的 精度的目 的。 本文的主要工作是: 1 . 根据分类的目标构造并优化用 于寻找最优投影方向的投影指标。 2 通过遗传算法寻找使投影指标达到某个特定的m i 值的投影方向。 3 利用获得的投影方向 进行回 归分 析。 4 .重复第2 步,直到能获得较好的回 归效果。 5 . 将测试集用 k n n方法进行分类。 木文的主要创新点如下: 1 将投影寻踪回归的方法应用于文本 自 动分类,通过投影指标来确定投影方向, 将文本向量投影到一维空间后, 然后用函数进行拟和,最后进行文本的自 动分 类。 2 使 川h e r rn i t e 正交多项式去拟和岭函 数,大 大降低计算复杂度。 1 . 3论文组织 本文的具体安排如下: 第一章:引言。介绍了自 动文本分类技术的产生背景及其意义。 第二 章:文本分类概述。 介绍了自 动文本分类的问 题描述、技术的种类以及评价 方法,并介绍 了 几种比较重要的分类算法。 第三章: 投影寻踪。介绍了 投影寻踪方法, 并对木文提出的投影寻踪回归方法作 了较为详细的阐述。 第四章:实验和分析。该章节为本文的重点,集中介绍了本人所做的工作,针对 目前分类方法基于数据总体服从 正态分布这个假定基础之上的不足,将投影寻踪回归 方法引入到文本自 动分类中, 提出了 基于投影寻踪回归文本分类模型, 并进行了 实验, 对实验结果进行分析。 第五章:总结 与 展望。对全文_ 作进行了总结并提出 卜 一步的1 _ 作展望。 基于投影寻踪回归的 文本分 类研究 投影寻踪回归的文本自 动分类算法。 由于投影寻踪回归算法 ( p p r ) 本身不对观测数据做正态分布等假定, 所以该方法 能 最充分地利用高 维观 测数据中的 所有信息,特别是可以利 用常规方法无法利用的非 正 态信息和复杂的非线性信息。通过投影寻踪回归算法,可以真实地描述高维数据的 客观内 在规律,从而达到提高 文本分 类的 精度的目 的。 本文的主要工作是: 1 . 根据分类的目标构造并优化用 于寻找最优投影方向的投影指标。 2 通过遗传算法寻找使投影指标达到某个特定的m i 值的投影方向。 3 利用获得的投影方向 进行回 归分 析。 4 .重复第2 步,直到能获得较好的回 归效果。 5 . 将测试集用 k n n方法进行分类。 木文的主要创新点如下: 1 将投影寻踪回归的方法应用于文本 自 动分类,通过投影指标来确定投影方向, 将文本向量投影到一维空间后, 然后用函数进行拟和,最后进行文本的自 动分 类。 2 使 川h e r rn i t e 正交多项式去拟和岭函 数,大 大降低计算复杂度。 1 . 3论文组织 本文的具体安排如下: 第一章:引言。介绍了自 动文本分类技术的产生背景及其意义。 第二 章:文本分类概述。 介绍了自 动文本分类的问 题描述、技术的种类以及评价 方法,并介绍 了 几种比较重要的分类算法。 第三章: 投影寻踪。介绍了 投影寻踪方法, 并对木文提出的投影寻踪回归方法作 了较为详细的阐述。 第四章:实验和分析。该章节为本文的重点,集中介绍了本人所做的工作,针对 目前分类方法基于数据总体服从 正态分布这个假定基础之上的不足,将投影寻踪回归 方法引入到文本自 动分类中, 提出了 基于投影寻踪回归文本分类模型, 并进行了 实验, 对实验结果进行分析。 第五章:总结 与 展望。对全文_ 作进行了总结并提出 卜 一步的1 _ 作展望。 基于投影浮踪回归的文本分类研究 第二章 文本分类概述 “ 文本 自 动分类 ”这个术语在不同的场合叫 能 会引起混淆,它可能指以下两个不 同的意思:( 1 ) 、自 动地为文本指派预定义的 类别, 这也 是本文 主要讨论的问 题;( 2 ) 自动地得出这样一个类别集合,并同时把文本指派到这些类别。 以_ 两种含义的主要区别在于:对于前者,类别集合和己给文本集中每篇文本分 别属于哪个类都是已知的:而对于后者,则只是给出了一个文本集,井没有指定类别 集, 侮 篇 文 本 属 于 哪 个 类也 是 未 知的 。 对于 前 一 种 情 况 人 们 就叫 做 分 类( c la s s if y ) , 或 监督学习 ( 有指导的学习) 、 概念驱动、归纳假说;对 于后一种情况,则人们常称为聚 类 ( c l u s t e r ) , 或非监督 学习 ( 无指导的学习) 、数据驱动、演绎假说。 简f 地说,本文所讨论的文本分类就是有监督的学习,即先根据已有的样例文本 找出能描述并区分文木类别的 分类器 ( 规则、 假设、或模型) , 然后利川该 分类器对新 的未分类文本进行分类。文本自 动分类一般包括两个阶段,即学习建模阶段 和测试分 类阶 段, 学习建 模阶段的任务是归纳并 得出分类器,为 此,必须预先给定 一 个文本集 合s : s , s , , 一 ,s . ) , 其中每个元素s , 为一个文本, 并同 时标记了 其所对应的 类别 y ( s ; ) e c , 因 此s 中 的 每 个 元素 都 代 表 一 个 序 偶 . 集 合s 称为 训 练 样 本 集 , 其中 的 每 个 儿素 s 称为 训练 样 本。 通 过 对该 训 练 样 本 集 进 行学 习 , 学习 器将 能 够 归 纳 出一个分类假设。在测试分类阶段,为了评估该假设与目 标函数的一致程度,必须给 出 另 一个文木 集 合t : (1 1, 1 2 , . . , fn, ) , 其中 每个7 l: 素t 也 各自 标记了 其所 对应的 类别 y ( t, ) e c , 集合t 称 为 测 试 样 本 集, 其 中 的 每 个 元 素 毛 称 为 测 试 样 本。 对于 k 一 个 测 试 样本,用前面得到的分类假设对其进行分类,最后根据其分类性能对该假设进行评估。 若在测试集 卜 的分类性能未达到预定目标,则必须回到学习建模阶段,利用更多的样 本重新进行学习或者修改分类学习算法,若测试分类性能达到了预定的目标,则可应 用该假设对新的待分类文木进行自动分类。 2 . 1文本的表示 文本分类的首要问题就是文本的处理问题,或者称表示问题。因为文本需要被表 示为种分类模型可识别的形式,分类器才能完成相应的训练和分类过程文本分类 是根据文本的内 容完成的,最方便采用的 特征就是词或短语。 所以词汇通常被川作表 示文本的特征。然后采用所谓的 “ 特征表小” ,即通过提取该文本的某些特征 ( 词汇) 来表示一个文本。 由于文本具有非结构化的 特点,计算机很难对其进行直接处理,因此在对文本分 类之前, 首先要把文 本转化为结构化的表示形式, 目 前通常采用的 是词袋表示法( b a g o f w o r d s ) , 它忽略了每 个词条在文本中的位置信息, 而仅仅把文本看成是由若干词 条构成的一个集合( 即“ 词袋” ) ,目 前, 在信息 检索中,人们最常用向 量来表示文本, 基于投影浮踪回归的文本分类研究 第二章 文本分类概述 “ 文本 自 动分类 ”这个术语在不同的场合叫 能 会引起混淆,它可能指以下两个不 同的意思:( 1 ) 、自 动地为文本指派预定义的 类别, 这也 是本文 主要讨论的问 题;( 2 ) 自动地得出这样一个类别集合,并同时把文本指派到这些类别。 以_ 两种含义的主要区别在于:对于前者,类别集合和己给文本集中每篇文本分 别属于哪个类都是已知的:而对于后者,则只是给出了一个文本集,井没有指定类别 集, 侮 篇 文 本 属 于 哪 个 类也 是 未 知的 。 对于 前 一 种 情 况 人 们 就叫 做 分 类( c la s s if y ) , 或 监督学习 ( 有指导的学习) 、 概念驱动、归纳假说;对 于后一种情况,则人们常称为聚 类 ( c l u s t e r ) , 或非监督 学习 ( 无指导的学习) 、数据驱动、演绎假说。 简f 地说,本文所讨论的文本分类就是有监督的学习,即先根据已有的样例文本 找出能描述并区分文木类别的 分类器 ( 规则、 假设、或模型) , 然后利川该 分类器对新 的未分类文本进行分类。文本自 动分类一般包括两个阶段,即学习建模阶段 和测试分 类阶 段, 学习建 模阶段的任务是归纳并 得出分类器,为 此,必须预先给定 一 个文本集 合s : s , s , , 一 ,s . ) , 其中每个元素s , 为一个文本, 并同 时标记了 其所对应的 类别 y ( s ; ) e c , 因 此s 中 的 每 个 元素 都 代 表 一 个 序 偶 . 集 合s 称为 训 练 样 本 集 , 其中 的 每 个 儿素 s 称为 训练 样 本。 通 过 对该 训 练 样 本 集 进 行学 习 , 学习 器将 能 够 归 纳 出一个分类假设。在测试分类阶段,为了评估该假设与目 标函数的一致程度,必须给 出 另 一个文木 集 合t : (1 1, 1 2 , . . , fn, ) , 其中 每个7 l: 素t 也 各自 标记了 其所 对应的 类别 y ( t, ) e c , 集合t 称 为 测 试 样 本 集, 其 中 的 每 个 元 素 毛 称 为 测 试 样 本。 对于 k 一 个 测 试 样本,用前面得到的分类假设对其进行分类,最后根据其分类性能对该假设进行评估。 若在测试集 卜 的分类性能未达到预定目标,则必须回到学习建模阶段,利用更多的样 本重新进行学习或者修改分类学习算法,若测试分类性能达到了预定的目标,则可应 用该假设对新的待分类文木进行自动分类。 2 . 1文本的表示 文本分类的首要问题就是文本的处理问题,或者称表示问题。因为文本需要被表 示为种分类模型可识别的形式,分类器才能完成相应的训练和分类过程文本分类 是根据文本的内 容完成的,最方便采用的 特征就是词或短语。 所以词汇通常被川作表 示文本的特征。然后采用所谓的 “ 特征表小” ,即通过提取该文本的某些特征 ( 词汇) 来表示一个文本。 由于文本具有非结构化的 特点,计算机很难对其进行直接处理,因此在对文本分 类之前, 首先要把文 本转化为结构化的表示形式, 目 前通常采用的 是词袋表示法( b a g o f w o r d s ) , 它忽略了每 个词条在文本中的位置信息, 而仅仅把文本看成是由若干词 条构成的一个集合( 即“ 词袋” ) ,目 前, 在信息 检索中,人们最常用向 量来表示文本, 基于投影寻踪回归的文本分类研究 即使用向 量空间 模型 4 1 1 ( v s m) 来表示文本。 在向 量空间 模型中,侮个文本被看成是 山 一组正交词条(0 1 1 1 2 , . . . , t ) 所张成的向 量空间中 的一个点:v ( d ) = ( w 1 , w . . . . . . w . ) , 其 中、 为 词 条t 的 权 值, 表示 该 词 条 在 文 本中 的 重 要 程 度。 这 样 如 果 有m个 文 本 , 则 可 以 构 成 一 个二 维 的m x n 阶 矩阵g , 其中 第i 行 代 表 第 i 个文 木, 第j 列 代表 第 j 个 词 条 ( 或 特征 ),g , 则 代 表第1 个词 条 在第 i 个文 本中 所 具 有的 权 值, 大 量 文 本 中 的 词 条( 或 词典中的所有词条)可能有儿千甚至几万个,处理这种高维矩阵的计算复杂度太大, 因 此必须 进行降 维处理,但在降维的同时 又希望能把信息的损失降到最低,因此必须 找到并保留对分类贡献最大的那些特征,这个过程一般称为特征选择和提取,它是文 本分类中非常重要的一个环节,因为特征选择和提取的好坏将直接影响到文本分类算 法的准确率。 2 . 2项的 权值 在向 量 空 间 模 型中 , 每 个文 本 d 被 映 射 为 一 个 项 ( 特 征 ) 集仁 1 ,1 z , 1 ) , 于 是d 可表 示 为 一 个 特 征向 量: v (d ) 二 ( w i , w 2 ,. . ., w n ) , 其 中w , 为 项t, 的 权 值, 表 示 该 项 在 文 本 中 的重要程度。 对于 项( 特征) 集中 每个项的 权值的 计算方 法有很多,目 前, 最常用的 方法 是t f i d f ( t e r m s f r e q u e n c y i n v e r s e d o c u m e n t f r e q u e n c e ) 函 数: 甄二 呱 . 10 8 ( 丝 + 0 .0 1 ) (2 - 1 ) 其 中 拭 、 表 示词 条 t * 在文 档试 中 的出 现 频 数 , n 表示 用于 特 征 提取 的 全 部 训 练 文 本 的 文 档 总 数 ,n k 表 示词 条 t 、 的 文 档 频 数。 该 函 数反 映了 我 们 对于 某 词 条 重 要 性 的 直 观 理解:( i ) 、 一个单词在 某文木中出现的次数越多,则对文本内 容的贡献越大; ( 2 ) 、一 个单词在不同文本中出现的次数越多,则它区分不同文木的能力越弱。在实际应用中 为了消除由文本的长度不同引起的差异,通常还会对该函数作规范化处理,即把公式 ( 2 - 1 ) 改写为: f k - lo g ( 丝 + 0 .0 1 ) wk n k _ 6(2kk_-1 lo g e ( 丝 + 0 .0 1 ) ( 2 - 2 ) 这 样所 有 的 权 值都 将落 在0, 11 区间 内 , 使 每 个 文本 的 特征 权向 量 都 变成长 度为1 的单位向量。当然,除了 t f i d f外,还有一些其它的权值计算方法,如概率的方法, 信息论的方法等 , 2 . 3维数约简 在应用统计方法解决模式识别问题时, 经常碰到的一个问题就是被b e l l m a n 称之为 “ 维 数灾难” 的问 题。 在低维空间里, 解析 卜 或计算上可行的方法在应用到5 0 维或 1 0 0 维空间里时, 就可能 变得完全没有丝毫实际意义。 为解决 此问题发展出了许 多压缩特 基于投影寻踪回归的文本分类研究 即使用向 量空间 模型 4 1 1 ( v s m) 来表示文本。 在向 量空间 模型中,侮个文本被看成是 山 一组正交词条(0 1 1 1 2 , . . . , t ) 所张成的向 量空间中 的一个点:v ( d ) = ( w 1 , w . . . . . . w . ) , 其 中、 为 词 条t 的 权 值, 表示 该 词 条 在 文 本中 的 重 要 程 度。 这 样 如 果 有m个 文 本 , 则 可 以 构 成 一 个二 维 的m x n 阶 矩阵g , 其中 第i 行 代 表 第 i 个文 木, 第j 列 代表 第 j 个 词 条 ( 或 特征 ),g , 则 代 表第1 个词 条 在第 i 个文 本中 所 具 有的 权 值, 大 量 文 本 中 的 词 条( 或 词典中的所有词条)可能有儿千甚至几万个,处理这种高维矩阵的计算复杂度太大, 因 此必须 进行降 维处理,但在降维的同时 又希望能把信息的损失降到最低,因此必须 找到并保留对分类贡献最大的那些特征,这个过程一般称为特征选择和提取,它是文 本分类中非常重要的一个环节,因为特征选择和提取的好坏将直接影响到文本分类算 法的准确率。 2 . 2项的 权值 在向 量 空 间 模 型中 , 每 个文 本 d 被 映 射 为 一 个 项 ( 特 征 ) 集仁 1 ,1 z , 1 ) , 于 是d 可表 示 为 一 个 特 征向 量: v (d ) 二 ( w i , w 2 ,. . ., w n ) , 其 中w , 为 项t, 的 权 值, 表 示 该 项 在 文 本 中 的重要程度。 对于 项( 特征) 集中 每个项的 权值的 计算方 法有很多,目 前, 最常用的 方法 是t f i d f ( t e r m s f r e q u e n c y i n v e r s e d o c u m e n t f r e q u e n c e ) 函 数: 甄二 呱 . 10 8 ( 丝 + 0 .0 1 ) (2 - 1 ) 其 中 拭 、 表 示词 条 t * 在文 档试 中 的出 现 频 数 , n 表示 用于 特 征 提取 的 全 部 训 练 文 本 的 文 档 总 数 ,n k 表 示词 条 t 、 的 文 档 频 数。 该 函 数反 映了 我 们 对于 某 词 条 重 要 性 的 直 观 理解:( i ) 、 一个单词在 某文木中出现的次数越多,则对文本内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论