(概率论与数理统计专业论文)data+mining中的统计方法及其应用.pdf_第1页
(概率论与数理统计专业论文)data+mining中的统计方法及其应用.pdf_第2页
(概率论与数理统计专业论文)data+mining中的统计方法及其应用.pdf_第3页
(概率论与数理统计专业论文)data+mining中的统计方法及其应用.pdf_第4页
(概率论与数理统计专业论文)data+mining中的统计方法及其应用.pdf_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着计算机和电子数据技术的不断发展以及i n t e r n e t 和各种局域网的广泛普 及,人们获得的数据正以前所未有的速度急剧增加,最近几十年产生了很多超大型 数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统 计等领域那么,如何从这些大型数据库中发现有用的信息、模式和知识? 如何开 发有效的挖掘方法? 已成为众多科技工作者共同关注的焦点在过去几年,一个称 为“数据挖掘”( d a t am i n i n g ) 的新领域得到了快速发展,这是一个介于统计学、 模式识别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新 学科,已在经济、商业、金融、天文等行业得到了成功的应用,在国际上掀起了一 股空前的研究热潮 从总体上,国外在数据挖掘领域中的研究内容十分广泛,已经取得了明显的成 果,如h a n ,j a n df u ,y ( 1 9 9 5 ) 等人对于定量关联规则以及其他种类的关联规则 的发现研究,m e h t a ,m ( 1 9 9 6 ) 等人针对大型数据库快速分类算法的研究,o w e n , a b ( 1 9 9 9 ) 对分类与回归的管状邻域研究,f r i e d m a n ,j h ( 1 9 9 7 ) 对最近邻分类 方法的改进,以及我们所列文献中对聚类规则的研究、数据泛化、简约和特征提取 研究等目前,国内的许多科研单位和高等院校竞相开展数据挖掘的基础理论及其 应用研究,例如:模糊方法在知识发现中的应用研究;对数据立方体代数的研究;对 关联规则开采算法的优化和改造;非结构化数据的知识发现以及w e b 数据挖掘 然而,对数据挖掘技术的统计方法专门研究的不多,为了发展数据挖掘的技术与理 论,更好地应用于实际,我们将就数据挖掘的统计方法及其应用展开研究,其中包 括事务性数据库的压缩、数据的排序及有向聚类分析、关联规则的进一步研究、针 对时序稠密数据的基函数拟合与预测等 我们在第一章中从技术和商业的角度介绍了数据挖掘的定义,数据挖掘与知识 发现的关系,以及数据挖掘的对象 第二章我们从国内外在数据挖掘领域中的发展状况,概括出了数据挖掘领域的 研究成果,探讨了数据挖掘与统计学的关系以f r i e d m a n ,j h 和t u k e y ,j w ( 1 9 7 4 ) 的投影寻踪,及z h a n g ,r c ( 1 9 9 6 ) 在s t i e f e l 流形上的均匀抽样等方法的 i i 摘要 思想。说明了统计学者在数据挖掘领域中所做的贡献 第三章我们研究了事务性数据库的压缩问题首先构造了事务性数据库信息系 统s = 以q ,k , ,其中u 是对象( 事务) 的一个有限集 g l ,2 2 ,。 ,n 为 所研究的事务总量,称u 为论域;q 是描述对象( 事务) 属性的一个有限集合, 称为属性集;v = u q e 口k 是属性项q q 的值域;f 是u q 到y 的一个 映射根据不可识别性的定义,以减少事务数增加可识别性,将原信息系统s 压 缩为s = 矿,q ,k ,) ,这里u + 为等价关系兄口将论域c ,分成等价类族在 此进而,我们相对于具有某种属性特征的子集a q ,将原信息系统s 压缩为 霸= 扩,a ,玖,) 同时,我们利用s h a n n o n 的信息熵,对压缩后的信息系统或 数据库的信息损失进行了统计分析 事务数据库的列联描述也是数据库压缩的一个方面,我们定义 u i j 垒扛:,( z ,。) = n 缨a ,( z ,q a 。) = 趔, o 艘ev q o ,n 蚜,v x u , 来构造二维条件属性项之间的列联关系;我们定义 札0 垒 g :,( z ,q t ) = a ia ,扛,d ) = b ,a i k 。,幻y d ,v x u ) , 构造条件属性项与决策属性项之间的列联关系;定义 “巧皇 z :f ( x ,q i ) = a j ,q i q ,a j k 。,v x u ) , 构造属性项与属性值之间的列联关系 另外,我们基于r o u g h 集理论、相依性、广义线性分析、多重相关性等理论和 方法对事务数据库的属性项压缩进行了探讨其研究结果表明,r o u g h 集理论与 现代统计方法的结合对数据库的压缩有明显的效果 在数据挖掘中应用是检验方法好坏的重要途径。利用我们所构造的数据库压缩 方法,对某地区中国移动手机用户从2 0 0 1 年9 月到2 0 0 2 年3 月的缴费情况的共 计1 4 9 6 3 2 条信息的原始数据库进行了压缩分析不仅验证了方法的可行性,而且 还得到了许多有实际意义的结论 第四章研究了数据的排序及有向聚类问题就排序而言,我们以信息源和综合 属性为标准研究了事务项( 样本) 的排序。以p c a 的思想针对事务数据库。提出 了加权构造综合属性函数方法,利用该方法对某地区中国移动手机用户的消费情况 进行综合评价,通过可视化和统计分析验证了方法的可靠性同时,针对信息系统 s = uq ,u ,) 压缩成的r c 的双因素单向有序列联资料,我们定义了平均秩效 应为 鬲= 篮堕掣= 誊+ t n 4 + l ,川忍,c , 秩效应为 。= 吼l - - “,i = l ,2 ,r 其中r = ( r 1 ,r 2 ,r ) 我们提出了对属性项的秩效应排序方法,并在实际中得 到了应用 在研究聚类分析过程中提出了数据类型衍生的思想最近人们对于最近邻聚类 分析及其应用研究较多( 如o w n e ,b a ( 1 9 9 9 ) ) ,对有序样本的聚类分析也有研究 ( 如f i s h e r 的最优求解法) ,然而对于有序资料的近邻聚类分析研究较少,对此我 们构造了有序近邻聚类分析方法,并与f i s h e r 的最优求解法比较,不仅结果基本一 致,而且提高了运算的速度同时,我们还构造了有序平均秩效应聚类分析方法, 通过计算机的可视化分析及s m i r n o v 检验,验证了该方法的可行性和可靠性 第五章我们对数据挖掘中建立数据之间关联规则的方法进一步研究关联规则 挖掘的研究是近几年研究较多的数据挖掘方法,关联规则的概念首先是由a g r a w a l , r ,h n i e l i s k it a n ds w a m i ,a ( 1 9 9 3 ) 提出,关联规则挖掘的主要对象是事务数据 库我们以相应分析理论对关联规则的方法进行深入的研究,对于相应分析的研究 已经引起了人们的重视( 如胡国定,张润楚( 1 9 8 9 ) ,v e nd ev e l d e na n dn e d e c k e r ( 2 0 0 0 ) ) 在此,我们从总信息变差的角度,以二维列联表的独立性检验入手,在探 讨相应分析某些性质的同时,研究了相应分析与独立性检验的内在关系,并得出了 一些有意义的结论,即 1 ) 在x 2 距离意义下,以重心距离反映f 的总信息变差与以原点距离反映的 总信息变差之间相差单位1 2 ) 设二维列联表的频率矩阵为f = ( ,l ,) ,。,样本容量为k 检验两因素独 立性的妒统计量为w o ,以重心和原点计算因素a 分布轮廓的度量协差阵分别为 s t d 9 1 和f 7 d = _ 1 f d 1 ,则 k t r ( s ,d j l ) = w o 或者k ( t r ( f d i l f d 了1 ) 一1 ) = w o 摘要 3 ) 独立性检验的x 2 统计量i 是卡方标准化频率矩阵在正交于矩阵s 或q 的最大特征值为1 时对应的平凡子空间的空间的k 倍变差 在实际中,针对所研究的对象进行相应分析是否有意义,或者说对于所给的数 据是否值得做这种相应分析,这就是所谓的相应分析的适应性问题对此我们提出 了相应分析适应性检验的基本思想,利用奇异值分解理论,论证了适应性检验方法 的合理性,并构造出了第l 步适应性检验的统计量为 嘶:m 壹壹垃玉正琶掣趟 i = lj = l o2 o , 在凰成立时,统计量渐近服从自由度为p f 一1 ) ( c f 一1 ) 的x 2 分布根 据我们所构造的方法,概括出了相应分析适应性依次检验的程序同时,我们通过 计算机模拟对多度相应分析及多维相应分析的结果进行了可视化研究,验证了该方 法的可靠性 对于两因素之间关联程度的量度有不少学者进行过讨论( 如p e a r s o n ,k ( 1 9 0 4 ) , c r a m e r ,h ( 1 9 4 6 ) ,k e n d a l l ,m a n ds t u a r t ,a ( 1 9 7 9 ) ) ,但是对于相应分析多度 关联程度的量度很少讨论,我们对此构造了相应分析l 度关联系数,即 ,西坠f + 1 屈 u 2 而而= 丁= 可忑j = 研2 盂而二丁二苜忑j = 研 如果a 值越大,说明选取f 个特征值卢l ,屈,屈进行相应分析是有意义的 我们在第六章研究了时序稠密数据集的拟合和建模问题从算法及数据处理的 角度,对多项式基函数、拉格朗日( l a g r a n g e ) 基函数和伯恩斯坦( b e r n s t e i n ) 基函 数进行了比较,确定了b e r n s t e i n 基函数建模是分析时序稠密数据集较为理想的方 法,并对b e r n s t e i n 基函数的性质进行了刻划 设稠密时间序列数据集为x l ,i = o ,1 ,仃,我们定义了以b e r n s t e i n 基函数 建立的模型为 x ( t ) = b i b j ,。( t ) + e ( t ) , v 其中b ,为待定的控制点,马,。( t ) = c ( 1 一t ) ,j = 0 ,1 ,m 为b e r n s t e i n 基函数利用模型曲线的凸包性质,构造了未来某一现象的发展方向,并对此进行 了预测 我们利用所建立的上述模型对上证指数( 1 a 0 0 0 1 ) 从1 9 9 6 年1 月2 日到2 0 0 1 年9 月2 1f t 收盘价( 1 3 6 2 天) 这一稠密时序资料拟合建模,并利用分阶段资料进 行移动预测模拟对拟合和预测的结果,利用可视化方法进行了验证,取得了良好 的效果 这里需要提及的是,本学位论文从不同的角度,利用我们所研究的方法,对某 地区中国移动通讯用户消赞数据库、某大学大学生隐形教育调查资料和上证指数收 盘价信息进行了剖析,不仪检验了方法的实用性和可靠性,而且还得到了许多有意 义的结论 a b s t r a c t t o d a y ,p e o p l ea c q u i l 。e d a t aa taf a n t a s t i cs p e e dt h a tt h e yc o u l dn o ti m a g - i n eb e f o r e ,w i t ht h ed e v e h ) p m e n to fc o m p u t e ra n de l e c t r o n i cd a t at e c h n i q u ea n da w i d e s p r e a du s eo fi n t e r n e ta n dv a r i o u sl a n s i nr e c e n td e c a d e s ,m a n yo v e r l a r g e d a t a b a s e sh a v ea p p e a r e di nv a r i o u sf i e l d s ,s u c ha ss u p e r m a r k e ts a l e s ,b a n k i n g8 a v i n g s ,a s t r o n o m y ,p a r t i c l ep h y s i c s ,c h e m i s t r y ,m e d i c i n ea n dg o v e r n m e n t a ls t a t i s t i c s a n ds oo n h o wt od i s c o v e ru s e f u li n f o r m a t i o n ,p a t t e r na n dk n o w l e d g ef r o mt h o s e o v e r l a r g ed a t a b a s e sa n dh o wt od e v e l o pe f f e c t i v ew a y so fm i n i n gd a t ah a v eb e e na f o c u sf o rm a n ys c i e n t i f i cr e s e a r c h e r s i nt h ep a s tf e wy e a r s ,an e wf i e l dc a l l e d “d a t a m i n i n g ”h a sg a i n e dr a p i dd e v e l o p m e n t ,w h i c hi s an e wc r o s s i n g - s u b j e c tr e l a t i n g t os t a t i s t i c s ,p a t t e r ni d e n t ,i f i c a t i o n ,a i ,m e c h a n i c l e a r n i n g ,d a t a b a s e t e c h n i q u e sa n d h i g h p r o p e r t yp a r a l l e lc a l c u l a t i o n ,e t c m e a n w h i l e ,i th a ss u c c e s s f u l l yb e e na p p l i e d i ne c o n o m y , c o m m e r c e ,f i n a n c ea n da s t r o n o m ya n db r o u g h ta nu n p r e c e d e n t e dt i d e i nt h ew o r l d g e n e r a l l ys p e a k i n g ,t i l ec o n t e n to fr e s e a r c hi nt h ef i e l do fd a t am i n i n g i sr i c h m a n yo b v i o u sa c h i e v e m e n t sh a v eb e e na c q u i r e di nf o r e i g nc o u n t r i e s ,w h i c hi n c l u d e h a n ,j a n df u ,y s ( 1 9 9 3 ) d i s c o v e r ya n dr e s e a r c ho nt h eq u a n t i t a t i v ea s s o c i a t i o n r u l e sa n do t h e rk i n d so fa s s o c i a t i o nr u l e ,m e h t a ,m s ( 1 9 9 6 ) r e s e a r c ho nt h ef a s t c l a s s i f i c a t i o na l g o r i t h mf o rl a r g ed a t a b a s e s ,o w e n ,a b s ( 1 9 9 9 ) r e s e a r c ho nt h e t u b u l a rn e i g h b o r sf o rr e g r e s s i o na n dc l a s s i f i c a t i o n ,f r i e d m a n ,j h s ( 1 9 9 7 ) i m p r o v e m e n to nt h en e a r e s tn e i g h b o rc l a s s i f i e r s ,a n d t h er e s e a r c ho nc l u s t e rr e g u l a r , a n dd a t a g e n e r a l i z a t i o na n d r e d u c t i o na n dc h a r a c t e re x t r a c t i n gd i s p l a y e di nt h er e f - e r e n c e sb yu s c u r r e n t l y ,t h er e s e a r c ho nt h eb a s i ct h e o r ya n da p p l i c a t i o no fd a t a m i n i n gh a sb e e nc a r r i e do u ti nm a n yi n s t i t u t i o n sa n du n i v e r s i t i e si no u rc o u n t r y f o re x a m p l e ,t h ea p p l i e dr e s e a r c ho nf u z z ym e t h o di nt h ek n o w l e d g ed i s c o v e r y , t h e r e s e a r c ho i ld a t ac u b ea l g e b r a ,t h eo p t i m u ma n dr e f o r m a t i o no fa s s o c i a t i o nr u l e m i n i n ga l g o r i t h m ,t h ek n o w l e d g ed i s c o v e r yo fn o n - s t r u c t u r e dd a t aa n dw e b d a t a v t t v i i i a b s t r a c t m i n i n g h o w e v e r ,t h e r ei sj u s tl i t t l es p e c i f i cr e s e a r c ho ut h es t a t i s t i c a lm e t h o d s i n t h ed a t am i n i n g i uo r d e rt od e v e l o p et h et e c h n o l o g i e sa n dt h e o r i e so fd a t am i n i n g a n da p p l yt h e mt op r a c t i c eb e t t e r t h i sd i s s e r t a t i o nc a r r i e so u tar e s e a r c ho nt h e s t a t i s t i c a lm e t h o d sa n da p p l i c a t i o n so fd a t am i n i n g ,w h i c hi n c l u d e st h ec o m p r e s s i o n o ft r a n s a c t i o n a ld a t a b a s e s ,d a t as 0 1t i n g ,o r d e r l yc l a s s i f i c a t i o na n a l y s i s ,a n dt h em o r e r e s e a r c ho fa s s o c i a t i o nr u l e ,t h ef i t t i n go ft h eb a s i cf u n c t i o na n df o r e c a s t i n gf o rt h e d e n s et i m es e r i e sd a t a ,a n ds oo n i nc h a p t e ro n e ,w ei n t r o d u c et h ed e f i n i t i o no fd a t am i n i n gf r o mt h ea n g l eo f t e c h n o l o g ya n dc o m m e r c e ,t h er e l a t i o n s h i p b e t w e e nd a t am i n i n ga n dk n o w l e d g e d i s c o v e r y ,a n dt h eo b j e c to fd a t am i n i n g i nc h a p t e rt w o ,w eg e n e r a l i z et h er e s e a r c ha c h i e v e m e n t si nt i l ef i e l do fd a t a m i n i n ga n de x p l o r et h er e l a t i o n s h i pb e t w e e nd a t an f i n i n ga n ds t a t i s t i c s ,a c c o r d i n g t ot h ed e v e l o p m e n to ft h er e s e a r c ho nd a t am i n i n ga r o u n dt h ew o r l d w ea l s os h o w e t h es t a t i s t i c i a n s c o n t r i b u t i o ni nt h ef i e l do fd a t am i n i n gb yi n t r o d u c i n gt h et h o u g h t o ff r i e d m e n ,j h t u k e y ,j w 1 s ( 1 9 7 4 ) p r o j e c t i o np u r s u i ta n dz h a n g ,r c s ( 1 9 9 6 ) e v e ns a m p l i n gm e t h o d i nt h es t i e f e lm a n i f o l d i nc h a p t e rt h r e e ,w es t u d yt h ec o m p r e s s i o no ft r a n s a c t i o n a ld a t a b a s e s f i r s t , w ec o n s t r u c t e dt h ei n f o r m a t i o ns y s t e m ,s = q ,v ,) f o rt h et r a n s a c t i o n a l d a t a b a s e s ,w h e r eu i saf i n i t es e to ft h e o b j e c t ( t r a n s a c t i o n ) 。l ,z 2 ,z ) ,n i st h er e s e a r c h e dt r a n s a c t i o np o p u l a t i o n ,ui su s u a l l yc a l l e dt h ec l o s e du n i v e r s e ;q i saf i n i t es e to fa t t r i b u t e sd e s c r i b i n gt h eo b j e c t ( t r a n s a c t i o n ) ,w h i c hi sc a l l e dt h e a t t r i b u t es e t ;v = u 畦o i st h ed o m a i no ft h ea t t r i b u t eq q ,fi sam a p p i n g f r o mu qt ov a c c o r d i n gt ot h ed e f i n i t i o no fi n d i s c e r n i b i l i t y , w ec o m p r e s s e d t h eo r i g i n a li n f o r m a t i o ns y s t e n lst os + = u + ,a ,v ,) i no r d e rt od e c r e a s et h e q u a n t i t yo ft r a n s a c t i o na n di n c r e a s et h ed i s c e r n m e n t t h ec l o s e du n i v e r s eu i sd i 。 v i d e di n t ot h ee q u i v a l e n c ec l a s sf a m i l i e sb yt h ee q u i v a l e n c er e l a t i o nr q ,a n dh e r e , u + i sj u s tt h ee q u i v a l e n c ec l a s sf a n f i l y w ef u r t h e rc o m p r e s st h eo r i g i n a li n f o r m a - t i o ns y s t e ms t o 懿= u + ,a ,v a ,厂) c o r r e s p o n d i n g t ot h es u b s e ta qw i t hs o m e s p e c i a lf e a t u r e m e a n w h i l e ,w ec a | _ i 1 y o u tas t a t i s t i c a la n a l y s i so nt h ei n f o r m a t i o n i x l o s so ft h ec o m p r e s s e di n f o r m a t i o ns y s t e mo rd a t a b a s e sb yu s i n gs h a n n o ne n t r o p y o fl n f o r m a t i o n t h ec o n t i n g e n c yd e s c r i p t i o no ft r a n s a c t i o n a ld a t a b a s e si sa l s oa na s p e c to ft h e d a t a b a s ec o m p r e s s i o n w ed e f i n e u 。j 垒 r :f ( x ,) = o 堵 f ( x ,q c , 2 ) = n 鲫, a 。( i ? 。,o 纽。,v z u ) , t oc o n s t r u c tt h ec o n t i n g e n c yr e l a t i o n s h i pb e t w e e nt h et w o d i m e n s i o n a la t t r i b u t e ; d e f t n e u :,皇 z :( x ,q t ) = a i af ( x ,d ) = 吗,a i k 。, b k ,协【,) , t oc o n s t r u c tt h ec o n t i n g e n c yr e l a t i o n s h i pb e t w e e nt h ec o n d i t i o n a la t t r i b u t ea n dt h e d e c i s i v ea t t r i b u t e ;a n dd e f i n e u o 垒 茁:,( z ,吼) = a j , 吼q ,a j k ,v 茁u ) , t oc o n s t r u c tt h ec o n t i n g e n c yr e l a t i o n s h i pb e t w e e nt h ea t t r i b u t ea n dt h ev a l u eo f a t t r i b u t e i na d d i t i o n ,w ee x p l o r et h ea t t r i b u t ec o m p r e s s i o no ft r a n s a c t i o n a ld a t a b a s e s b a s e do nt h er o u g hs e tt h e o r ya n dt h em e t h o d sa n dt h e o r i e so fd e p e n d e n c e ,g e n e r _ a l i z e dl i n e a ra n a l y s i sa n dm u l t i - c o r r e l a t i o n i t sr e s u l t ss h o wt h a tt h ec o m b i n a t i o no f s t a t i s t i c a lm e t h o d sa n dr o u g hs e tt h e o r y ,a p p e a r st ob ep o w e r f u lf o rt h ed a t a b a s e c o m p r e s s i o n a p p l i c a t i o n sa r et h em o s ti m p o r t a n tw a y t ot e s tw h e t h e ram e t h o di sg o o do r n o ti nt h ef i e l do fd a t am i n i n g t h ec o m p r e s s i n ga n a l y s i so na no r i g i n a ld a t a b a s e w i t h1 4 9 ,6 3 2p i e c e so fm e s s a g e sa b o u tf e e p a y i n go fc h i n am o b i l e sc u s t o m e r sf r o m s e p t 2 0 0 1t om a r 2 0 0 3d o e st e s t i f e st h ef e a s i b i l i t yo ft h ed a t a b a s ec o m p r e s s i o n m e t h o dt h a tw ec o n s t r u c t f u r t h e rn l o r em a n yp r a c t i c a lc o n c l u s i o n sh a v eb e e n a c q u i r e d i nc h a p t e rf o u r ,w es t u d yt h ed a t as o r t i n ga n do r d e r l yc l a s s i f i c a t i o n a sf o r d a t as o r t i n g ,w ef i r s t s t u d yt h es o r t i n go ft r a n s a c t i o n ( s a m p l e ) b yu s i n gi n f o r m a - xa b s t r a c t t i o nr e s o u r c e sa n dg e n e r a l i z e da t t r i b u t ea st h es t a n d a r d w en e x t p r o p o s et h e w e i g h t e dc o n s t r u c t i o nm e t h o do f t h eg e n e r a l i z e da t t r i b u t ef u n c t i o nf o rt h et r a n s a c t i o n a ld a t a b a s e sb a s e do nt h et h o u g h to fp c a t h e nw er i s et h em e t h o dt og i v ea o v e r a l la s s e s s m e n to nt h ec o n s u m p t i o no fc h i n am o b i l ec u s t o m e r si ns o m ed i s t r i c to f c h i n a ,a n dt e s t i f yt h ef e a s i b i l i t yo ft h em e t h o db yu s i n g av i s u a lw a ya n ds t a t i s t i c a l a n a l y s i s a tt h es a m et i m e ,w ed e f i n et h ea v e r a g er a n ke f f e c ta s 瓦:避拉等必 j = 1 ,2 ,e , f o rt h er cd o u b l ef a c t o rs i n g l eo r d e r l yc o n t i n g e n c yd a t af o r m e db yc o m p r e s s i n g t h ei n f o r m a t i o ns y s t e ms = 玑q ,k ,) ,a n dt h er a n ke f f e c ts h o u l db e r l = “再,i = 1 ,2 ,r w h e r e ,r = ( r 1 ,r 2 ,r c ) w ep r o p o s et h es o r t i n gm e t h o do fr a n ke f f e c t so ft h e a t t r i b u t e s w h i c hi sa p p l i e dt op r a c t i c e i nt h ep r o c e s so f s t u d y i n g t h ec l a s s i f i c a t i o na n a l y s i s ,w e p r o p o s et h ei d e a o fd a t a t y p e sr a m i f i c a t i o n r e c e n t l y , p e o p l eh a v em a i n l yb e e nc o n c e n t r a t i n go nt h en e a r e s t n e i g h b o rc l a s s i f i e r sa n a l y s i sa n di t sa p p l i c a t i o n s ( s u c ha so w n e ,b a ( 1 9 9 9 ) ) t h e r ea r ea l s os o m er e s e a r c h e so nt h ec l a s s i f i e r sa n a l y s i so fo r d e r l ys a m p l e ( s u c h a sf i s h e r o p t i m a ls o l u t i o n ) b u t ,t h e r ea t el e s sr e s e a r c h e so nt h en e a r e s tn e i g h b o r c l a s s i f i e r sa n a l y s i so fo r d e r l yd a t a i nv i e wo ft h i s ,w ec o n s t r u c t et h eo r d e r l yn e a r e s t n e i g h b o rc l a s s i f i e r sm l a l y s i sm e t h o d ,a n dc o m p a r et h em e t h o d w i t hf i s h e r o p t i m a l s o l u t i o n n o to n l yh a v et h em o s t l ya c c o r d a n tr e s u l t sb e e na c q u i r e d ,b u ta l s ot h e v e l o c i t yo fc o m p u t a t i o nh a s b e e na c c e l e r a t e d a tt h es a m et i m e ,w ea l s oc o n s t r u c t e d t h ec l a s s i f i e r sa n a l y s i sm e t h o do fo r d e r l ya v e r a g er a n ke f f e c t ,a n df u r t h e rt e s t i f yt h e f e a s i b i l i t ya n dr e l i a b i l i t yo ft h em e t h o db yu s i n gc o m p u t e r sv i s u a la n a l y s i sa n d s m i r n o vt e s t i nc h a p t e r f i v e ,w ef u r t h e rs t u d yd a t am i n i n ga s s o c i a t i o nr u l e s t h e a s s o c i a t i o n r u l em i n i n gi so n eo ft h em e t h o d st h a th a v em a i n l yb e e ns t u d i e di nr e c e n ty e a r s t h e c o n c e p t so fa s s o c i a t i o nr u l e sw a sf i r s tp r o p o s e db ya g r a w a l ,r ,l m i e l i s k i ,t a n d 1 一 + 1 0 堕 + n x i s w a m i ,a ( 1 9 9 3 ) ,a n di t sm a i no b j e c ti st h et r a n s a c t i o n a ld a t a b a s e s w el u c u b r a t e t h em e t h o do fa s s o c i a t i o nr u l e sb yu s i n gt h et h e o r yo f c o r r e s p o n d e n c ea n a l y s i s t h e r e s e a r c ho i lc o r r e s p o n d e n c ea n a l y s i sh a sa r o u s e d p e o p l e sw i d ea t t e n t i o n ( s u c h a sh u , g d a n dz h a n g ,r c ( 1 9 8 9 ) ,v e nd ev e l d e na n d n e d e c k e r ( 2 0 0 0 ) ) h e r e ,b e g i n i n g w i t ht h et o t a lv a r i a n c eo fi n f o r m a t i o na n dt h ei n d e p e n d e n c et e s to ft w o d i m e n s i o n a l c o n t i n g e n c yt a b l e ,w es t u d yt h ei n t e r n a lr e l a t i o nb e t w e e nt h ei n d e p e n d e n c et e s t a n d c o r r e s p o n d e n c ea n a l y s i sw h i l ee x p l o r i n gt h ef e a t u r e so fc o r r e s p o n d e n c ea n a l y s i s q u i t eaf e wm e a n i n g f u lr e s u l t sh a v eb e e ng a i n e da sf o l l o w s : ( 1 ) g i v e n ) ( 2d i s t a n c e ,t h e r ei s au n i td i s c r e p a n c yb e t w e e nt h et o t a lv a r i a n c e o fi n f o r m a t i o nd e d u c e df l o mc e n t e ro fg r a v i t yd i s t a n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论