(计算机应用技术专业论文)数据挖掘在企业客户分析系统中的研究.pdf_第1页
(计算机应用技术专业论文)数据挖掘在企业客户分析系统中的研究.pdf_第2页
(计算机应用技术专业论文)数据挖掘在企业客户分析系统中的研究.pdf_第3页
(计算机应用技术专业论文)数据挖掘在企业客户分析系统中的研究.pdf_第4页
(计算机应用技术专业论文)数据挖掘在企业客户分析系统中的研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在企业客户分析系统中的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士论文 ab s t r a c t hithe l a t e r 2 0tli c c n tu ry , the e m e r g e n c e ofre l atio nal data b as c t e c h n o l o gy a n dthe 加 抚 m e t b r o u ght ustoth ei n fo 助at l on a g e ,a 且 e r ycars ofutil i z in gthe i n fo n n at i on m a n a g e n 1 ent sys te m.m any ente rp ri ses b a v e c olle c t e d 讹m 闭d o usamo u n t ofl n fo n n ation. f ac ing the in c re as l 1 1 g m ar k e t com pe titi呱 th e n 场 口 a g ers are not satisfied初tho n 】 y b a v in g c o m p u t e r s n 攻 田 i n g fo r 面卜ope r at i o ns .几e y w a n t to由 g in t o the b us inessdataand h 叩e tofi n d use细 加 几 n 刀 a t i o n fo r th e ir d e c i s i o n m akin g s .howtofi n d the us e ful in fo rma t i o n 丘 。 mthe coll e c t e d dal a isthe g o al , 枉 巧 k , an d c o n 忱 n t o f socalled datam l 苗 n g .atp r e s e n 仁 d a tam 1 n i n g h asbec ome th e most a c t 1 v e fi el d fo r d at a b 别 犯re se 留 c h lt h asbec ome a bi g 劝 p portfor d e c i si on m 目 石 n g.址ip in g 一 c o m p 耐eswinv a 拍 e l e ssb 仍 inesso p p o n 刀 n i t i e s associ 毗 rule ( orre l atio n a l d al 比 b as e)datam 如 1 n g isani m portan t re se 哪h fi el dind a ta 找 山 血 n g .itis tdfi n d the re l ati。 璐 hips amo ngth e da ta,s ervin g the d e c i si onm 面n gssuch assh 0 ppi ngb as k e t d e si gn, b u s i nessfr a u d p i edi cti。 氏etc, h o w e v erinp r a c t i ce, b as e d on r e a l i ty, a m i xof而ni ng m e t b eds are us ed fo r th ei r bestre s u l t s ; m e anw hi l e , s u ffici e nt p r e p ar a 行 o n forda ta u 刀 n i n g has be 即gl ven to价伽 success o f re la t i o n al at a 而n l n g t b i s s tu d ywinbe b as ed on the fi l n ds 功 e n ta l re s e ar c hs to d yo f d a tam i ni ng and re l atio n ald a l a 而n l n g , combine the s tu d yoft ra d i t i 0 nal e rp sy st e m , 朋dc onductan exempi 即 0 产 引 泊 d y tose ar c hfor a 歇 沁 i a l e rulesinb us泳sso perati 哪 , w hi ch衍lle 价ctiv el y s u p p 0 rt th e dsci si onm aki n g byutili 刀 n g dai l y 。 沐m 6 ond a t a . k e y w o r d s : re l atio n ald al 匕功 i n in g ,耐e,a p ri o ri , f p 一 g r o v 找 h 声明 本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本 学位论文中,除了 加以 标注和致谢的部分外,不包含其他人已经发表或 公布过的 研究成果,也不包含我为获得任何教育机构的学位或学历而使 用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文 中作 了明确的说明。 研究生签名:么浏 年11 月材 泊 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或 上网公布本学位论文的全部或部分内容,可以向 有关部门 或机构送交并 授权其保存、借阅或上网公布本学位论文的全部或部分内 容。 对于保密 论文,按保密的有关规定和程序处理。 研究生签名: 乞洲 乙年 1 阴 乙 压 南京理工大学学位硕士论文数据挖掘在企业客户分析系统中的研究 1引言 1 . 1选题的意义 上个世纪数据库技术的出 现, 特别是关系数据库技术的出 现, 使计算机被广泛应 用于信息处理中, 各行各业纷纷建立起自 己的信息化管理系统 ( 例如: m is系统、 e rp 系统),其主要目的是提高日 常业务数据处理的效率, 但也积累了 大量的业务数据, 并随着技术的不断改进和多年的完善, 这种数据积累的量也变得越来越大, 积累的速 度也变得越来越快, 并随着互联网技术的出 现和使用, 积累的 源头、 类型也变得十分 丰富和多样, 面对如此海量的数据, 许多使用单位把它放在一边, 只是作为历史数据 的查询, 其实这些数据是一笔宝贵的财富, 在这些数据中背后隐藏着丰富的知识, 只 要我们通过高层次的科学的分析,一定会找到令人振奋的有用信息,如美国f i r s t 盯 银行使用m arkslnan数据挖掘工具,根据客户的消费模式来预铡应在什么时候向哪些 客户提供哪些产品: 美国运通公司( 腼eri c ane xpress ) 有一个用于记录信用卡业务的 数据库, 通过对这些数据进行挖掘, 制定了“ 关联结算( r elati onshipb ilhn g ) 优惠” 的促销策略, 即如果一个顾客在一个商店用运通卡购买一套时装, 那么在同一个商店 再买一双鞋, 就可以 得到比 较大的折扣。 既增加了商店的销售量, 也可以 增加运通卡 在该商店的使用率。 美国的读者文摘( r ead ers d i g est)出版公司运行着一个积累了 40 年的业务数据库, 其中容纳有遍布全球的一亿多个订户的资料, 并保证数据不断得到 实时的更新, 基于对客户资料数据库进行数据挖掘的优势, 使读者文摘出版公司能够 从通俗杂志扩展到专业杂志、 书刊和声像制品的出版和发行业务, 极大地扩展了自己 的业务范围. 沃尔玛大型超市, 通过对交易数据的关联分析, 发现了“ 啤酒与尿布, 的关系,把它们放在一起能提高他们的销售量. 这种知识的发现, 也是提升企业竞争力的一种方法。 但目前虽然许多企业成功地 建立了 erp 系统,但仅靠e rp系统是难于成就这种知识的发现。这是由 e 即系统本身的 特性所决定的。 建立e r p的出发点和模式主要是一种 “ 面向事务、 按业务流程来处理 事件”的管理系统, 虽然也有辅助决策系统, 但这种决策系统通常是根据统计出 来的 业务数据的分布规律, 决策人员按照通常的管理经验和思维方式进行分析决策, 这种 决策很难有创新, 而且随 着数据量的急剧增长、 市场的 快速变化, 这种决 策机制变得 越来越力不从心,丧失了宝贵的商机。 数据挖掘技术是企业克服e rp系统不足的一种有效补充手段,也是企业在竞争日 益激烈的市场重新找回商机的一种重要措施。 通过研究人员对数据挖掘技术的不断研 究, 己 有许多技术可以 提供给企业单位使用, 让他们重新从大量数据中寻找无限的商 机, 这种技术如: 关联规则挖掘、 序列模式挖掘、 聚类分析等等。 企业通过引用一些 这种数据挖掘的 模式和方法, 可以 帮助管理人员面 对具体问 题, 按照既定的目 标, 通 l 1 引言硕士论文 过大量数据的分析, 寻找一种最佳的方案, 这样才能适应市场的快速变化, 甚至可以 预测市场的 需求变化, 能够领驭市场,为企业获得最大的 利润。 在本文中,主要 研究了 关联规则( a ssociation r ules) 数据挖掘在企业客户分析 系统中的 应用。 结合数 据挖掘的 相关理论, 深入研究了 关联规则挖掘的算法, 提出了 一个基于企业e 即 系统的针对客户特点与产品特点的关联规则挖掘应用。 通过挖掘企 业销售历史数据, 在以 下方面给企业的管理决策提供支持: ( 1)了解顾客的特点与产品 特点之间的关系, 针对不同的客户和市场采用不同 销 售策略; (2) 重新确定经营方针, 并贯穿到企业整个流程中, 建立合理的产品结构, 使生 产出的产品是市场所需、客户所需的产品。 1 . 2论文的主要工作和论文的结构 1 . 2 . 1 论文的主要工作 本论文首先对数据挖掘的知识作一个简单的总体的阐述, 然后对本课题所进行的 数据挖掘类型一关联规则数据挖掘作一个从概念到算法较详细的分析和研究, 分析和 总结了aprio ri 算 法和f p (r 衅th 算法的 优点和缺点, 结合在数据挖掘实践过程的 实际情况, 提出了自己改进思想和方法, 最后通过一个实际应用详细阐述了关联规则 数据挖掘的挖掘过程。 1 . 2 . 2 论文的结构 第 1章是绪论,在该章中主要阐述了选题的意义和论文的主要工作和论文的结 构。 第2 章是数据挖掘的概述, 在该章中主要阐述数据挖掘的定义、目的、 任务、 对 象、分类、方法和技术,其目 的首先对数据挖掘有一个总体的回顾。 第3 章是对关联规则 挖掘及算法的 分析和研究, 在该章中首先对关联规则的 概念 及挖掘过程作了 一个阐述, 然后对两个经典的算法作为较为详细的分析和研究, 最后 结合实践进行了改进。 第4 章是本论文的 实践过程, 在该章中详细结合前面的 理论知识, 详细阐述了 关 联规则数据挖掘在企业客户分析系统中的应用。 第5 章是本论文的总结和展望。 最后是致谢和参考文献。 南京理工大学学位硕士论文致据挖掘在企业客户分析系统中的研究 2数据挖掘概述 数据挖掘, 英文是d a t a城ning, 这个词的来历与知识发现有关,而知识发现, 英文是k n 佣l e d g e d i s c o v e r yi nd a t aba s e , 简称即d,即从数据库中发现知识。 20 世纪80年代末开始的, 幼d 一词在1 9 89年8 月于 美国 底律市召开的第一届心 d 国际学术会议上被正式确定。 即d 研究的问 题有:( 1) 定性知识和定量知识发现; ( 2) 知识发现的 方法;( 3) 知识发现的应用等。 19 9 5 年在加拿大召开的第一届知识发现和数据 挖掘国际学术会议上, 由 于把数据 库中的数据形象比喻成矿床,数据挖掘一词很快流传开来。 2 . 1 知识发现和数据挖掘的定义 知识发现被认为是从数据库中发现有用的知识的整个过程。数据挖掘被认为是 幼d 过程中的一个特定步骤, 它是用专门的算法从数据中抽取模式( p a 竹e r n ) 。 幼d的定义可以 这样: 从数据集识别出 有效的、新颖的、 潜在有用的,以及最终 可以理解的模式的高级处理过程。 其中,数据集: 数据库记录的集合f ; 模式: 用语言l 表示的f 中 部分记录的表 达式e ,它所描述的数据集是集合f 的一个子集凡,我们称表达式e 为模式;有效、 新颖、 潜在有用、 可理解:表示发现的模式应该是新的, 将来有实用价值, 能够被用 户理解. 妞 据 挖 .一 一 弓一月 铭 果 评 价 图2 . 1 . ikdd 过程图 2 . 11数据准备 数据准备又可分 3个子步骤: 数据选取( d a t a p re队r a t i on) 、数据预处理(d ata p r e pr既e s s i n o ) 和数据变换( d a t at r a n s f d r 琳t l 洲) 。 数据选取的目 的是确定发现的操作对象,即目 标数据( targetdat a),是根据用 户的需要从原始数据库中 抽取的数据: 数据预处理一般包括消除噪音、 推导 计算缺值 数据、 消除重复记录、 完成数据类型转换 ( 把连续值数据转换为离散型数据,以 便于 符号归纳; 或者是把离散型数据转换为连续型数据,以便于神经网络计算) 等; 数据 变换的主要目 的是削减数据维数或降维, 即从初始特征中找出真正有用的特征以 减少 3 2数据挖掘概述 硕士论文 数据挖掘时要考虑的特征或变量个数。 2 . 1 . 2数据挖掘 数据挖掘阶段首先要确定挖掘的任务或目 的, 如数据分类、 聚类、 关联规则发现 或序列模式发现等. 确定了 挖掘任务后, 就要决定使 用什么 样的挖掘算法。 选择实现 算法有两个考虑因素: 一是不同的数据有不同的 特点, 因 此需要用与之相关的 算法来 挖掘; 二是用户或实际运行系统的要求, 有的用户可能希望获取描述型的、 容易理解 的知识 采用规则表示的挖掘方法显然要好于神经网络之类的方法) ,而有的用户只 是希望获取预测准确度尽可能高的预测型知识。 选择了挖掘算法后, 就可以实施数据 挖掘操作,获取有用的模式. 2 . 1 . 3结果的 解释和评估 数据挖掘阶段发现出 来的 模式, 经过评估,可能存在冗余或无关的模式, 这时需 要将其剔除; 也有可能模式不满足用户要求, 这时则需要退回到发现过程的前面阶段, 如重新选取数据、采用新的数据变换方法、 设定新的参数值, 甚至换一种挖掘算法等 等。 另外, k dd由于最终是面向 人类用户的, 因此可能要求对发现的模式进行可视化, 或者把结果转换为用户易 懂方式, 如把分类决策树转换为工 f. 二h en规则。 数据挖掘仅仅是整个过程中的 一个步骤。数据挖掘质量的好坏有两个影响要求: 一是所采用的数据挖掘技术的有效性,二是用于挖掘的数据的质量和数量( 数据量的 大小 ) 。 如果 选择了 错误的数据或不适当的属性, 或者对数据进行了不适当的转换, 则挖掘的结果不会成功的。 整个挖掘过程是一个不断反馈的过程,比如在挖掘途中发现选择的数据不太满 意, 或使用的 挖掘技术产生不了期望的结果, 这时用户就需要重复先前的过程, 甚至 从头重新开始。 可视化技术在数据挖掘的各个阶段起着重要的作用, 特别是在数据准备阶段, 用 户可能使用散点图、 直方图 等可视化技术来显示有关数据, 以 期对数据有一个初步的 了解, 从而为更好地选取数据打下基础。 在挖掘阶段, 用户则要使用与领域问题有关 的可视化工具。 在表示结果阶段, 则可能要用到可视化技术以便得发现的知识更易理 解。 2 , 2数据挖掘的分析模型 数据挖掘的分析模型有六类, 包括关联分析、 时序模式、 聚类、 分类、 偏差检测 以及预测。 南京理工大学学位硕士论文 敬据挖掘在企业客户分析系统中的研究 2 . 2 . 1关联分析 关联分析是从数据库中发 现知识的一类重要方法。 若两个或多 个数据项的取值之 间重复出现概率很高时, 它就存在某种关联, 可以 建 立起这些数据项的 关联规则. 例如,买面包的 顾客有9 俄的 人还买了 牛奶, 这是一条规则, 若商店中 将面包和 牛奶放在一起销售,将会提高它们的销量, 在大型数据库中, 这种关联规则是很多的,需 要进行筛选, 一般用“ 支持度” 和 “ 可信度” 两个阀 值来淘汰许多无 用的关联规则。 支持度表示该规则所代表的事例占 全部事例的百分比, 如买面包又买牛奶的顾客 占全部顾客的百分比。 可信度表示该规则所代表的 事例占 满足前提条件的百分比, 比如面包又买牛奶的 顾客占 买面包顾客中的9 既,可信度为9 佛。 2 . 2 . 2时序模式 通过时间序列搜索出重复发生概率较高的模式,这里强调时间序列的影响。例 如, 在所有购买激光打印 机的 人中,半年后 8 既的 人再购买新硒鼓, 2 0%的 人用旧的 硒鼓装碳粉;在所有购买了彩色电 视机的人中,有6 件的人再购买v cd产品。 有时 序模式中,需要找出 某个最小时间内出 现比 率一直高于某一最小百分比( 阀 值) 的规则,这此规则会随着形式的变化做适当的调整。 时序模式中,一个有重要影响的方法是 “ 相似时序”。用 “ 相似时序”的方法, 要按时间顺序查看时间事件数据库, 从中找出另一个或多个相似的时序事件。 例如在 零售市场上,找到另一个有相似销售的部门, 在股市中找到的相似波动的股票。 2 . 2 . 3聚类 数据库中的数据可以 划分为一系列有意义的 子集, 即类。 在同一类别中, 个体之 间的距离较小, 而不同 类别上的 个体之间的距离较大。 聚类增强了 人们对客观现实的 认识,即通过聚类建立宏观概念。例如: 鸡、鸭、鹅都属于家禽。 聚类方法包括统计分析方法、 机器学习方法和神经网络方法等。 在统计分析方法中, 聚类分析是基于距离的 聚类, 如欧氏 距离、 海明 距离等。 这 种聚类分析方法是一种基于全局比 较的聚类, 它需要考察所有的个体才能决定类的划 分。 在机器学习 方法中, 聚类是无导师的学习. 在这里距离是根据概念的 描述来确定 的,故聚类也称概念聚类,当 聚类对象动态增加时,概念聚类则称为 概念形成。 在神经网 络方法中,自 组织神经网 络方法用于聚类, 如a rt模型、 k o h o n e n 模型 等,这是一种无监督学习方法。当 给定距离阀值后,各样本按阀值进行聚类。 2数据挖掘概述硕士论文 2 . 2 . 4分类 分类是数据挖掘中应用最多的 任务。 分类是找出一 个类别的概念描述, 它代表了 这类数 据的 整 体信息, 即 该 类的内 涵描 述, 一般 用规则 或决 策树 模式来表示, 该模式 能把数据库中的元组影射到给定的 类别中的 某一个。 一个类的内 涵分为 特征描述和瓣别性描述。 特征描述是对类中对象的 共同 特征的 描述。 瓣别性描述性是对两个或多个类之间的区别的 描述。 特征描述允许不同 类中 具有的共同 特征, 而瓣别性描述要求不同类不能有相同的 特征, 一般情况下瓣别性描 述用的更多。 分类是利用训练样本集( 已 知数据库中元组和类别所组成的样本) 通过有关算法 而求得。 建立分类决策树的方法,典型的有i d3、c4. 5 和 ible等方法。建立分类规则的 方法,典型的有aq方法、粗集方法和遗传分类器等。 目 前, 分类方法的研究成果 较多, 判别方法的好坏, 可从下述3 个方面进行: ( 1) 预测准确度 ( 对样本数据的判别准确度) ;(2)计算复杂度 ( 方法实现时对时间和空 间的复杂度) ;( 3) 模式的简洁度 ( 在同样效果的情况下,希望决策树小或规则少) 。 2 . 2 . 5偏差检测 数据库中的数据存在着很多异常情况, 从数据分析中发现这些异常情况也很多重 要,以引起人们的它更多的注意。 偏差包括很多有用的知识,包括以下4 类: ( 1 )分类中的反常实例; ( 2 )模式的例外; ( 3 )观察结果对模型预测的偏差; ( 4 )量值随时间的变化。 偏差检测的基本方法是寻找观察结果与参照之间的差别。 观察结果常常是某一个 域的值或多个域值的汇总。 参照的给定的模型的预测、 外界提供的标准或另一个观察。 2 . 2 . 6预测 预测是利用历史数据找出变化规律, 建立模型, 并用 此模型来预测未来数据的种 类、特征等。 典型的方法是回归分析, 即 利用大量的历史数据, 以时间为 变量建立线性或非线 性回归方程。 预测时, 只需输入任意的时间 值, 通过回归 方程就可求该时间的 状态。 近年来, 新发展的 神经网 络,如bp 模型, 它实现了 非线性样本的学习,能进行 非线性涵数的判别。 南京理工大学学位硕士论文数据挖掘在企业客户分析系统中的研究 分类也能进行预测, 但分类一般用于离散数值; 回归预测用于连续数值; 神经网 络方法预测既可用于连续数值,也可用于离散数值。 2 . 3 数据挖掘分类 数据挖掘涉及多个学科, 主要包括数据库、 统计学和机器学习 三大主要技术. 数据库技术经过20世纪80年代的 大发展, 除关系数据库外, 又陆续出 现面向 对 象的数据库、 多媒体数据库、 分布式数 据库以 及舰b 数据库等. 数据库的应用从一般 查询到模糊查询和智能查询, 数据库计 算己 趋向 并行计算。 从以 上各类数据库中 挖掘 知识正在兴起并已得到迅速发展。 统计学是门古老学科, 现已 逐渐走向 社会。 它已 成为社会调查、 了 解民 意以 及制 定决策的重要手段。 机器学习是人工智能的重要分支。 它是在专家系统获取知识出 现瓶颈后发展起来 的。机器学习的大部分方法和技术己 演变为数据挖掘方法和技术。 数据挖掘可按数据库类型、 挖掘对象、 挖掘任务、 挖掘方法与 技术以 及应用等几 方面进行分类。 2 . 31 按数据库类型分类 数据挖掘主要是在关系数据库中 挖掘知识。 随数据库类型的不断增加, 逐步出现 了不同的数据库的数据挖掘。 现有关系数据挖掘、 模糊数据挖掘、 历史数据挖掘和空 间数据挖掘等多种不同数据库的数据挖掘类型。 2. 3. 2 按 数 据 挖 掘 对 象 分 类_ 数据挖掘除对数据库这个主要对象进行挖掘外, 还有文本数据库挖掘、 多媒体数 据挖掘和web 网数据挖掘。 由于对象不同, 挖掘的方法相差很大, 文本、 多媒体、 web 网数据均是非结构化数据,挖掘的难度将很大。 目 前砚 e b 网数据挖掘已逐步引起人们的关注。 2 . 3 . 3按数据挖掘任务分类 数据挖掘的任务有关联分析、 时序模式、 聚类、 分类、 偏差检测和预测六项。 按 数据挖掘任务分类有关联规则挖掘、 序列模式挖掘、聚类数据挖掘、分类数据挖掘、 偏差分析挖掘和预测数据挖掘等关型。 各类数据挖掘由 于任务不同, 将会采有不同的 数据挖掘方法和技术。 2 . 3 . 4 按数据挖掘方法和技术分类 ( 1)归纳学习类 2数据挖掘概述硕士论文 归纳学习 类又分为基于信息论方法挖掘类和基于集合论方法挖掘类。 基于信息论 方法是在数据库中寻找信息量最大的属性来建立属性的 决策树。 基于集合论方法是对 数据库各属性的 元组集合之间关系( 上、 下近似关系, 覆盖或排斥关系, 包含关系等) 来建立属性间的规则。 各类中又包括多种方法,主要用于分 类问 题。 (2 ) 仿生物技术类 仿生物技术类又分为神经网 络方法类和遗传算法类。 神经网 络方法是在模拟人脑 神经元而建立的mp数学模型和h e bb学习规则基础上, 提出了 一系列的 算法模型, 用 于识别、 预测、 联想、 优化和聚类等实际问 题。 遗传算法是模拟生物遗传过程, 对选 择、交叉及变异过程建立的数学模型,主要用于问题的优化和规则的生成。 ( 3 )公式发现类 在科学实验与工程数据库中, 用人工智能方法寻找和发现连续属性( 变量) 之间的 关系, 建立变量之间的公式, 从而把大量的数据概括在公式中, 该类中有多种数据挖 掘方法。 (4) 统计分析类 统计分析是门独立学科,由于能对数据库中数据求出各种不同的统计信息和知 识,所以也构成了 数据挖掘中的一大类方法。 ( 5)模糊数学类 模糊数学是反映人们思维的一种方式。将模糊数学应用于数据挖掘的各项任务 中,就形成了模糊数据挖掘类。如模糊聚类、模糊分类和模糊关联规则等。 ( 6 )可视化技术类 可视化技术是一门图形显示技术。 对数据的分布规律进行可视化显示或对数据挖 掘过程进行可视化显示, 会明 显提高人们对数据挖掘的兴 趣和挖掘的效果。 该技术己 形成了可视化数据挖掘类的多种方法。 2 . 4数据挖掘对象 数据挖掘的 对象主要是关系数据库, 这是典型的结构化数据。随着技术的发展, 数据挖掘对象逐步 扩大到半结构化或非结构化数据, 这主要是文本数据、 图 像和视频 数据以及w eb数据等。 2 . 4 . 1 关系数据库 目 前建立的数据库都是关系数据库。 数据挖掘方法也主要是 研究数据库中属性之 间的关系, 挖掘出 多 个属性取 值之间的 规则。 由于关系数据库的 特点, 促使了数据挖 掘方法的改善,数据库的 特点如下: ( 1 ) 数据动态性 南京理工大学学位硕士论文数据挖掘在企业客户 分析系统中的研究 数据的 动态变化是数据库的一个主要特点。 由 于数据的存取和修改, 使数据的内 容经常发生变化, 这就要求数据挖掘方法能适应这种变化。 渐增式数据挖掘方法就是 针对数据变化,使挖掘的规则知识能满足变化后的数据库内容。 (2 ) 数据不完整性 数据不完整性主要反映在数据库中记录的 域值丢失或不存在( 空值) , 这种不完整 数据给数据挖掘带来了困难。 为此, 必须对数据进行预处理, 填补该数据域的可能值。 (3 ) 数据噪声 由于数据录入等原因, 造成错误的数据, 即数据噪声。 含噪声的数据挖掘会影响 抽取模式的准确性,并增加了数据挖掘的困难度。 (4 ) 数据冗余性 这表现在同一信息在多处重复出现。 函数依赖是一个通常的 冗余形式, 冗余信息 可能造成错误的数据挖掘, 至少有些挖掘的知识是用户不感兴趣的, 为避免这种情况, 数据挖掘时,需要知道数据库中有哪些固有的依赖关系。 (5 ) 数据稀疏性 数据稀疏性表现在实例空间中数据稀疏,数据稀疏会数据挖掘丢失有用的模式. (6 ) 海量数据 数据库中的数据在不断增长, 已出 现很多海量数据 搏 砰数据挖掘方法需要逐步纂 卜一 应这种海量数据挖掘,如建立有效的索引机制和快速查询方法等。 2 . 4 . 2文本 文本是以文字串形式表示的数据文件。文本分析包括: 关键词或特征提取,相似 检索:文本聚类和文本分类等。 ( 1)关键词或特征提取 一篇文本中,标题是该文本的高度概括,标题中的的关键词是标题的核心内 容, 关键词的提取对于掌握该文本的内 容至关重要。 文本中的特征如人名、 地名、 组织名等是某些文本中的重要信息, 特征提取对掌 握该文本的内容很重要。 (2) 相似检索 对文本中关键词的相似检索是了解文本内 容的一种重要方法。 例如, “ 专家系统” 与“ 人工智能” 两个关键词是有一定联系的, 研究专家系统的 文本, 一定属于人工智 能的研究领域。 ( 3 ) 文本聚类 对于文本标题中关键词 ( 主题字) 的相似匹配是对文本聚类的一种简单方法。 定 义关键词的相似度, 将便于文本的简单聚类, 类中文本满足关键词的相似度, 类间文 2数据挖掘概迷 硕士论文 本的关键词超过相似度。 ( 4) 文本分类 将文本分类到各文 本类中, 一般需要采用一个算法, 这些算 法包括分类器算法、 近邻算法等, 这需 要按文 本中的关键词或特征的 相似来区分。 2 . 4 . 3图 像与视频数据 图 像和视频数据是典型的多 媒体数据。 数据以 点阵信息及帧形式存储, 数据量很 大。 图像与视频的数据挖掘包括; 图像与视频特征提取; 基于内容的相似检索; 视频 镜头的编辑与组织等。 ( 1 )图像与视频特征提取 图像与视频特征有颜色、 纹理和形状等。 这些特征提取是用于基于内容的相似检 索。 海水是蓝色、 海滩是黄色、 房屋的形状及颜色等, 都需要从大量图像和视频数据 中提取。 ( 2 )基于内容的相似检索 根据图像、 视频特征的分布、比 例等进行基于内容的相似检索, 可以将图像和视 频数据进行聚类以及分类, 也能完成对新图像或视频的识别。 如对遥感图像或视频的 识别,这种应用非常广泛,例如,森林火灾的发现与报等,河流水灾的预报等。 (3 ) 视频镜头的编辑与组织 镜头代表一段连续动作( 视频数据流) 。 典型的镜头编辑如足球赛的射门、 某段新 闻节目 等,都需要在冗长的视频数据流中进行自 动裁取。 经过编辑的镜头, 按某种需要重新组织, 将形式特定需求的新视频节目,如足球 射门集锦,某个新闻事件的连续报道等。 2 . 4 . 4视b 数据 随着工 n ternet的 发展和普及,网 站数目 的 迅速增长以 及上网 人数的剧烈增多, 使网 络数据量呈指数增长, , eb数据挖掘己 成为新课题。 w eb数据挖掘具有如下 特点: ( 1)异构数据集成和挖掘 w e b 上每一个站点是一 个数据源, 各数据源都是异构的, 形成一个巨 大的异构数 据库环境,将这些站点的异构数据进行集成,给用户提供一个统一的视图,才能在 w e b 上进行数据挖掘。 (2) 半结构化数据模型抽取 w e b 上的数据非 常复杂, 没有特定的模型描述。 虽然每个站点 上的数据是结构化 的, 但各自 的设计对整个网 络而言是一个非完全结构化的数据, 称为 半结构数据。 对半结构化数据模型的 查询和集成, 需要寻找一种半结构化模型抽取技术来自 动 抽取各站点的数据。 l 0 南京理工大学学位硕士论文数据挖掘在企业客户分析系统中的研究 翔l 是一种半结构化的数据模型,容易实现昵b 中信息共享与交换。 刊 曰per c e ori an公司采用了“ 实时建议” 技术,能够根据用户以往的浏览行为来 预测用户以后的浏览行为,从而为用户提供个性化的浏览建议。 总之能b 数据挖掘正在逐步形成热点。 25数据挖掘的知识表示 数据挖掘各种方法获得的知识的表示形式主要有6 种: 规则、 决策树、 知识基( 浓 缩数据网络权值、公式和案例) . 2 . 5 . 1规则 规则知识由前提条件和结论两部分组成。前提条件由字段项( 属性) 取值的合取 ( 与 ) 和析取( 或y)组合而成,结论是决策字段项( 属性) 的取值或者类别组成。 我们用一 个简单的 例子进行说明,如两类人的9 个元组( 记录) , 如下表21 表2 . 5 . 1 . 1 两类人数据例 身高头发眼睛 第一类人矮金色蓝色 高红色蓝色 高金色蓝色 矮金色灰色 第二类人高金色黑色 矮黑色蓝色 高黑色 蓝色 高黑色灰色 矮金色黑色 利用数据挖掘方法,将能很快得到如下规则知识: i f ( 发色= 金色v 红色) a( 眼睛二 蓝色v 灰色)then 第一类人 i f ( 发色= 黑色) v ( 眼睛= 黑色)t h en 第二类人 即: 凡是具 有金色或红色的头发,并且同时具有蓝色或灰色眼睛的人属于第一类人; 凡是具有黑色头发或黑色眼睛的人属于第二类人。 2.5 . 2决策树 数据挖掘的信息论方法所获取的知识一般表示为决策树, 如i d3方法的决策树是 由信息量最大的字段( 属性) 作为根结点, 它的各个取值为分枝, 对各个分枝所划分的 2数据挖掘概述硕士论文 数据元组( 记录) 子集, 重复建树过程, 扩展决策树, 最后得到相同类别的子集,以该 类别作为叶结点。 例如: 上例的人数 据库, 按i d3方法得到的决策树如下图2 . 2: 头发 眼睛 / 蓝 1金!灰 第一类人 图2 , 5 . 2 . 1 决策树 2 . 5 . 3知识基( 浓缩数据) 数据挖掘方法能计算出数据库中字段项( 属性) 的重要程度, 对于不重要的字段可 以 删除, 对数据库中的元组( 记录) 能按一定的原则合并, 这样, 通过数据挖掘的方法 能大大压缩数据库中 元组和字段项, 最后得到浓缩数据, 称为知识基。 它是原数据库 的精华,很容易转换成规则知识。 例如, 上例的人群数据库, 通过计算可以得出身高是不重要的字段, 删除该项后, 再合关相同的数据元组,得到的 浓缩数据如下表2 . 2 表2 . 5 . 3 . 1知识基( 浓缩数据) 头发眼睛 第一类人金色蓝色 第一类人红色蓝色 第一类人金色灰色 第二类人金色黑色 第二类人黑色蓝色 第二类人黑色灰色 2 . 5 . 4 网络权值 神经网络方法经过对训练样本的学习后, 所得到的知 识是网络连接权值和结点的 阀值,一般表示为矩阵和向量。 1 2 南京理工大学学位硕士论文数据挖掘在企业客户分析系统中的研究 2 . 5 . 5公式 对于科学和工程数据库, 一般存放的是大量实验数据( 数值) , 它们中蕴涵着一定 的规律性,通过公式发现算法,可以找出各种变量间的相互关系,用公式表示。 2 . 5 . 6案例 案例是指人们经历过的一次完整的事件。 当 人们要解决一个新问题时, 总是选回 顾自己以前处理过类似事件( 案例) ,利用以前案例中解决问 题的方法或者处理的结 果, 作为参考并进行适当的修改, 以解决当前新问题。 利用这种思想建立起基于案例 推理相似检索技术, 对新问 题到案例库中搜索相似案例, 再经过对旧案例的 修改来解 决新问题。 2 . 6数据挖掘方法和技术 数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方 法、 模糊数学方法以 及科学可视化技术, 以数据库为研究对象, 形成了数据挖掘方法 和技术。 数据挖掘方法和技术可以分为归纳学习方法、 仿生物技术、 公式发现、 统计分析 方法、模糊数学方法和可视化技术六大类。 2 . 6 . 1归纳学习方法 归纳学习方法是目 前重点研究的方向,研究成果较多,从采用的技术上看,分为 信息论方法 ( 也是常说的决策方法) 和集合论方法两大类。 每类方法又包含多个具体 方法。 1 .信息论方法 ( 决策树方法) 信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形 式是决策树,故一般文献中 称为决策树方法。该方法的实用效果好,影响较大。 信息论方法中较有特色的方法如下所述。 ( 1 )i d 3 等方法 quiul an研制的i d3方法是利用信息论中互信息 ( 信息增益) 寻找数据库中具有 最大信息量的字段, 建立决策树的一个结点, 再根据字段的不同值建立树的分枝, 再 由每个分枝的数据子集重复建树的下层结点和分枝的过程, 这样就建立了决策树。 这 种方法对愈大的数据库效果愈好。工 d3方法在国际上影响很大,i d3 方法以 后又陆续 开发ti d 4 、i d 5 、 c 4 . 5 等。 ( 2 ) i b l e 方法 所谓的i b le方法,是利用信息论中 信道容量, 寻找数据库中的信息量从大到小 2数据挖掘概述硕士论文 的多个字段的 取值建立决策树的 一个结点, 根据该结点中 指定 字段取值的 权值之和与 两个阀值比较, 建立左、 中、 右3 个分枝, 在各分枝子集中重复建树结点和分枝的过 程, 这就建立了决策树规则树。ible 方法比i d3方法在识别率上提高了十个百分点。 2 ,集合论方法 集合论方法是开展较早的方法。 近年来, 由于粗糙集理论的发展使集合论方法得 到了 迅速的发展。 这类方法中包括:覆盖正例排斥反例的方法 ( 典型的方法是a q 系 列方法) 、概念树方法和粗糙集方法 ( r o u gh s e t ) 。 ( 1 ) 粗糙集 ( r o u gh s e t )方法 在数据库中 将行元素当成对象, 列元素是属性 ( 分为条件属性和决策属性) 。 等 价关系r 定义为不同对象在某个 ( 或几个) 属性上取值相同, 这些满足等价关系的对 象组成的集合称为该等价关系r的等价类。 条件属性上的等价类e 与决策属性上的等 价类y 之间有3 种情况:下近似:y 包含e :上近似: y 和e 的交为非空;无 关: y 和e 的交为空。 对下近似建立确定规则; 对上的 似建立不确定规则:无关情况 不存在规则。 ( 2 ) 关联规则挖掘 关联规则挖掘是交易事务数据库中,挖掘出 不同项 ( 商品)集的关联关系,即 发现哪些商品频繁被顾客同时购买的。 关联规则挖掘是在事务数据库d 中寻找那些不同 项集( 如a 和b 两个商品) 同时 出现概率大于最小支持度, 且在包含一个项集的所有事务中, 同时也包含另一个项集 的条件概率大于置信度时,则存在关联规则。 ( 3 ) 覆盖正例排斥反例方法 覆盖正例排斥反例方法是利用覆盖所有正例, 排斥所有反例的思想不寻找规则。 比较典型的有m ich alski 的a q ll方法,洪家荣改进的aq巧方法以及洪家荣的a es 方法。 a q系列的核心算法是在正例集中任选一个种子, 它到反例集中逐个比较,对字 段取值构成的选择在相容时则舍去, 相斥则保留。 按此思想循环所有正例种子, 将得 到的正例集的规则 ( 选择子的合取式) . a e系列方法是在扩张矩阵中寻找覆盖正例排斥反例的相同字段取值的公共路 ( 规则) 。 ( 4 ) 概念树方法 数据库中记录的属性字段按归类方式进行合并,建立起来的层次结构称为概念 树。 如“ 城市” 概念树的 最下层是具体市名或县名, 它的直接上层是省名,省名的直 接上层是国家行政区,再上层是国家。 利用概念树提升的 方法可以大大浓缩数据库中的记录。 对多个属性字段的概念树 l 4 南京理工大学学位硕士论文数据挖掘在企业客户分析系统中的研究 提升,将得到高 度概括的知识基表,再将它转换成规则。 2 . 6 . 2仿生物技术 仿生物技 术典型的方 法是 神经网 络方法和 遗 传算法, 这两 类方 法己 经形成了 独立 的 研究体系。 它们在数据挖掘中也发挥了巨大的 作用, 我们将它们归并为仿生物技术 类。 1 .神经网络方法 神经网络方法模拟了 人脑神经元结构,以即模型和h ebb 学习规则为基础,建立 了三大类多种神经网络模型。 ( 1 ) 前馈式网络 前馈式网 络以感知机、bp 反向 传播模型和函数型网络为代表,此类网络可用于 预测、模式识别等方面。 ( 2 ) 反馈式网络 反馈式网 络以hop f i e l d 的离散模型和连续模型为 代表, 分别用于联想记忆和优 化计算。 (3) 自 组织网络 自 组织网络以a r t 模型、k ohonen模型为代表,用于聚类。 神经网络的知识体现在网络连结的权值上,是一个分布式矩阵结构。神经网络的 学习体现在神经网络权值的逐步计算上 ( 包括反复迭代或者是累加计算) 。 2 .遗传算法 遗传算法是模拟生物进化过程的算法。它由以 下3 个基本算子组成。 ( 1 ) 繁殖 ( 选择) 繁殖是指从一个旧种群 ( 父代) 选择出生命力强的个体生产新种群 ( 后代)的过 程。 ( 2 ) 交叉 ( 重组) 交叉是指选择两个不同个体 ( 染色体)的部分 ( 基因) 进行交换,形成新个体。 ( 3 ) 变异 ( 突变) 变异是指对某些个体的某些基因进行变异 (1变0 , 0 变1) 遗传算法通过种群遗传产生 优良 的后代。 这些后代需要满足适应值, 经过若干代 的 遗传, 将得到满足要求的后代 ( 问 题解) 。 遗传算法已 在优化计算和分类机器学习 方面发挥了显著的效果。 2 . 6 . 3公式发现 公式发现是通过在工程和科学数据库( 由 实验数据组成) 中对若干数据项( 变量) l 5 2数据挖掘概述 硕士论文 进行一定的数学运算, 求得相应的数学公式。 1 .物理定 律发现系统bac on bac 0n发 现系统完成了 物理学中 大量定律的 重新发现。 它的 基本思想是对数据项 进行初等数学运算 ( 加、 减、 乘、 除等) 形成组合数据项, 若它的值为常数项, 就得 到了 组合数据项等于常数的公式, 该系统有5 个版本, 分别为baconi到bac on。 5 . 2 .经验公式发现系统fdd f d d 发现系统的基本思想是对两个数据项交替取初等函数后, 与另一数据项的 线 性组合若为 直线时就找到了 数据项( 变量) 的 初等函数的线性组合公式。 该系统所发 现的公式比bac on系统发现的公式更宽些, 该系统有3 个版本, 分别为f dd. 1 到f dd. 3 。 2 . 6 . 4统计分析 统计分析是通过对总体中的样本数据进行分析得出描述和推断该总体信息和知识 的方法, 这些信息和知识提示了总体中的内 部规律, 它是一门独立学科, 也作为数据 挖掘的一大类方法。 1 .常用统计 常用统计是指在大量数据中求最大值、最小值、总和和平均值等。 2 .相关分析 相关分析是指通过求变量间的相关系数来确定变量间的相关程序。 3 .回归分析 回归分析是指通过建立回归方程 ( 线性或非线性) 以 表示变量间的数量关系, 再 利用回归方程进行预测。 4 .假设检验 假设检验是指在总体存在某些不确定情况时, 为了推断总体的某些性质, 提出关 于总体的某些假设, 对此假设 利用置信区间 来检验, 即任何落在置信区间 之外的假设 判断为 “ 拒绝” , 任何落在置信区间之内的假设判断为 “ 接受气 5 .聚类分析 聚类分析是指 将样品 或变量进行聚类的 方法。 具体方法是把样品中每一个样品看 成是m 维空间的 一个点, 聚类是把“ 距离” 较近的点归为同 一类,而将“ 距离” 较远 的点归为不同的类。 6 .判别分析 判别分析是指建立一个或多个判别函数, 并确定一个判别标准。 对未知对象利用 判别函数将它划归某一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论