




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
景德镇陶瓷学院理学学士论文 目录 理学学士学位论文(设计)电信客户数据分类方法研究学 号: 200710520101 姓 名: 于一发 院 系: 信息工程学院 专 业: 信息与计算科学 指导老师: 邱望仁老师 完成日期: 2011年6月 分类号 学校代码 UDC 密级 学 号 200710520102 景德镇陶瓷学院信息工程学院毕业论文电信客户数据分类方法研究于一发指导老师 邱望仁 博士 景德镇陶瓷学院 信息工程学院 申请学位级别 理学学士 专业名称 信息与计算科学 提交论文日期 2011-6-1 论文答辩日期 2010-6-7 学位授予单位和日期 景德镇陶瓷学院 答辩委员会主席 柳炳祥 论文评阅人 2011年6景德镇陶瓷学院理学学士论文 目录目录摘 要IAbstractII第一章 研究概况11.1研究背景11.2研究目的和意义11.3国内外研究状况1第二章 数据挖掘综述32.1什么是数据挖掘32.2数据挖掘的主要步骤32.3数据挖掘的主要任务42.4数据挖掘的主要应用52.5数据挖掘的主要工具62.6数据挖掘的发展6第三章 分类挖掘的介绍83.1什么是分类83.2分类分析的步骤83.3主要分类方法8第四章 电信客户价值104.1客户价值含义104.2电信行业特点104.3电信客户价值的特点104.4电信客户当前价值和潜在价值11第五章 指标体系权重的设定125.1层次分析法介绍125.2层次分析法的步骤125.3成对比较矩阵的建立135.4一致性检验145.5 评价体系指标权重的确定15第六章 KNN分类算法176.1 KNN算法简介176.2 KNN算法的弊端176.3 属性加权对KNN算法的改进18第七章 结果和展望19第八章 结束语20第九章 参考文献21致谢22附录1231.求权值时对特征向量矩阵的单位化:232.加权KNN算法的实现23附录224基于欧氏距离的最近邻改进算法24引言:241改进的最近邻算法252改进算法的实例验证273结束语28Improved KNN Algorithm Based on Euclidean Distance29Preface:291.Improved nearest neighbor algorithm302. The improved algorithm of typical examples333.closing34摘 要客户是企业的一项重要战略资产,在电信产业结构和竞争环境发生重大变革的今天,对于电信企业而言,如何有效的管理好这个重要资源已经保持和获取新的竞争优势的重要要求。在学术研究上,深刻认识客户的价值特征,有效的评价客户的价值也成为一个热点问题。很多学者都在不同的领域对它进行了研究。因此,研究客户价值,找到有效的评价方法,合理的应用到营销之中,指导企业的资源分配,这一系列问题吧仅有学术意义,也有很大的现实意义,围绕着对这些问题的思考,本论文在客户价值的评价和运用客户价值进行分类方面进行了研究。论文探讨了价值评价的技术方法,且在研究客户价值的影响因素的基础上,建立价值评价的模型,并以江西电信所提供的数据为研究对象,进行实证分析,同时利用获得的结果和数据聚类分析的方法,运用MATLAB编程技术,对新客户的价值进行模糊评价。 关键字:电信客户关系;客户价值 ;客户分类- 35 -AbstractCustomers are one of the strategic assets of telecom company. The structure of telecom industry and competitive environment has changed a lot. It is significant for telecom company to have their customers managed effectively to achieve competitive advantage in such situation. In academic field, to recognize the character of customer value and to evaluation the customer value effectively have been an issue discussed. Lots of scholars has investigated it in their ways. So investigating customer value and finding out the method to measure it are academic and useful to operation. We need to take advantage of it to guide the distribution of enterprise resource and activities of marketing. With considering these questions, the paper has made a research in evaluation of customer value and method of segment based on value evaluation. This paper discusses the value evaluation techniques, and establish value evaluation model based on the influence factors of customer value , and use the data provided jiang xi telecom as the research object to do some empirical analysis. Meanwhile we can use the results obtained and data clustering analysis methods, using MATLAB programming techniques to evaluate the value of new customers fuzzily.KEY WORDS:Telecom customer relationship; Customer value;Customer classification景德镇陶瓷学院理学学士论文 研究概况第一章 研究概况1.1研究背景如果问一个企业的核心资产是什么,回答可能会有很多,设备、技术、资本等等,不一而同。这个问题也是好多学者和企业一直探索的问题,随着竞争的加剧和市场营销科学的不断发展,有一点得到越来越多的学者和企业实践人员的认同和重视,就是客户是企业一项重要的战略资产。客户的流失直接导致的是收入的下降和利润的流失,而保持和维系客户将成为企业为了利润增长和企业发展成长的基本点。而电信企业客户的一个战略性群体就是大客户,根据2/8法则,他们自身的特点,收入和利润对电信企业都具有战略性的意义,对业务和发展和会群体都有重大的影响。深刻了解客户,明确他们的细分特征,以之为基础针对性营销,对于保持与激励这个群体是有效的。而管理好他们,才能更好保障企业的发展,提高运营效益。因此,将他们作为研究电信客户的细分管理的着眼点。综合上面所述,研究电信客户的特征和细分,对电信企业有效的进行客户识别,进行精确化营销,从而提高和完善客户管理的能力,在新的竞争环境中获取优势是极具研究和现实意义的。1.2研究目的和意义由于电信行业中客户因素越来越重要,客户资产中电信客户又对电信企业有重大的意义,有效对电信客户实施管理成为电信企业客户关系管理中的战略性因素。如何对电信企业大客户进行清晰的认知,进而实施精确化的营销管理呢?这是电信客户管理需要首先解决的问题,也是精确化管理的基础。它可以调节分配让企业将他的资源配置到最合理的地方去,让真正的价值客户获得足够的营销资源。所以,本文选择将基于价值的电信客户的分类作为研究对象,目的是为了清晰以价值作为客户评价维度的客户特征,在新构建的客户评价体系中,利用分类的方法,让企业能从更好的了解客户的价值,充分提升营业额。1.3国内外研究状况客户是企业一项战略性的重要资产,这一共识在管理领域已经没有什么可争辩的了。然而如何评价和管理它们,并令其保值、增值则是如今还颇具争论,仍然具有研究意义和价值的领域。大部分现有的研究都是从货币价值的方面为着手点,从财务数据中测度客户的利润情况。然而作为客户的综合价值考虑,他不仅仅包含从可提供的财务数据中提取的结果,还应该包含一些以非货币价值形式体现出的客户价值,例如客户的忠诚度,口碑效应等等,但是从现有的一些研究来看,还没有有效的而且适用于电信行业的测度方法。同时,如何把营销观念和财务数据的应用结合起来以给切合实际和综合的反映客户价值也是各个行业包括电信业有待解决的问题。景德镇陶瓷学院理学学士论文 数据挖掘综述第二章 数据挖掘综述2.1什么是数据挖掘 数据挖掘的历史较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,所以目前还没有一个完整的定义,人们提出了多种数据挖掘的定义,例如:SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法。”Bhavani(1999):“适用模式识别技术、统计技术和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程。”Hand(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程。”从技术上定义,数据挖掘是从大量的、有噪声的、模糊的、不完全的实际应用数据中,提取隐含在其中的、人们事先不知道但潜在有用的信息和知识的过程。很多词汇与数据挖掘相近似,其中包括数据融合、数据分析和决策支持等。这个定义包括好几层意思:首先,数据源必须是真是的、大量的、有噪声的;发现的知识是用户感兴趣的;发现的知识要可接受、可理解、可运用;并不要求发现的知识能够四海皆准,只要求能够解决待定的问题。简言之,数据挖掘是从大量数据中提取或“挖掘”知识。2.2数据挖掘的主要步骤 数据挖掘一般有以下几个主要步骤:1、数据收集大量全面丰富的数据是数据挖掘的前提,没有数据,数据挖掘也就无从作起。因此,数据收集是数据挖掘的首要步骤。数据可以来自于现有事务处理系统,也可以从数据仓库中得到。2、数据整理数据整理是数据挖掘的必要环节。由数据收集阶段得到的数据可能有一定的“污染”,表现在数据可能存在自身的不一致性,或者有缺失数据的存在等,因此数据的整理是必须的。同时,通过数据整理,可以对数据做简单的泛化处理,从而在原始数据的基础之上得到更为丰富的数据信息,进而便于下一步数据挖掘的顺利进行。3、数据挖掘利用各种数据挖掘方法对数据进行分析。4、数据挖掘结果的评估数据挖掘的结果有些是有实际意义的,而有些是没有实际意义的,或是与实际情况相违背的,这就需要进行评估。评估可以根据用户多年的经验,也可以直接用实际数据来验证模型的正确性,进而调整挖掘模型,不断重复进行数据挖掘。5、分析决策数据挖掘的最终目的是辅助决策。决策者可以根据数据挖掘的结果,结合实际情况,调整竞争策略等。总之,数据挖掘过程需要多次的循环反复,才有可能达到预期的效果2.3数据挖掘的主要任务 数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的关系,从而服务于决策。数据挖掘一般有以下四类主要任务:1、数据总结数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。传统的也是最简单的数据总结方法利用统计学中的方法计算出数据库的各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具,对数据制作直方图、饼状图等。利用OLAP技术实现数据的多维查询也是一种广泛使用的数据总结的方法。2、分类分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。分类应用的实例很多。例如,我们可以将银行网点分为好、一般和较差三种类型,并以此分析这三种类型银行网点的各种属性,特别是位置、盈利情况等属性,并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析,以便决定预期银行网点属于哪一种类型。3、关联分析数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。简单关联,例如:购买面包的顾客中有90%的人同时购买牛奶。时序关联,例如:若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%。它在简单关联中增加了时间属性。关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。4、聚类当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。2.4数据挖掘的主要应用目前,数据挖掘的研究和应用非常热门,应用主要集中在以下几个领域:1、金融数据挖掘在金融领域应用广泛,包括:金融市场分析和预测、帐户分类、银行担保和信用评估等。这些金融业务都需要收集和处理大量数据,很难通过人工或使用一两个小型软件进行分析预测。而数据挖掘可以通过对已有数据的处理,找到数据对象的特征和对象之间的关系,并可观察到金融市场的变化趋势。然后利用学习到的模式进行合理的分析预测,进而发现某个客户、消费群体或组织的金融和商业兴趣等。2、市场业市场业应用是利用数据挖掘技术进行市场定位和消费者分析,辅助制定市场策略。由于管理信息信息系统和POS系统在市场业的广泛普及,人们很容易得到顾客购买情况的数据。利用数据挖掘技术,如:相关规则、模糊推理及统计方法等,通过对顾客历史数据的分析,可以得到关于顾客购买取向和兴趣的信息,无疑为商业决策提供了可靠的依据。3、工程与科学研究数据挖掘技术可应用于各种工程与科学数据分析。随着先进的科学数据收集工具的使用,如观测卫星、遥感器、DNA分子技术等,面对庞大的数据,传统的数据分析工具无能为力。数据挖掘技术以其强大的智能性和自动性,在工程和科学研究中得到广泛应用。数据挖掘在天文学和生物学中都有极为成功的案例。例如:在天文学应用中,Jet Propulsion实验室利用决策树方法对上百万天体进行分类,效果比人工更快、更准确。这个系统还帮助发现了10个新的类星体。4、产品制造业制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。例如:HP 公司的工程师使用Angoss Software的Knowledge Seeker来进行HPc彩色扫描仪的生产过程分析。他们基于大约200个参数建立了一个自动数据收集系统,产生了难以手工处理的大量数据。5、司法数据挖掘技术可应用于案件调查、诈骗监测、洗钱认证、犯罪组织分析等,可以给司法工作带来巨大收益。例如:美国财政部使用NetMap开发了一个叫FAIS的系统。这个系统对各类金融事务进行监测,分类洗钱、诈骗等。该系统从1993年3月开始运行,每周处理约20万个事务,针对超过1亿美元并可能是洗钱的事务产生了400多个调查报告。2.5数据挖掘的主要工具 在数据挖掘技术发展的同时,许多数据挖掘的软件工具也逐渐问世。数据挖掘工具主要有两大类:一类是应用于特定领域的专用数据挖掘工具,另一类是应用面较广的通用数据挖掘工具。专用数据挖掘工具针对某个特定领域的问题提供解决方案。在算法设计方面,充分考虑到数据、需求的特殊性,并进行优化。例如:IBM公司的Advanced Scout系统,针对NBA数据,帮助教练优化战术组合、上文提到的各种应用工具等。通用数据挖掘工具处理常见的数据类型,采用通用的数据挖掘算法,提供较为通用的处理模式,如:分类模式、回归模式、时间序列模式、聚类模式、关联模式等。例如:IBM公司的QUEST系统、SGI公司的MineSet系统、加拿大Simon Fraser大学的DBMiner、美国Business Objects公司的Business Miner系统、SAS公司的SAS EM(Enterprise Miner)系统等。2.6数据挖掘的发展 数据挖掘的研究前景广阔,其发展前景已经在国际上普遍公认。目前,国内外很多大学、研究机构和公司都开始拓展数据挖掘阵地。今后研究的焦点可能有:研究专门用于知识开发的数据挖掘语言;研究Intenet上的数据挖掘方法;对其他非结构化数据诸如多媒体数据、文本数据、图像图型数据的挖掘;研究数据挖掘与数据仓库相结合的方式,数据挖掘与数据仓库一体化的研究等。2.61 Web数据挖掘Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。Web挖掘使用很多种数据挖掘技术,根据Web数据挖掘的数据类型,Web挖掘任务可以被划分为三类:Web结构挖掘、Web内容挖掘和Web使用挖掘。Web结构挖掘:Web结构挖掘是从表征的Web超链接中寻找有用的知识。例如:从链接中可以找出那些网页,这是一项搜索引擎主要采用的技术。Web内容挖掘:Wcb内容挖掘可以从网页内容中抽取有用的信息和知识。例如:根据网页的主题,我们可以进行自动的分类和聚类。Web使用挖掘:Web使用挖掘从一记录每位用户的点击情况的使用日志中挖掘用户的访问模式。这项任务也使用了许多数据挖掘的算法。其中一项就是点击流数据的预处理,以便生成可以用来挖掘的合适的数据。2.62 生物信息或基因芯片的数据挖掘生物信息或基因数据挖掘完全属于另外一个领域,难以估计其商业价值,却可令全人类受益匪浅。比如,基因的组合千差万别,如何识别某类病人的基因与正常人基因的差别,进而对其差别加以修复?针对这些问题的研究已经形成了一门学科,叫做基因芯片。基因芯片是一种新型的高通量检测技术与方法,它可以同时测量成千上万个基因的表达水平。数据挖掘理论,将用于对基因芯片生成的海量数据进行准确而有效地分析,从而发掘出不同基因在表达上和其功能上的某种联系。2.63 文本数据挖掘文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。文本数据挖掘是一个边缘学科,由机器学习、数理统计、自然语言处理等多种学科交叉形成。文本数据挖掘在智能商务、信息检索、生物信息处理等方面都有广泛的应用,例如,客户关系管理,互联网搜索等等。景德镇陶瓷学院理学学士论文 分类挖掘介绍第三章 分类挖掘的介绍3.1什么是分类分类是数据挖掘里面的一种重要的数据分析方法,可以用于提取描述重要数据类的模型或者对数据的特征进行鉴定。它是在已有数据的基础上学会一个分类函数或构造一个分类模型(即通常所说的分类器),而且该函数或模型能够把数据库中的数据记录映射到给定类别中的某一个,从而可以应用于数据预测。3.2分类分析的步骤分类分析是一个两步过程:构建模型和模型应用。第1步:建立描述预先定义的数据类或概念集的分类器。这是学习步(或训练阶段),其中分类算法通过分析或从训练集“学习“来构造分类器。先假设一个样本集合中的每个元组属于预定义的某一类别,由类标号属性确定。用于建立模型的元组集称为训练数据集,其中每个元组称为训练样本。由于给出了类标号属性,因此该步骤又称为有指导的学习。如果训练样本的类标号是未知的,则称为无指导的学习(聚类)。学习模型可用分类规则、决策树和数学公式的形式给出。第2步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类。3.3主要分类方法目前,国外有许多研究机构、公司和学术组织在从事数据挖掘工具的研究和开发。这些数据挖掘工具采用的主要方法包括决策树、相关规则、神经元网络、遗传算法,以及可视化、OLAP联机分析处理等。另外也采用了传统的统计方法。1、决策树(Decision Tree)决策树是建立在信息论基础之上,对数据进行分类的一种方法。首先,通过一批已知的训练数据建立一棵决策树。然后,利用建好的决策树,对数据进行预测。决策树的建立过程可以看成是数据规则的生成过程,因此可以认为,决策树实现了数据规则的可视化,其输出结果也容易理解。例如:在金融领域中将贷款对象分为低贷款风险与高贷款风险两类。通过决策树,我们可以很容易地确定贷款申请者是属于高风险的还是低风险的。决策树方法精确度比较高,结果容易理解,效率也比较高,因而比较常用。2、K-nearest邻居邻居就是彼此距离很近的数据。依据”Do as your neighbors do”的原则,K-nearest邻居方法认为:邻居数据必然有相同的属性或行为。K表示某个特定数据的K个邻居,可以通过K个邻居的平均数据来预测该特定数据的某个属性或行为。3、贝叶斯分类贝叶斯分类是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的,因此其分类准确率可能会下降。为此,就出现了许多降低独立性假设的贝叶斯分类算法,如TAN算法景德镇陶瓷学院理学学士论文 电信客户价值第四章 电信客户价值4.1客户价值含义1、从客户的角度感知企业所提供的产品或服务的价值,也就是客户感知的能够从企业处所获得的利益。它以客户为价值感受的主体,企业为价值的感受客体。这是传统意义上的客户价值,目前在此方面的研究成果比较丰富和深入。目前研究的比较多的也比较成熟的是顾客让渡价值理论。这一领域主要研究如何解和迎合客户的需求。2、从企业的角度感知客户所能提供给企业的收益或声誉等的价值,也就是企业感知的能够从客户处所获得的利益。它以企业为价值的感受主体,客户为价值的感受客体。这是近几年刚刚兴起的研究方向,也是近几年的研究热点。它衡量了客户对企业的重要程度,有助于企业保持长期利益的最大化。4.2电信行业特点与一般行业相比,电信行业有其自身的特点,主要表现为:电信企业与客户之间是一种持续的契约式的关系,这种关系可以持续相当长的一段时间,甚至是直至客户终老(例如固定电话普通客户)。即,可以把客户当作电信企业的一种持续的资源。而一般企业与客户之间是一种短暂的销售与购买关系,客户购买行为结束,企业与客户之间的货币关系自动终止,虽然之后客户会对企业有口碑、声誉等的贡献,但其货币贡献己经结束。而电信企业与客户之间契约式的关系中包括了后来可能的持续的货币关系。依据此特点本文把电信客户价值定义为:电信企业把客户看作是企业的一项资源(称为客户资源),这种客户资源能够给企业带来的当前的利益贡献以及未来可能的利益贡献(包括货币的和非货币的),称为电信企业的客户价值。4.3电信客户价值的特点由以上概念可以看出,电信客户价值具有以下特点:1、电信客户价值具有长期持续性,是可以持续衡量和计算的,从时间上来看,电信客户价值既要考虑当前价值,又要考虑未来的潜在价值,更要考虑电信客户的终生价值。2、电信客户价值受以下因素的影响:(l)电信客户价值的评价受时间因素影响电信客户在不同时间的货币贡献和非货币贡献并不一定相同,因此客户价值评价的考查时间点不同,而最终获得电信客户价值的高低也不相同。(2)电信客户价值的评价受人为因素的影响。电信客户价值是由运营商所感知的,运营商内部决策者的不同影响到对客户当前利益贡献以及未来可能的利益贡献相对重要性的估计,从而最终影响到对于客户价值的评价。(3)电信客户价值的评价受情景因素的影响。运营商自身的因素以及其所处的外部环境同样通过影响决策者对当前利益贡献和未来利益贡献的相对重要性认识而对客户价值感知产生影响。如在起步阶段的企业与稳定发展阶段的企业对于客户价值的感知效果是不一样的。同样,经济繁荣和经济萧条环境下的生存状况会明显影响到企业的关键决策者对客户价值的感知。4.4电信客户当前价值和潜在价值从形式上,电信客户价值可以分为现实价值和潜在价值。现实价值是电信客户已经和正在对运营商的利益贡献。现实价值又可分为两个部分,一部分是历史价值,就是运营商已经获得的利益贡献;另一部分为当前价值,即为运营商正在获得的利益贡献。潜在价值就是客户在今后对运营商的利益贡献。本文主要研究当前价值和潜在价值。4.41电信客户的当前价值电信客户的当前价值,即为电信企业在当前能够从电信客户处所获得的利益贡献。这种利益贡献不仅表现为货币贡献,还表现为对企业形象的塑造、品牌声誉提高的非货币贡献上。本文主要从彩铃业务、来电显示业务、当前通讯费、当前服务状态、套餐类型这些层面来分析电信客户的当前价值。4.42电信客户的潜在价值对于运营商来说,电信客户的潜在价值关系到企业的长远利润,如果电信客户在未来持续使用某运营商的某一业务或服务,那么该客户就要为此项业务或服务向该运营商持续交费,这也是电信客户价值与一般企业客户价值的不同之处.景德镇陶瓷学院理学学士论文 指标体系权重设定第五章 指标体系权重的设定 5.1层次分析法介绍 层次分析法(Analytical Hierarchy process,简称 AHP 法)是美国运筹学专家匹兹堡大学教授 T.L.saaty 于 20 世纪 70 年代提出来的。它是一种定性与定量分析相结合的多目标决策分析方法,适用于结构较复杂、决策准则多且不易量化的决策问题。层次分析法解决问题时,首先根据问题的性质和要达到的目的,将系统分解为不同的组成要素,然按要素间的相互关联影响和隶属关系,由高到低排成若干层次;在每一层次按某一规定规则,对该层次各要素逐对进行比较,写成矩阵形式,利用一定数学方法,计算该层各要素对于该准则的相对重要性次序的权重以及对于总体目标的组合权重,并进行排序,利用排序结果,对问题进行分析和决策。层次分析法的出现给决策者解决那些难以定量描述的决策问题带来了极大的方便,从而使它的应用涉及广泛的科学和实际领域。层次分析法可以应用于综合国力的评估,市场和产品的定位描述,员工绩效的考评以及农业,林业生产活动等等。 目前层次分析法已经较多地用于评标的过程当中。这是因为,面对大量的投标文件,对其进行评议和比较、选择或推荐中标人,并不完全是凭借投标报价这唯一的经济指标,而要同时考虑质量、工期、企业信誉和实力等因素。对这些问题的评价往往难以定量化、规范化和条理化,最后决策只能是定性地、综合地加以判断。为了避免评标定标过程主观随意性,尽可能地对评标定标加以半结构化,以提高其科学性和准确性,采用层次分析法就成为了较好的一种选择。由于客户的多样性,客户感知和行为各指标属性的复杂多变性,客户价值评估很难做到定量衡量,因此这里我们采用层次分析法,定性与定量结合,把层次分析法应用到核心客户的识别工作中。5.2层次分析法的步骤 1、建立多层次的指标体系 根据对问题的分析,在弄清问题范围,明确问题所含因素及其相关关系的基础上,将问题所包含的因素,按照是否具有某些共性进行分组,并把它们之间的共性看成是系统中新层次的一个因素,而这类因素本身可按另一组特性组合起来。形成更高层次的因素,直到最后形成单一的最高层次的因素。这样就构成了由最高层、若干中间层和最低层组成的层次结构模型。 2、通过相互比较确定各准则对于目标的权重,及各方案对于每一准则的权重,这些权重在人的思维 过程中通常是定性的,而在层次分析法中则要给出得到权重的定量方法。3、将方案层对准则层的权重及准则层对于目标层的权重进行综合,最终确定方案层对目标层的权重。在层次分析法中要给出综合的计算方法。层次分析法将定性分析与定量计算结合起来完成上述步骤,给出决策结果。下面我们来说明如何比较同一层各因素对上层因素的影响,从而确定它们在上层因素中占的权重。 Figure 1:model analysis客户价值V客户当前价值X客户潜在价值Y彩铃业务X1来电显示业务X2当前通讯费X3当前服务状态X4套餐类型X5客户类型Y1已开通时间Y2欠费状况Y35.3成对比较矩阵的建立5.31 比较尺度 当比较两个可能具有不同性质的因素与对于客户当前价值的影响时,Saaty等人提出1-9尺度,即的取值范围是1,2,9以及相反数1,1/2,1/9.(具体见下表1)尺度含义135792,4,6,81,1/2,1/9与的影响相同比的影响稍强比的影响强比的影响明显的强比的影响绝对的强与的影响之比在上述两个相邻等级之间与的影响之比为上面的互反数5.32 对比较矩阵对比较矩阵可用 A=,, 表示,由于的特点,A称为正互反矩阵,显然有=1,用X1,X2,X3,X4,X5依次表示彩铃业务、来电显示业务、当前通讯费、当前服务状态、套餐类型5个准则,用Y1,Y2,Y3依次代表客户类型、已开通时间、欠费状况3个准则,采用成对比较发(即次对比)得到X的判断矩阵和Y的判断矩阵。 5.4一致性检验 5.41 一致性检验的概念由于建立判断矩阵是两两相比较得出的,因此,就有前后给定的优先数是否一致的问题。在理想情况下,判断矩阵的特征根是,n 是矩阵的行数。当时A是一致阵。称为一致性指标。 。(5.1)=0时,A为一致阵。越大A的不一致性越严重。在考虑误差的前提下,为确定A的不一致程度的容许范围, 找出衡量A的不一致性指标的标准。Satty引入随机一致性指标(参考数值见下表2)n1 2 3 4 5 6 7 8 9 10 11RI0 0 0.58 0.90 1.12 1.24 1.32 1.41 1.45 1.49 1.51注:表中n=1,2时,=0,因为1,2阶的正互反阵总是一致阵。对于n=3的成对比较阵A,将它的一致性指标与同阶的随机一致性指标之比称为一致性比率,当 。(5.2)时认为A的不一致程度在容许范围之内,可用其特征值向量作为权向量。(5.2)式中0.1的选取带有一定主观信度的。对于A 利用(1)(2)和表2进行检验称为一致性检验。当检验不通过时,要重新进行成对比较,或对已有的A 进行修正。3.42模型计算矩阵X的最大特征值,采用(1)式即可验证一致性检验通过。矩阵Y 的最大特征值,同样可采用(1)式验得一致性检验通过。5.5 评价体系指标权重的确定 以上我们讲述了层次分析法的标准以及定义和步骤。层次分析法是一种量化的方法,有效的处理那些难以解析为数学模型的问题或难以完全用定量分析方法来分析的复杂问题。其基本原理:根据系统的具体性质和目标要求,首先建立一个关于系统属性的各因素多级递阶结构;按照专业评比准则(这些专业主要由市场经理、业务主管),对每一层次上的因素进行逐对比较,得到其关于上一层次因素重要性比较的标度,建立一个相关的判断矩阵;而通过计算判断矩阵的特征值和特征向量,得到各个层次因素关于上一层次因素的相对权重(层次上的单排序权值),并可自上而下地利用上一层次各个因素的相对权重加权求和,求出各层次因素关于系统整体属性(总体目标)的综合重要度(层次总排序权值);最后通过排序结果分析,解决实际问题。我们运用MATLAB对客户价值评价模型中的指标进行量化处理,确定评价体系指标的权重。其中判断矩阵的使用标度为 e0.5e8/5。输出结果如下图所示所求对应的特征值矩阵与特征向量矩阵,与, 通过MATLAB程序对X11与Y11单位化,可得下列综上所得客户价值权重当前价值0.3333潜在价值0.6667X1,X2,X3,X4,X5对当前价值的权重项目权重X10.0833X20.0833X30,5000X40.1667X50.1667Y1,Y2,Y3对于潜在价值的权重项目权重Y10.2222Y20.1111Y30.6667综合比较各项对总价值的权重项目总价值权重X10.0278X20.0278X30.0328X40.0328X50.0328Y10.1481Y20.0741Y30.4445景德镇陶瓷学院理学学士论文 KNN分类算法第六章 KNN分类算法6.1 KNN算法简介 KNN算法是数据挖掘分类算法中比较常见的一种方法。KNN是基于统计的分类方法,是根据测试样本在特征空间中的K个近邻样本的类别来进行分类。其基本方法如下: 所有的例子都市N维空间,一般每个例子都被表示为特征向量,这里表示例子的第个属性值。那么两个例子和之间的相似度量一般采用欧式距离:(6.1)判断近邻就是使用欧式距离测试两个例子之间的距离,距离值越小表明相似性越大,反之表明相似性越小。6.2 KNN算法的弊端但是实际应用KNN方法时有两个困难。首先,虽然从训练数据中估计参数不需要时间,但在大训练及中寻找最近邻的时间可能非常长,已经实现许多想法去克服这个困难。主要包括降维技术(如主成分分析)来减少维数,从而减少计算距离所用的时间;l利用复杂的数据结构(如搜索树)来加快最近邻的确定速度;这个方法经常通过设定几乎最近邻的目标来提高搜索速度;编辑训练数据,删除训练集中的冗余和“几乎冗余”的点,从而加快最近邻的搜索速度。其次,训练数据集所需的观测数目随着维数p的增长以指数方式增长。这是因为除非训练数据集得大小随着p的增长以指数方式增长,否则到最近邻的距离随着p急剧上升。这种现象被称为维灾害,如果在训练数据中的自变量均匀地分布在p维单位超立方体中,那么一个点落在中心0.5单位的概率为:对于所有分类、预测和聚类方法而言,维灾难都是一个主要问题。这就是为什么我们经常通过注入为模型选择预测变量的子集或采用主成分分析、奇异值分解和因子分析等方法来组合它们,努力寻找减少预测变量空间维数的方法的原因。在数据挖掘的文献中,降维通常指因子的选择。6.3 属性加权对KNN算法的改进传统的KNN算法选择相似性度量会引起误导,这种由于属性不相关导致的分类偏差称为维数陷阱。KNN算法对维数陷阱是非常敏感的,所以KNN是一种弱分类器。例如,一个待分类的样本有20个属性,但其中只有两个属性对分类最相关,这两个属性具有相债以值的样本在20维属性空间中却很可能距离最远,此时由20维属性等同作用的相似度就干扰了分类结果。为解决此问题,我们为每个属性加一个特征权值,让不同的属性在分类中的影响力不同。从欧式空间上来说就是拉长相关属性对应的轴,缩短无关属性对应的轴。 学习权值的方法,改进了距离计算公式:(6.2)W代表特征值向量。景德镇陶瓷学院理学学士论文 结果和展望第七章 结果和展望1.结果假设聚类中心为编号为290、28、246、242、282五个中心。添加变量为queryMatrix=118.44 33.31 15210当k=1时neighborIds =1,neighborDistances = 0.0278,划分在第一类;当k=2时neighborIds =1 ,159,neighborDistances = 0.0278,0.0819,且1和159都在第一类中,划分在第一类。当k=3时neighborIds = 1,159,48,neighborDistances =0.0278 ,0.0819 ,0.1401,三个数据都在第一类中,划分在第一类。当k=4时,neighborIds = 1 ,159 ,48 ,122,neighborDistances = 0.0278,0.0819, 0.1401 ,0.1462;划分在第一类当k=5时,neighborIds = 1 ,159,48,122 ,96 neighborDistances = 0.0278,0.0819, 0.1401,0.1462,0.1485.划分在第一类2、展望首先在聚类的过程中有一定的认为因素,可能会影响试验结果,这是不可避免的,但可以通过不断的试验来减小误差。其次整个过程计算量较大,人为因素较多。在今后的学习中,应加以修改。分类算法的研究是一个十分活跃的研究领域。本文所研究和实现的KNN算法是目前分类算法中比较常用的算法。尽管我本人的所做的工作取得了一些有意义的成果,但因为个人知识所限制,未能对算法作出较大的改进,也因为通过本次的对该算法的实现和研究,让我知道这种算法在目前这个研究领域中还不是最优的分类方法。我想,要想完善本文中的方法,本人还要付出更多地努力,力求通过改进各种对算法有影响的因子来达到更好的分类效果。景德镇陶瓷学院理学学士论文 结束语第八章 结束语通过对本次论文的设计,我获益非浅。首先使我增强了数据挖掘中分类挖掘的理论知识以及Matlab语言编程,并且做到了活学活用。其次使我对论文的整体制作过程有了较清晰的认识,从自己开始选题、搜集资料、初期制作实践编程到编学论文,每一步都是由最初的模糊概念到具体的加深了解,在此过程中容不得任何马虎、敷衍了事。 但是,本论文设计还存在着许多问题和不足,设计上还不够严密。系统有部分功能仍存在需改进的地方,所以在论文的内容和展示的形式上还需要进一步的修改、补充和完善。由于时间的缘故我们不能将更多的内容做精心的设计,论文在以后的学习阶段还需丰富。景德镇陶瓷学院理学学士论文 参考文献第九章 参考文献1Jiawei Han Micheline Kamber著 范明 孟小峰 译 数据挖掘概念与技术2张云涛 龚铃 著 数据挖掘原理与技术机械工嶪出版社3刘星毅 韦小玲 基于欧氏距离的最近邻改进算法 广西科学院学报4张威编 MATLAB基础与编程技术 西安电子科技大学出版社,20045
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高校教师资格证之《高等教育法规》考前冲刺分析带答案详解(黄金题型)
- 2024-2025学年度工程硕士经典例题及完整答案详解(历年真题)
- 应急处置程序安全培训课件
- 新生儿消化系统常见疾病临床特点与鉴别诊断
- 麦田房产合同(标准版)
- 承包的士车合同(标准版)
- NMN适合女性吗女性是否可以吃nmn从内而外的健康焕新
- 中小学安全法制教育工作计划与思路16篇
- 文化发展公司合伙协议书
- 四年级健康教育教学计划
- 财务大数据基础-全套课件
- 《金匮要略》与风湿病的研究-课件
- 电力建设土建工程施工记录填写样表
- 检修安全培训课件
- 一般毒性作用
- 操作性前提方案(OPRP)确认记录表
- GB 28235-2020紫外线消毒器卫生要求
- 固体废物采样记录
- 洁净手术室相关知识考核试题及答案
- Avaya新产品和解决方案介绍课件
- 布洛芬缓释胶囊生产工艺流程课件
评论
0/150
提交评论