已阅读5页,还剩51页未读, 继续免费阅读
(企业管理专业论文)设置前置粗糙集子系统的神经网络分类器的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 随着数据库技术的迅速发展以及数据库管理系统的广泛应用, 企业的数据库或数 据仓库中积累的数据越来越多。然而激增的数据背后隐藏着许多重要的信息,企业中 的领导希望能够对其进行更高层次的分析,以便更好地利用这些数据,为企业以后的 营销、发展提供正确的决策方案。 本论文首先介绍了数据挖掘理论及其在客户关系管理中的应用,并着重对数据挖 掘的两种重要新方法粗糙集理论和神经网络以及它们的应用进行了概述。 接着介绍了 粗糙集的基本理论,它是建立在等价关系基础之上的,用上下近似集合来表示一个不 精确的概念。属性约简问题是粗糙集理论的核心问题之一,本文给出了几种属性约简 算法,并将属性约简方法运用于数据挖掘的数据预处理中。针对目前单纯使用神经网 络会因输入信息空间维数较大使网络结构复杂且训练时间长,同时,对企业的大型数 据库或数据仓库进行数据挖掘时,输入信息不仅数据量大,而且存在噪声干扰,在数 据挖掘中单纯的使用粗集方法会受噪声干扰而直接影响分类精度的问题。 本论文最后 将粗糙集理论与神经网络相结合,对神经网络设置前置粗糙集子系统,构成粗糙集 神经网络系统。然后,对两种方法对具体问题的分析结果进行比较。说明粗糙集于 神经网络相结合的分析方法是很有意义的。 关键词:数据挖掘;粗糙集;神经网络 abstract abstract with the quick development of database technique and the extensive application of database management system, enterprise have accumulated more and more data in their database or data warehouse. however, there are many important information is concealed in the numerous data. in order to use these data more efficiently and provide accurate decision-making project for the marketing and development of the enterprise, the enterprise s leaders hope to analyze the data with higher level. firstly, this paper introduces the fundamental of customer relationship management , and summarizes the application of rough sets and neural network which are two important methods in data mining. secondly, it introduces the rough sets theory, which is a uncertain and vague conception based on equivalence relation and expresses by upper and lower set approximations. as the problem of attribute is one of core problems in rough sets theory, this paper improved some reduction algorithms. in what follows,it introduces the variable precision rough sets model and its application in enterprise management actuality analysis, and the probability rough sets model and its application in production sort, and the imperfection information system rough sets model and its application in production sale respectively. for the enormous data only using the neural network in data mining would make the structure of neural network complex and the training overtime, and noise disturbance when mine data from large database or data warehouse, only using the rough sets in data mining would decrease the classification precision. finally, this paper introduces the flow of data mining method based on rough set-neural network. then based on this, the combination of rough sets and neural network is applied . key wordskey words: data mining;rough sets;neural network 原 创 性 声 明原 创 性 声 明 本人声明:所呈交的学位论文是本人在导师的指导下进行的研究工作及取得的 研究成果。除文中已经注明引用的内容外,论文中不包含其他人已经发表或撰写过的 研究成果,也不包含为获得 内蒙古工业大学内蒙古工业大学及其他教育机构的学位或证书而使用 过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 学位论文作者签名: 指导教师签名: 日 期: 日 期: 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:内蒙古工业 大学有权将学位论文的全部或部分内容保留并向国家有关机构、 部门送交学位论文的 复印件和磁盘,允许编入有关数据库进行检索,也可以采用影印、缩印或其它复制手 段保存、汇编学位论文。为保护学校和导师的知识产权,作者毕业后涉及该学位论文 的主要内容或研究成果用于发表学术论文须征得内蒙古工业大学就读期间导师的同 意,并且版权单位必须署名为内蒙古工业大学方可投稿或公开发表。 本学位论文属于 保密 保密,在 年解密后适用本授权书。 不保密 不保密。 (请在以上方框内打“” ) 学位论文作者签名: 指导教师签名: 日 期: 日 期: 第 1 章 绪论 1 第 1 章 绪论 1.1 数据挖掘技术的产生 客户关系管理(customer relationship management, crm)首先是一种理念, 其核心 思想是将企业的客户(包括最终客户、分销商和合作伙伴)作为最重要的企业资源, 通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现客户的终生价 值。客户关系管理理念的提出,使企业越来越看重企业与客户的关系价值,在企业经 营的整个过程为客户创造更大的价值已经成为企业更好地为客户服务的首要目标。 企 业是通过满足客户的有效需求来获得利润的,为客户创造价值,提供满意的服务,增 加客户的满意度和忠诚度是企业获得长远利润的重要前提。 与此同时,信息技术的迅猛发展,也为企业提供了整合资源的有效手段。企业在 经营过程中纪录下大量的客户资料,利用先进的客户关系管理软件(crm) ,能随时 随地追踪分析每一位客户的相关信息。 通过对客户资料的分析来更准确地判断客户需 求,维持与客户的良好关系,保证企业的可持续发展。商业数据库现在也正在以一个 空前的速度增长,从中获取可靠、准确、及时的信息来进行正确的决策是商家的迫切 需求。 一系列的市场变化,催发了数据挖掘技术产生,商业数据挖掘具有自动趋势预测 和自动探测以前未发现的模式的功能,且操作简单易于掌握、分析的结果更加准确可 靠,并且易于理解。例如,数据挖掘能根据过去电话推销中的大量数据找出其中最有 可能对将来的电话推销作出反应的客户; 通过分析零售数据来发现表面上看起来没联 系的产品,但实际上是经常被一起售出的情况。随着数据捕获、传输和存储技术的快 速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广 阔的并行处理系统来创建新的商业增长点。 1.2 目前研究状况 数据库中的知识发现(knowledge discovery in databases, kdd)是指对数据库中 蕴涵的、未知的有潜在应用价值的、非平凡模式的提取,换句话说,知识发现是一种 从大型数据库或数据仓库中提取隐藏的预测性信息的技术,能挖掘出数据间可信的、 新颖的、有效的、可被人理解的模式,找出最有价值的信息和知识,指导商业行为或 进行科学研究。知识发现的过程有数据处理,数据挖掘(dm),解释评价,如图 1-1 内蒙古工业大学硕士学位论文 2 所示。数据挖掘是知识发现的关键步骤,因此,在很多场合往往不加区分的使用知识 发现和数据挖掘。 对于海量数据的分析方法研究方面,数据分析不再局限于传统的统计分析方法, 还产生了基于数据仓库的决策树、神经网络、模糊数学、遗传算法和粗糙集等多种分 析方法。甚至对于特定的问题,没有一种分类技术总是最好的结果,所以也出现了运 用两种或多种单一方法的组合对数据进行分析的系统研究方法。 数据挖掘技术在客户关系管理中的应用仍然处于初级阶段, 人们在运用中需要积 累大量的知识和经验,不断地实现技术上的改进和完善,以使数据挖掘的应用更加符 合各行业中的客户关系管理实践,也成为了行业研究中的热点。 1.3 数据挖掘研究中遇到的问题 目前,数据挖掘技术和商业数据挖掘技术虽然得到了大范围的应用,也取得了巨 大的经济效益和商业利润,但仍存在着许多尚未解决的问题: 231418 1)在数据准备阶段,尚没有较好的方法快速去除或修改噪音数据及处理空缺的 数据和冗余数据。 2)挖掘的对象问题。数据挖掘需要面对更大型的数据库、更高的维数(变量的个 数)和属性之间更复杂的关系。而目前的很多数据挖掘系统还没有建立在较先进的数 据仓库基础上。 即使建立在关系型数据库的数据挖掘系统, 也没有深入到考虑各个表, 乃至各子数据库之间关联关系的程度,而往往只是停留在人为抽取的简单二维表中, 如交易表(transaction table)。 3)在算法执行的过程中,只考虑算法本身的复杂度,缺乏对所利用的硬件环境 资源的考虑,从而导致算法的实际的执行时间过长。 4)多种形式的输入数据。在数据挖掘的定义中所提到的数据的概念,其范围很 初始 数据 目标 数据 处理后 的数据 变换后数据模型 知识 选择预处理 变换 数据挖掘 解释 图 1.1 kdd 过程 第 1 章 绪论 3 广,包含结构化数据和多种半结构、无结构的数据类型,而目前的绝大部分工作还只 停留在对结构化数据的研究上。 5)在知识的表达及对问题的解释上,应超越传统的关联规则的表达形式,引入 模糊的表达概念,从而符合实际的状态分布。数据挖掘的结果应能用广义的或多层概 念的术语来解释,目前的系统往往缺乏对整体挖掘结果的总结与概括。 6)应该使数据挖掘过程的背景知识可用。目前的数据挖掘系统或工具很少能真 正让用户参与到挖掘过程中。 将相关领域的知识融入数据挖掘系统中是一个重要但没 有很好解决的问题。 7)没有较好的算法来确定各种评判标准的阈值,如支持度、可信度及感兴趣度 的取值。 1.4 本文研究的目的和意义 在客户关系管理 crm 应用过程中,总是存在这样一类客户分类问题,此类问题 的具有以下特点: 1)样本数据量很大,占有较大的数据空间; 2)分类属性多,并且知识的冗余度大,最初不能判断与结果相关的属性; 3)不确定性大。 此类问题有:学生贷款时学生的分类;保险客户的分类等。 而神经网络具有良好的容错性和扩展性,能够模仿人脑的思考方式思考问题,在 实际中得到了广泛的应用。但是在实际的运用过程中,神经网络对数据的属性个数要 求非常敏感,企业在建立模型时往往会花费掉大量的时间而不能保证模型的准确性。 从而,阻碍了神经网络在企业运用中的普及。 本文结合粗糙集对属性的处理方法, 用粗糙集理论对神经网络的训练数据进行简 化,正确地确定与决策属性相关的条件属性,减少神经网络训练数据的冗余属性。从 而,使神经网络的训练时间更短,使得模型的准确性得以提高。最终达到增强分析现 实问题方法的准确性的作用。 内蒙古工业大学硕士学位论文 4 第 2 章 客户关系管理及客户分类方法 2.1 客户关系管理的产生和发展 2.1.1 企业经营理念的转变 345 亚当斯密的资本主义经济理论主要适用于可交换性产品的生产和分销,生产、 推销、营销、物流管理和质量管理等都是以产品为中心。而客户关系时代则强调新的 中心满足客户个性化的需求。随着新的中心的产生,这些在不同时期为企业创造 利润的主导方式,在社会的发展过程中,也逐渐从昔日获得利润的充分条件转变成了 今天维持生存的必要前提。营销理念在不同时期,有着不同的中心和侧重点。如下表 所示: 表表 2.1 营销观念的转变营销观念的转变 营销观念营销观念 侧重中心侧重中心 经营状况经营状况 不足之处不足之处 生产观念 产量 产品供不应求 只能在卖方市场 推销观念 销售额 企业竞争激烈 只看短期利益 营销观念 市场需求 商品供过于求 只注重经济效益 客户观念 客户 个性化服务 需要信息化支持 1)在生产观念时期,产品供不应求,市场处于卖方市场,企业并不愁卖不出产 品,他们最想要的是高效率的生产方法。由此,标准化生产与科学管理自然而然地成 为了这个时期的研究热点。各个企业竞相追逐的目标是尽可能降低成本,增加产量, 并不注重在市场上的销售,只以产品产量作为工作中心。 2)在推销观念时期,由于现代化大生产的发展,以产值中心的管理受到了严重 的挑战,特别是经过了经济危机和大萧条,产品的大量积压使企业陷入了销售危机和 破产威胁的泥淖中,企业之间竞争激烈。为了生存他们纷纷摒弃了以产值为中心的观 念,着重以推销为重点,利用广告和促销等手段尽量让消费者买自己的产品。企业此 时是以增加企业的销售额为中心。 3)营销观念时期,市场商品供过于求,逐渐形成买方市场,企业之间竞争进一 步加剧,由于销售竞争中的促销活动使得销售费用越来越高,激烈的质量竞争又使得 产品的成本亦居高不下,这种结果虽然使企业的销售额不断增长,但实际利润却不断 下降。此时,企业开始注重顾客的需求,通过市场调查和统计分析的手段,根据市场 第 2 章 客户关系管理及客户分类方法 5 需求生产产品,提高企业的实际利润率。在这个时期,企业以提高企业的利润率为 中心。 4)在客户观念时期,市场是由需求构成的,客户的需求构成了企业的获利潜 力,而客户的满足状态制约着企业获利的多少。随着经济时代由工业经济社会向知 识经济社会过渡,经济全球化和服务一体化成为时代的潮流,顾客对产品和服务的 满意与否,成为企业发展的决定性因素,而在市场需求的最佳状态是满意,顾客的 满意就是企业效益的源泉。客户也被看作是企业的一种资源。因此,与客户维持更 好的关系,是一个企业能够可持续发展的关键。客户关系的维持成为当今企业工作 的中心。 2.1.2 客户关系管理(crm)系统的发展 crm(customer relationship management)客户关系管理,是伴随着因特网和 电子商务的大潮进入中国的。最早发展客户关系管理的国家是美国,gartnet group 首先提出了 crm 的概念,认为所谓的客户关系管理就是:为企业提供全方位的管 理视角;赋予企业更完善的客户交流能力,最大化客户的收益率。 在上世纪 80 年代初便有所谓的“接触管理”(contact management),专门收集 客户与公司联系的所有信息。90 年代初期,客户关系管理体现为销售力量自动化系 统(sfa)、 客户服务系统(css); 1996 年发展为集销售、 服务于一体化的呼叫中心(call cener);1998 年,随着电子商务的兴起,crm 开始向 ecrm 方向发展。 目前,从应用范畴来看,crm 大致可分为操作型、互动型和分析型三大类系 统。 1)操作型 crm (operational crm) 操作型 crm 主要是通过业务流程的制定与管理,借助信息技术,让企业在进 行销售、营销和服务时取得最佳效果。 2)互动型 crm (channel crm) 互动型 crm 整合企业与客户互动的渠道, 如 call center(客服中心)、 入口网站、 电子邮件、自动语音系统等,其目的是提升企业与客户的沟通能力,强化服务质量 与时效性。 3)分析型 crm (analytical crm) 分析型 crm 从 erp、scm 等系统,以及操作型 crm、通路型 crm 等不同渠 内蒙古工业大学硕士学位论文 6 道收集各种与客户接触的资料, 经过汇总、 整理等数据处理, 通过联机处理 (olap)、 data mining 等商业智能(bi)技术,帮助企业发现海量客户数据背后的有用信息,以 得出具有商业价值的分析资料。 2.2 客户关系管理的定义与内涵 2.2.1 客户关系管理的定义 客户关系管理的出现,适应了社会经济的进一步发展。 “客户关系管理”这个 名词在很多文章和杂志上经常出现,无疑在当今的社会非常流行。但是,究竟客户 关系管理是什么呢?是一套软件系统还是一种经营理念?是一种营销策略还是一 种技术组合? 事实上,学术界对于客户关系管理没有一个统一的定义,对于不同的出发点, 客户关系管理的定义也有所不同。下面是学术上对客户关系管理的不同定义: 1) 一套集成方法。 钱布勒 (emma chablo) 的定义是从系统的整合的角度出发, 他认为客户关系管理是“通过人、过程与技术的有效整合,将经营中所有与顾客发 生接触的领域如营销、销售、顾客服务和职能支持等整合在一起的一套集成方法” 6。 2)用各种方法实现顾客满意。英霍夫(claudia imhoff)等人也从系统整合的 角度出发,认为“客户关系管理就是协调公司战略、组织结构及文化、顾客信息和 技术等之间的关系,以有效的管理顾客接触,实现顾客长期满意,为企业创造稳定 的利润” 7。 3)客户关系管理是一种方法和思路。格雷厄姆(graham)认为“客户关系管 理是企业处理其经营业务及顾客关系的一种态度、倾向和价值观” 8。 4)是一门技术。sas 公司是一家著名的统计软件及 crm 方案平台的开发商, 该公司从技术的角度定义客户关系管理。 “客户关系管理是一个技术过程,通过这 个过程,企业最大程度地掌握和利用顾客信息,以培养和增强顾客的忠诚度,实现 顾客的终身挽留” 9。 5)李雷蒙(raymond ling)和任大卫(david c.yen)总结了各种不同的客户 关系管理定义,指出客户关系管理的定义中必须包括如下内涵: “客户关系管理是一种经营观念,他要求企业全面地认识顾客最大程度的发展 顾客与本企业的关系,实现顾客价值的最大化。 第 2 章 客户关系管理及客户分类方法 7 客户关系管理是一套综合的战略方法,它通过有效的使用顾客信息,培养与现 实的和潜在的顾客之间的良好关系,创造大的价值。 客户关系管理是通过一系列的过程和系统来支持企业总体战略,以建立与特定 顾客之间长期的、有利可图的关系。客户关心管理的主要目标是通过更好的理解顾 客的需求和偏好来增大顾客价值。 ” 10 综合分析众多定义的内涵,本人认为杨永恒等在客户关系管理的内涵、驱动 因素和成长维度中对客户关系管理的定义更适合当代企业和学术中的论述: “客户关系管理(crm)是企业总体战略的一种,它采用先进的数据库和其他 信息技术来获取顾客数据,分析顾客需求特征和行为偏好,发展管理顾客关系,培 养顾客长期忠诚度,以实现顾客价值最大化和企业受益最大化之间的平衡。 ” 11 2.2.2 客户关系管理的内涵 在前面我们对客户关系管理的定义进行了讨论,目的是为我们正确地认识客户 关系管理作一个前提铺垫,究竟客户关系管理的本质是什么呢?究竟包含的什么样 的理念和内容呢?本文的理解如下: 其实,无论客户关系管理的执行方法会怎样变化,其追逐的目标都是一样的, 都是为更好的执行客户关系管理的内涵而服务的。客户关系管理总结起来无外乎三 点:顾客价值最大化、关系价值最大化、客户关系管理信息系统、方法和技术。 1)顾客价值最大化 顾客价值是顾客对产品属性、属性效能以及使用结果(对实现目标和初衷的促 进或阻碍)的感知偏好和评价 12。如下图所示: 期望的顾客价值 顾客对获得价值的满意 资料来源: robert b.woodruff,customer value:the next source for competitive advantage, journal of the academy of marketing science,vol.25,no.2,1997,p.142. 图 2.1 顾客价值的层次模型 顾客目标和目的 期望的使用结果 期望的产品属性和属性效能 目标满意 结果满意 属性满意 内蒙古工业大学硕士学位论文 8 如果顾客从某种产品或服务中获得的收益大于所支付的成本,则认为该产品或 服务是能够为顾客创造价值的。客户在购买产品或服务时,会选择给自己创造更大 顾客价值的企业,所以企业能为顾客创造更大的顾客价值,是其更好的维持客户关 系的重要基础。 因此,为顾客创造价值和企业实现利润增长的目标并不矛盾。顾客价值反映了 客户关系管理对顾客利益的重视,而关系价值则反映了客户关系管理对企业自身利 益的考虑。获得价值满足的顾客更容易提高顾客忠诚度,对企业忠诚,有利于实现 顾客挽留战略。从而增加每个顾客在其关系生命周期内为企业创造的价值。因此, 为顾客创造最大化的价值无疑是客户关系管理中的重要理念,顾客价值也就成为客 户关系管理成败的一个重要因素。 2)顾客权益(customer equity)最大化 鲁斯特(rust)和约瑟曼等人认为: “一个企业的顾客权益就是所有顾客的折现 终身价值之和。 ” 13也就是说,对企业而言,每个顾客的顾客权益是该顾客的折现 终身价值,即:顾客的整个关系生命周期内给企业带来的价值折现。 企业为顾客提供了最大化的顾客价值,维持了与顾客之间的良好关系,目的就 是从顾客身上获得最大化的利润。所以,企业也必须仔细衡量顾客在整个关系生命 周期内带给企业的价值,即,顾客终身价值的计算 3: 根据关系盈利性和生命周期, 考虑到货币的时间价值, 在计算顾客终身价值时, 可以采用净现值的方法,将顾客在不同关系时期所创造的利润折现到同一个时点: 基于现行关系盈利性的顾客终身价值 这是一种简单的情形,仅考虑现行关系盈利性,不存在潜在关系盈利性。在这 种情形下,顾客终身价值的公式为: 1 (1,2, ) (1) t i npv t t rp ltvtt r = = + l (2-1) 其中: npv ltv顾客终身价值的净现值; i rp顾客i的关系赢利性; r 折现率; t关系生命周期。 基于现行和潜在关系盈利性的顾客终身价值 第 2 章 客户关系管理及客户分类方法 9 如果要完整考量顾客终身价值,必须同时考虑现行关系盈利性和潜在关系盈利 性。在此基础上,顾客终身价值的计算为: 1 (1,2, ) (1) t iit npv t t rpprp ltvtt r = + = + l (2-2) 其中: it prp顾客i在年度t内的潜在关系赢利性。 计算出来顾客的终身价值,就掌握了关系价值的核心组成部分。在此基础上, 企业可以对顾客权益的衡量,决定所应采取的关系行为,以培养顾客的忠诚度,适 当延长顾客的关系生命周期, 在满足顾客的同时, 使顾客为企业带来的收益最大化, 实现企业与顾客之间的双赢。 3)信息技术与数据挖掘方法 20世纪80年代和90年代, 大多数公司都采用了商业智能工具来赢得决策过程 的竞争优势,如:销售力量自动化系统(sfa)、客户服务系统(css);集销售、服务 于一体化的呼叫中心(call cener)以及联机处理技术(olap)等。但是,对于对于计 算机处理技术及存储能力的发展,带来了信息量的指数增长,随之而来的也就会产 生新的客户关系管理方法和手段。尤其是为了节约成本,准确地找出有价值客户, 数据挖掘方法更多地融入到客户关系管理系统之中,而且正在逐渐成为客户关系管 理的核心部分。如下图所示: 图 2.2 crm 系统结构图 14 crm系统在企业活动中,有如下作用: 接触记录 数据源 交易记录 客户群体 个体信息 附加信息 数据转换 交易数据 仓库 营销管理 库据 分析数据 库心 报表数据 库心 交易数据处理应用支持 商业规划与元数据处理 营 销 管 理 数据挖掘分析 业务查询报表 联系渠道 邮 政 信 件 接 触 管 理 呼 叫 中 心 促 销 服 务 中 心 邮 政 信 件 internet 方式 其 它 方 式 工作流管理 内蒙古工业大学硕士学位论文 10 客户可以通过电话、传真、网络等形式与企业联系,进行业务上的往来与关 系的维持。 任何与客户打交道的员工都能全面了解客户关系,根据客户的资料信息,合 理安排对特定客户的服务方式。 能够对市场活动进行规划、评估,对活动进行透视。 能够对各种销售活动进行追踪监控。 系统可不受用户限制,随时访问业务处理系统,获得客户信息,不受业务员 差别的限制。 可以对市场活动、销售活动进行分析。 能够从不同角度提供成本、利润、生产率、风险等信息,并对客户进行分类 分析、追踪服务等。 crm是借助先进的信息技术和管理思想,通过对企业业务流程的重组来整合 客户信息资源, 并在企业的内部实现客户信息和资源的共享, 为客户提供one-to-one 个性化服务、改进客户价值、满意度、赢利能力以及客户的忠诚度,保持和吸引更 多的客户,最终实现企业利润最大化。 2.3 客户关系管理系统与企业其它软件系统的衔接 客户关系管理的产生, 是市场发展的必然结果, 也是企业经营理念的转变过程, 在这个程中,企业的注意力从优化生产逐渐转向柔性生产,从解决内部矛盾转向获 取外部客户资源,从阶段性管理转向持续性发展。同时,各种系统之间相互衔接运 作,形成了一个闭合的循环系统,为企业持续发展提供了一个良好的平台。如下图 所示: 图 2.3 crm 与 erp 系统的有效衔接 14 由上图可以看出,企业通过crm中的营销模块操作获得订单,订单转入企业 内部;在erp系统的优化操作下进行生产;生产完毕后交付客户;交付客户以后的 第 2 章 客户关系管理及客户分类方法 11 客户服务与支持又是crm系统的服务范围;在crm系统商业智能模块的作用下, 对客户资料进行记载分析,为企业的商业决策提供科学依据,以便及时发现新的商 机。在这种循环情况下维持长期的客户关系,做到顾客权益最大化。 crm既是一套原则制度,也是一套软件和技术。crm应用软件将最佳的实践 具体化并使用了先进的技术来协助各企业实现缩减销售周期和销售成本、增加收 入、寻找扩展业务所需的新的市场和渠道、以及提高客户的价值、满意度、赢利性 和忠实度等目标。crm在整个客户生命期中都以客户为中心,这意味着crm应用 软件将客户当作企业运作的核心。crm应用软件简化协调了各类业务功能(如销 售、市场营销、服务和支持)的过程并将其注意力集中于满足客户的需要上。 2.4 客户分类方法 2.4.1 数据挖掘的定义 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取 隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。国内许 多文章也有很多不同的提法,如知识发现(kdd) 、数据分析、数据考古、模式分 析、商业职能等。 14 数据挖掘技术是近几年国内外迅速发展起来的一门交叉学科,涉及到数据库、 统计学、人工智能与机器学习等多个领域。计算机的应用使当代的企业能收集大量 的客户数据成为可能,数据挖掘就是利用上述的学科技术进行大数据量的处理。数 据挖掘技术对未来的企业将起到越来越重要的作用。 我国的数据挖掘技术一方面是停留在科研机构的学术研究上,另一方面是利用 软件产品解决具体问题。为了提高学术水平,科研人员值得进行高水平但很难实用 的算法研究;为了提高经济效益,企业利用国外的软件对于现实的企业数据进行分 析应用。但是数据挖掘技术在解决实际问题的过程中需要的是成熟的技术另加针对 具体问题的具体修正。因此,国内现在仍然需要对国外十余年的数据挖掘进行具体 研究剖析,以便在掌握核心技术的基础上进行赶超。同时,在企业的应用过程中, 也要对数据挖掘的算法和功能有深刻的理解,才能正确运用数据挖掘方法进行企业 的数据分析。 内蒙古工业大学硕士学位论文 12 2.4.2 数据挖掘的功能 数据挖掘的功能很多,常见的功能有: 分类(classification) 估计(estimation) 预测(prediction) 组合或关联法则(affinity grouping or association rules) 聚类(clustering) 描述与可视化(description and visualization) 前三种方法或工作,即分类、估计和预测,属于直接的数据挖掘。目标是应用 可得到的数据建立模型,用其他可得到的数据来描述我们感兴趣某一变量。后三种 方法,即分组或关联规则、聚类、描述与可视化,属于间接数据挖掘,没有单一的 目标变量,目标是在所有变量中发现某些联系。本文中主要对数据的分类方法进行 分析,所以下面将重点放在数据挖掘的分类方法上。 2.5 数据挖掘中的分类方法 所谓分类,就是把给定的数据划分到一定的类别中。分类是数据挖掘中的最重 要的技术之一。分类的关键是对数据按照什么标准或什么规则进行分类。因此分类 是一个两步过程: 首先,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描 述或者模型。由此生成的类描述或者模型为每一种类别的分类规则,也就是说我们 获得了对这个类的知识; 其次,根据规则对新数据进行分类。所以,分类又称为有指导的学习。 目前,实现分类的方法有决策树算法、贝叶斯分类算法、神经网络分类算法、 粗糙集分类算法等。通过对当前具有代表性的分类算法原理进行分析、比较,总结 出每种算法的性能特征,以便于使用者了解掌握各种分类算法、更好地选择合适的 算法。 2.5.1 决策树分类 15 决策树是一种用于产生分类规则的树结构,如图2.4所示。树中的内节点表示 第 2 章 客户关系管理及客户分类方法 13 在一个属性上的测试,每个树叶代表类或类分布,树中的每个分枝代表一个测试输 出,即一条规则。树的最顶层节点是根结点。 图 2.4 对电脑客户的决策树,指出客户是否可能购买电脑, 每个内部节点表示一个属性上的测试,每个树叶节点代表一个类 首先检测训练数据集的所有特征,选择信息增益最大的特征建立决策树根节 点,由该特征的不同取值建立分枝,对各分枝的实例子集递归,用该方法建立树的 节点和分枝,直到某一子集中的数据都属于同一类别,或者没有特征可以再用于对 数据进行分割。 选择具有最高信息增益的属性作为当前结点的测试属性,并根据该属性值的个 数对数据进行切分。对每个切分都要求分成的组之间“差异”最大,这个切分的过 程也成做数据的“纯化” 。 用信息增益这种信息论的理论方法,使得对一个对象分类所需要的期望测试数 目达到最小,并确保找到一棵简单的树。 决策树可以生成可理解的规则,计算量相对来说不是很大,速度较快。可以处 理连续和种类子段,能够清晰的显示哪些子段比较重要。 对连续性的字段比较难预测,对有时间顺序的数据,需要很多预处理工作,当 类别太多时,错误可能增加的比较快。一般的算法分类时,只是根据以各字段来分 类。 2.5.2 贝叶斯分类 1)贝叶斯分类 贝叶斯分类是统计学分类方法,基于后验概率的贝叶斯定理。它可以预测类成 年龄? 学生? 是 利率 否 是 否 是 40 31-40 p(cj|x)对于所有的j成立(1jm,ji)即p(ci|x)最大。 (3)根据贝叶斯定理得知 p(ci|x)=p(x|ci)p(ci)/p(x) (2-4) p(x)对于所有类为常数, 因此只需p(x|ci)p(ci)取最大即可, 类的先验概率p(ci) 由p(ci)=si/s估算,si为训练样本中属于类ci的样本数,s为全部训练样本的样本数。 p(x|ci)p(x1|ci)p(x2|ci).p(xn|ci) (2-5) (4)对未知样本x分类,对每个类ci,计算p(x|ci)p(ci)。 样本x被指派到类ci,当且仅当p(x|ci)p(ci) p(x|ci)p(ci), (1jm,ji) 即x被指派到其p(x|ci)p(ci)最大的类ci。 朴素贝叶斯学习模型将训练实例i分解成特征向量x和决策类别变量c。朴素 贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的,也就是说各分 量独立地作用于决策变量。尽管这一假定一定程度上限制了朴素贝叶斯模型的适用 范围,然而在实际应用中,不仅以指数级的降低了贝叶斯网络构建的复杂性,而且 在许多领域在违背这种假定的条件下,朴素贝叶斯也表现出相当的健壮性和高效 性,它己经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。 朴素贝叶斯分类器存在的问题是需要一个很强的属性之间条件独立性的假设, 而这个假设在许多问题中并不成立。如果在这些问题中忽视这一点,可能会引起分 类的误差。 2.5.3 k-最临近分类 18 最临近分类基于类比学习。训练样本用n维数值属性描述。每个样本代表n维 空间的一个点。这样,所有的训练样本都存放在n维模式空间中。给定一个未知样 本,k-最临近分类法搜索模式空间,找出最接近未知样本的k个训练样本。这k个 内蒙古工业大学硕士学位论文 16 训练样本是未知样本的k个“近邻” 。 “临近性”用欧几里德距离定义,其中两个点 x = (x1,x2 ,. . ., xn)和y = (y1 ,y2 ,. . ., yn)的欧几里德距离是: = = n i ii yxyxd 1 2 )(),( (2-6) 未知样本被分配到k个最临近者中最公共的类。该算法只对实数集有效,如果 数据集里有分类型属性,要么将属性丢弃,要么将该属性值转换成等价数值。 2.5.4 粗糙集方法 粗糙集理论可以用于分类,发现不准确数据或噪声数据内在的结构联系。它用 于离散值属性。因此,连续值属性必须在处理前离散化。 粗糙集理论基于给定训练数据内部的等价类的建立。形成等价类的所有数据样 本是不加区分的, 即对于描述数据的属性, 这些样本是等价的。 给定现实世界数据, 通常有些类不能被可用的属性区分。 粗糙集可以用来近似或 “粗略地” 定义这种类。 给定类c的粗糙集定义用两个集合近似:c的下近似和c的上近似。c的下近似由 一些这样的数据样本组成,根据关于属性的知识,它们毫无疑问属于c。c的上近 似由所有这样的样本组成,根据关于属性的知识,它们可能被认为不属于c。 粗糙集分类的大致步骤为 22: 1)对信息表中条件属性进行逐列考察。除去该列后,若产生冲突记录,则保 留冲突记录的原该属性值;若未产生冲突但含有重复记录,则将重复记录的该属性 值用一种符号标出,对其他记录,将该属性值标为第二种符号。 2)删除可能产生的重复记录,并考察每条含有标记第二种符号的记录,若仅 由未被标记的属性值即可判断出决策,则将第二种符号标记为第一种符号,否则, 修改为原属性值;若某条记录的所有条件属性均被标记,则将标有第二种符号的属 性项修改为原属性值。 3)删除所有条件属性均被标为第一种符号的记录及可能产生的重复记录。 4)如果两条记录仅有一个条件属性值不同,且其中一条记录该属性被标为第 一种符号,那么,对该记录如果可由未被标记的属性值判断出决策,则删除另外一 条记录。 简化后的决策表是一个不完全的决策表,它仅包含那些在决策时所必须的条件 属性值。即所有属性值均为该表的核值,所有记录均为信息表的规则。 第 2 章 客户关系管理及客户分类方法 17 粗糙集也可以用于特征归约(识别和删除无助于给定训练数据类的属性)和相 关分析(根据分类任务评估每个属性的贡献或意义)。 然而,业已提出了一些降低计算强度的算法。例如,有一种方法使用分辨矩阵 c存放每对数据样本属性值之间的差别。 不是在整个训练集上搜索, 而是搜索矩阵, 检测冗余属性。 2.5.5 bp 神经网络方法 神经网络建立在有自学习能力的数学模型基础上,可以对大量复杂的数据进行 分析,并完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络 的典型应用是建立分类模型。 神经网络将每一个连接看作一个处理单元(pe),试图模拟人脑神经元的功能。 神经网络从经验中学习,常用于发现一组输入数据和一个结果之间的未知联系。同 其它方法一样,神经网络首先检测数据中存在的模式,再对从数据中发现的关系进 行概括,然后给出预测结果。神经网络由于能对复杂过程进行预测而受到了特别的 关注。 处理单元(pe)采用一系列数学函数,通过汇总和转换对数据进行处理。一个处 理单元的功能有限,但若干个处理单元连接起来形成系统后,就可以创建一个智能 模型。处理单元可以以许多种不同的方式互连,为了更精确地拟合需要为之建立模 型的数据,它们可被反复训练若干次,成百次,甚至上千次。 处理单元(pe)要和输入/输出单元连接起来。在网络训练过程中,需对输入单 元和输出单元之间的连接强度(即权值)进行修改。某一个连接强度的提高或减弱根 据它对产生某一个结果的重要性进行的。连接强度依赖于在反复训练过程中赋予它 的权值。训练过程采用一种称为学习规则的数学方法调节权值。 神经网络的训练是根据历史样本数据反复进行的。训练过程中,处理单元对数 据进行汇总和转换,它们之间的连接被赋以不同的权值。也就是说,为了对每一个 样本的结果变量进行预测,一个网络要尝试各种不同的方案。 当输出结果在指定的精度级别上与己知结果吻合,或满足其它的结束准则时, 网络的训练就不再进行。 前馈网络反向传播(bp)算法是一个用于前馈网络的典型的学习算法。在此神经 网络中,每一个处理单元都接受许多的输入,而只产生一个输出,该输出是所有输 内蒙古工业大学硕士学位论文 18 入权值和的非线性函数。 赋给每一输入的权值是在训练过程(通常采用反向传播或共 扼梯度法)中通过将网络输出和目标结果进行比较得到的。 将你想要网络产生的结果 和网络输出的结果进行比较,它们之间的差额即可用于调整权值。 为了提高模型的精度需要反复调节连接权值。隐层结点与权值的调节过程密切 相关。隐层结点的数量也可以调节,而且,事实上也可以有多个隐含结点。输入层、 隐层和输出层结点的数量以及连接这些结点的权值的调节算法决定了神经网络的 复杂性。一般说来,需要在神经网络复杂性、精确度和建立神经网络模型所花费的 时间之间进行综合考虑。由于隐层结点数量和连接权值对神经网络来说是至关重要 的,所以有许多方法可用于确定合适的隐层结点数量和调节权值。 bp神经网络的分类步骤如下: 1)训练样本、网络结构及控制参数的确定 (1)训练样本的确定 我们把经过粗糙集约简后的数据表作为训练数据。 (2)网络结构的确定 应用简化后的决策表进行分类时,输入层节点数目选择为特征向量数。 输出层结点数目为类别个数,即对客户分类的类别数。 隐含层数目及结点数目一般依据经验选取,尚无具体的理论指导。 (3)网络初始权值、控制参数的确定 网络的初始权值矩阵一般由计算机的随机l函数产生。 控制参数则包括最大循 环次数为、分类要求精度、学习因子等,一般依据经验选取。 2)网络训练 在以上工作的基础上,利用训练样本,按s学习规则,对网络进行训练,训练 过程如下: (1)输入样本,计算隐含层、输出层的输出值以及输出误差; (2)更新网络权值阈值,按新的权计算各层输出值和总误差。若满足误差要 求,停止训练,转入具体分类,否则返回第1步,自到输出满足误差要求;若循环 已超过最大循环次数,表明学习没有达到预期设想,停止训练,可重新设置网络结 构及控制参数等,再返回第(1)步进行训练。 3)分类阶段 根据在学习阶段中所积累到的网络各层权系数矩阵,依次对数据集中的各个实 例进行计算,根据输出结果与每类期望值的对比,将数据分类。 第 2 章 客户关系管理及客户分类方法 19 神经网络的最大优点是它能精确地对复杂问题进行预测。r. apsotolo-paul在其 资本市场的神经网络一书中详细说明了神经网络在金融机构已得到了普遍深入 的应用。 如今神经网络已用于许多应用。ibm,sas,spss,hnc,angoss,rightpoint, thinking machines和neovista是一些神经网络产品的供应商。hnc的神经网络产 品falcon用于金融市场的欺诈甄别,全美国的信用卡有相当一部分都用falcon分 析过。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年农业农村部食物与营养发展研究所期刊与传媒中心招聘真题
- 2025年重庆云开高速公路有限公司招聘真题
- 2025年凉山州西昌市人民医院招聘真题
- 《数控加工编程与操作2》课件-3.3.2曲面复制、修剪、偏移
- 2026福建三明市公安局沙县分局招聘警务辅助人员29人笔试备考题库及答案解析
- 2026北京大学医学部总务处饮食服务中心采购岗职员招聘1人考试参考题库及答案解析
- 2026年巴音郭楞蒙古市水利系统事业单位人员招聘考试备考试题及答案详解
- 2026年滨州市车辆管理系统事业单位人员招聘考试备考试题及答案详解
- 2026安徽工程大学设计学院专任教师招聘考试备考题库及答案解析
- 2026年全国防灾减灾日之防洪防汛应急知识培训课件
- 2026年少先队考核模拟试题及答案详解(全优)
- 湖南 2026 政府采购评审专家续聘考试(3) 真题
- 2026天津富凯建设集团有限公司招聘工作人员招聘4人考试参考题库及答案解析
- 2026年pcb维修主管测试题及答案
- 2025年芯片测试岗笔试题目及答案
- 2026年无人机植保技术考试题库及答案
- 预应力混凝土空心方桩08SG360
- 2026-2030中国摩洛哥坚果油行业市场发展分析及竞争格局与投资前景研究报告
- 电梯施工临时用电安全方案
- 亚克力生产车间安全讲解
- 银川市、石嘴山市、吴忠市三市2026年高三年级学科教学质量检测 政治+答案
评论
0/150
提交评论