银行业CRM软件技术_第1页
银行业CRM软件技术_第2页
银行业CRM软件技术_第3页
银行业CRM软件技术_第4页
银行业CRM软件技术_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、银行业CRM软件技术本章对涉及建设银行CRM系统的核心软件技术进行慨要讲解,并对一些功能进行了比较分析,有助于银行进行软件选型。XML技术 XML技术作为互联网的种子技术是建设CRM的一个重要支撑技术。XML介绍 XML是Extensible Markup Language的简称,即“可扩展标记语言”,是由 W3C组织于1998年 2月制定的一种通用语言规范,是专为Web应用而设计的 SGML 2 (Standard Generalized Markup Language)的一个优化子集。同SGML类似, XML是一种元标记语言,使用者可按需创建新的标记, XML的可扩展性就在于此。这些标记通

2、过 XML DTD(Document Type Defi n ition,文挡类型定义)来加以定义。DTD是一系列关于元素类型(Element Type),属性(Attributes), 实体(Entities)和符号(Notations)的定义。它定义了文档所需的标记,比如可在文档里使用的元素类型,这些元素之间的可能的联系,还可能声明元素的属性,属性是元素的“元数据”,而不是元素包含的内容。另外,一个实体就像是一个缩写,被当做一些文本或一些数据的缩写来使用。而符号描述某一类事物(例如图像)的数据内容,它定义怎样翻译某类对像的比特流。XML文档可以在它的文档类型声明(Document Type

3、 Oeclaration)里声明该文档遵循某个XMLDTD。XML语法 XML文档的组成 XML文档包含由XML标记和字符数据组成的文本。它是一个有固定长度的有序字节的集合,并遵守特定的约束。它可能是或者不是一个文件。例如,XML文档可能。存储在数据库中由CGI程序在内存中瞬间创建由几个相互嵌套的不同文件组合而成不存在于自身的文件中但是如果把一个XML文档看做一个文件也是可以的,只要记住它可能并不是存在于硬盘上的真实文件。XML由称为“实体”的存储单元组成,每个实体包含文本或者二进制数据,但不能同时存在。文本数据由字符组成,二进制数据用于图片和小程序等类内容。用一个具体的示例说明就是,一个含有

4、标记的原始HTML文件是一个实体而不是文挡。一个HTM文件加上所有使用标记嵌入的图片就组成一个文档。在本章和后续几章中我们只针对由一个实体构成的简单的XML文档,即文档本身。而且这些文档只包含文本数据,不包含诸如图片小程序一类的二进制数据。这些文档能够完全独立被, 理解而无须读取其他文件。换句话说,它们是独立存在的。这种文档通常在它的XML标头中含有一个值为yes的standalone属性,如下所示。? xml version =“1.0” standalone=“yes”? 外部实体和实体引用用于组合多个文件和其他数据源以创建一个独立的XML文挡。这样的文挡如果不引用其他文件就不能进行句法分

5、析。这些文档通常在XML声明中含有一个属性值为no的standalone属性。? xml version =“1.0” standalone=“no”? 实体引用实体引用是指分析文档时会被字符数据取代的置标。XML预先定义了5个实体引用,列在表 6-1中。实体引用用于XML文档中的特殊字符,否则这些字符将被解释为置标的组成部分。例如,实体引用<;代表小于号(),否则会被解释为一个标记的起始部分。表 6-1 XML预定义的实体引用实体引用所代表字符&;<;";“&qpos;XML中的实体引用与 HTML中不同,必须以一个分号结束。因此 >;是正确的实体引用写法, >

6、是不正确的。未经处理的小予号()同表示“和”的符号(&)在一般的 XML文本中往往被分别解释为起始标记和实体引用(特殊文本是指 CDATA段,将在后面讨论)。因此,小于号同“和”号必须分别编码为 <;和 &;。例如,短语“Ben & erry s New York Super Fudge Chunk Ice Cream”应当写成 Ben &;erry s New York Super Fudge Chunk Ice Cream。大于号、双引号和撇号在它们可能会被解释成为置标的一部分时也必须编码。但是,养成全部编码的习惯要比努力推测一个特定的应用是否会被解释为置标容易得多。实体引

7、用也能用于属性值中。例如。 CDATA 在大多数情况下,出现在一对尖括号()中的是置标,不在尖括号中的是字符数据。但是有一种情况例外,在 CDATA段中所有文本都是纯字符数据。看起来与标记或者实体相似的仅仅是它们各自相应的文本。XML处理器无论如何是不会解释它们的。CDATA段用于需要把整个文本解释为纯字符数据而并不是置标的情况。当有一个包含许多、&或”字符而非置标的庞大文本时,这是非常有用的。对于大部分C和Java源代码,正是这种情况。如果想使用 XML写有关 XML的简介, CDATA段同样非常有效。例如,在一个文本中包含许多小的 XML代码块,而正在使用的字处理器又不能顾及这些情况。但是

8、如果把本书转换为 XML,用户将不得不很辛苦地用 <;代替全部小于号, &;代替所有“和”字符。如下所示。<;?xml version = “1.0” standalone = “yes”? >;<;GREETING>;Hello XML! <;/ GREETING>;为了避免这种麻烦,可以使用一个CDATA段表示一个不需要翻译的文本块。CDATA段以结束,例如。! CDATA “ Hello XML! 惟一不许出现在CDATA段中的文本是CDATA的结束界定符 。注释可能会出现在CDATA段中,但不再扮演注释的角色。也就是说两个注释标记和包含在它们之间的全部

9、文本都将显示出来。因为不能出现在CDATA段中,所以CDATA段不能嵌套。这使得使用XML写有关的CDATA段相对困难些。如果需要的话,必须去掉项目符号,并使用 <;、&;和实体引用。CDATA段不常需要,一旦需要时,它是非常有用的。标己标记能够区分XML文件与无格式文本文件。标记在XML文档中以结束,而且不包含在注释或者CDATA段中。因此, XML标记有与HTML标记相同的形式。开始或打开标记?1t;开始,后面跟有标记名。终止或结束标记以该标记结束。1.标记名每个标记都有一个名称。标记名必须以字母或下划线 C)开始,名称中后续字符可以包含字母、数字、下划线、连字符和句号。其中不能

10、含有空格(经常用下划线替代空格)。下面是一些合法的XML标记。 以下是句法不正确的XML标记。 结束标记与起始标记同名,只是在起始尖括号后加了一个/。例如,如果起始标记是,那么结束标记是。下面是前面所提到的合法起始标记所对应的结束标记。 XML名称是大小写敏感的。在HTML中的和是同一个标记,可以结束一个标记,但在XML中却不行。下面所示的并不是我们讨论过的合法起始标记所对应的结束标记。 2.空标记许多不含数据的HTML标记没有结束标记。例如,有、或标记。一些页面作者在所列的项目后面确实会包含标记,一些HTML工具也使用标记。但是HTML4.0标准特别否认了这一点的必要性。同HTML中所有没有

11、被公认的标记一样,一个不必要的的出现对交付的输出没有任何影响。这在XML中不是问题。XML的总体观点就是在分析文档时允许发现新的标记。因此没有识别的标记就不会被简单地忽略。而且XML处理器一定能够判明以前从没出现过的一个标记有没有结束标记。XML区分带有结束标记的标记,而不带结束标记的标记称为空标记。空标记以斜杠和一个结束尖括号(/)结束。例如,或。目前的Web浏览器处理这种标记的方法不一致,如果希望保持向后的兼容性,可以用结束标记来代替,只要在两个标记之间不包含任何文本。例如。 属性在前面内容中讨论过,起始标记和空标记可以随意地包含属性。属性是用等号(=)分隔开的名称一数值对。例如。Hell

12、o XML!在此标记有一个LANGUAGE属性,其属性值是English。标记有一个SRC属性,其属性值为WavingHand.mov。1.属性名属性名是宇符串,遵循与标记名同样的规则。这就是,属性名必须以字母或下划线(_)开始,名称中后续字符可以包含字母、数字、下划线、连字符和句号。其中不能含有空格(经常用下划线替代空格)。同一个标记不能有两个同名的属性。例如,下面的例子是不合法的。 属性名是区分大小写的。SIDE属性与side或Side属性不是同一个属性,因此以下例子是合法的。 2.属性值属性值也是字符串。如下面所示的 LENGTH属性,即使字符串表示的是一个数,但还是两个宇符7和2,不是

13、十进制数的72。 如果编写处理XML的代码,在对字符串执行算术运算之前必须把它们转换为一个数。与属性名不同,对属性值包含的内容没有任何限制。属性值可以包含空格,可以以一个数字或任何标点符号(有时单括号和双括号除外)开头。XML 属性值由引号界定。与HTML 属性不同, XML 属性值必须加引号。大多数情况下使用双引号,但是如果属性值本身含有个引号,就需要使用单引号。例如:如果属性值中含有两种引号,那么其中不用于界定字符串的一个必须用合适的实体引用代替。通常替换两个,这种方法很管用。例如:XML 文档规则尽管可以根据需要编写标记,但XML 文档为了保持结构完整必须遵循定的规则。如果一个文挡不是结

14、构完整的,大部分读取和显示操作都会失败。事实上,XML规范严格禁止XML句法分析器分析和解释结构欠妥的文档。正在执行操作的分析器惟能做的是报告出错。它不会修改错误,不会做最大的努力显示作者想要的东西,也不会忽略不当的结构欠妥的标记。它所能做的是报告错误和退出。这样做的目的是为了避免对错误的兼容性的竞争。这种竞争已使得编写HTML 语法分析程序和显示程序变得非常困难。因为We浏览器承认畸形的HTML,而Web页面设计者不会特别尽力确保他们的HTML正确无误。事实上,他们甚至利用个别浏览器中的错误达到特殊的效果。为了正确显示被大量安装的HTML页面,每个新的 Web浏览器必须支持已有的 Web浏览

15、器的每一个细微差别和各自的属性。用户将放弃任何一种严格执行 HTML标准的浏览器。正是为了避免这种遗憾,XML处理器才只接受结构完整的XML。为了使一个文档结构完整,XML文档中的所有置标和字符数据必须遵守前几节中给出的规则。而且有几条关于如何把置标和字符数据相互联系起来的规则。这些规则总结如下:(1)文挡的开始必须是XML声明。(2)含有数据的元素必须有起始标记和结束标记。(3)不含数据并且仅使用一个标记的元素必须以/结束。(4)文档只能包含一个能够包含全部其他元素的元素。(5)元素只能嵌套不能重叠。(6)属性值必须加引号。(7)字符和&只能用于起始标记和实体引用。(8)出现的实体引用只有&

16、amp;、<;、>;、&apos;和";。这 8条规则稍加调整就能适用于含有一个DTD的文档,现在请仔细看这些用于没有 DTD文挡的规则。1文档必须以 XML声明开始下面是 XML1.0中独立文档的 XML声明。如果声明出现,它绝对是该文件最开头部分,因为 XML处理器会读取文件最先的几个字节并将它与字符串? XML的不同编码做比较来确定正在使用的字符串集( UTF-8、大头(高字节先传格式)或者小头(低字节先传格式 )。除去看不见的字节顺序记号,在它之前不能有任何东西,包括空格。例如,下面一行用于 XML的开始是不能接受的,因为在该行的前面有多余的空白。 XML确实允许完全省

17、略 XML声明。通常不推荐这样做,但这样做有特殊的用途。例如,省略 XML声明,通过连接其他结构完整的XML文档有助于重新建立一个结构完整的 XML文档。2.在非空标记中使用起始和结束标记如果忘了结束 HTML的标记,Web浏览器并不严格追究。例如,如果文档包含一个标记却没有相应的 标记,在标记之后的全部文档将变为粗体。但文档仍然能显示。XML不会如此宽松,每个起始标记必须以相应的结束标记结束。如果一个文档未能结束一个标记,浏览器或移交器将报告一个错误信息,并且不会以任何形式显示任何文档的内容。3.用”/“结束空标记不包含数据的标记,例如 HTML的、和,不需要结束标记。但是 XML空标记必须

18、由 /结束,而不是。例如、和的XML等价物是、和。当前的 Web浏览器处理这种标记的方法不一致。但是如果想保持向后的兼容性,可以使用结束标记来代替,而且不能在其间包含任何文本。例如。 即使这样,Netscape处理 也有困难(它把这两个标记解释为行间距,而不是前面所讲的)。因此,在HTML中包含结构完整的空标记也并非总是可行的。4.让一个元素完全包含其他所有元素一个 XML文档包含一个根元素,它完全包含了文档中其他所有元素。有时候这种元素被称做文档元素。假设根元素是非空的(通常都是如此),它肯定有起始标记和结束标记。这些标记可能使用但不是必须使用root或DOCUMENT命名。例如,在下面的文

19、档中根元素是 GREETING: Hello XML! XML声明不是一个元素,它更像是一个处理指令,因此不必包含在根元素中。类似地,在一个 XML文档中的其他非元素数据,诸如其他处理指令、DTD和注释也不必包含在根元素中。但是所有实际的元素(除根元素本身)必须包含在根元素中。5.不能重叠元素元素可以包含别的元素(大多数情况下),但是元素不能重叠。事实上是指,如果一个元素含有一个起始标记,则必须同时含有相应的结束标记。同样,一个元素不能只含有一个结束标记而没有相应的起始标记。例如,下面的 XML是允许的: n =n +1; 下面所示的 XML是非法的,因为结束标记 放在了结束标记之前。 n =

20、 n +1; 大部分HTML浏览器容易处理这种情况,但是XML浏览器会因为这种结构而报告出错。空标记可随处出现。例如。 Oscar WildeJoe Orton 本规则与规则 4联系在一起有如下含义 :对于所有非根元素,只能有一个元素包含某一非根元素,但是元素不能包含其中含有非根元素的元素。这个直接含有者称为非根元素的父元素,非根元素被认为是父元素的子元素。因此,每个非根元素只有一个父元素。但是一个单独的元素可以有任意数目的子元素或不含有子元素。请分析如下所示的清单。根元素是 DOCUMENT元素,它含有两个元素。第一个 STATE元素含有 4个子元素。NAME、TREE、FLOWER和 CA

21、PITOL。第二个 STATE元素含有 3个子元素。NAME、TREE和 CAPITOL。这些里层的子元素只包含字符数据,没有子元素。父元素和子元素 Louisiana Bald Cypress Magnolia Baton Rouge Mississippi Magnolia Jackson 6.属性值必须加引号 XML要求所有的属性值必须加引号,不管属性值是否包括空白。例如。HTML的要求则不是这样。比如,HTML允许标记含有不带引号的属性。例如,下面是一个合法的HTML标记。 惟一的要求是属性值不能嵌有空格。如果一个属性值本身含有双引号,可以使用属性值加单引号来代替。例如。如果一个属性值

22、包含有单引号和双引号,可以使用实体引用 &apos;代替单引号,";代替双引号。例如。7只在开始标记和实体引用中使用和&XML假定最先的是一个标记的开始,&是一个实体引用的开始(HTML也是如此,如果省略它们,大部分浏览器会假定有一个分号)。例如。 A Homage to Ben &Jerry sNew York Super Fudge Chunk Ice Cream Web浏览器会正确地显示该标记,但是为了最大限度的安全,应当避免使用&,用 &;来代替,像下面这样。 A Homage to Ben &;Jerry s New York Super Fudge Chunk

23、Ice Cream 开尖括号()的情况也类似。请看下面很普通的一行 Java代码。 for(int i = 0;i = args.length;i + +)1XML与 HTML都会把。因此该行会表示成。for(int i = 0;而不是。for(int i =0;i =args.ength;i+ +)“= args.length;i + +)|”被解释成一个不能识别的标记的一部分。把小于号写成 <;可以出现在 XML和 HTML文本中。例如。 for(int i = 0;i <;= args.length;i + +)| 结构完整的XML要求把&写成&;,把B,A称为前提和左部(

24、LHS),B称为后续或右部(RHS)。如关联规则“买锤子的人也会买钉子”,左部是“买锤子”,右部是“买钉子”。要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联(“锤子和钉子”)在数据库中出现的频率称为支持度。比如在总共1000个事务中有15个事务同时包含了“锤子和钉子”,则此关联的支持度为1.5 %。非常低的支持度(比如1百万个事务中只有一个)可能意味着此关联不是很重要,或出现了错误数据(如,“男性和怀孕”)。要找到有意义的规则,还要考察规则中项及其组合出现的相对频率。当己有A时, B发生的概率是多少?也即概率论中的条件概率。回到我们的例子,也就是

25、问“当一个人已经买了锤子,那他有多大的可能也会买钉子?”这个条件概率在数据挖掘中也称为可信度,计算方法是求百分比:(A与B同时出现的频率)/(A出现的频率)。预测型数据挖据数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的模型。建立这个模型可能需要各种各样的源数据,包括交易记录、顾客历史数据、人口统计信息、进程控制数据和市场相关的外部数据等,比如:信用卡公司提供的数据、天气数据等。模型是模式和数据间相关性的形式化描述。为了防止混淆,把数据挖掘概念划分为几个层次。(1)商业目标;(2)预言的种类;(3)模型的类型;(4)算法;(5)产品。最高层是商业目标:数据挖掘的最

26、终目的是什么 ?比如:希望用数据挖掘技术留住用户的有价值的客户,用户可能先要建立一个模型来预测每个客户所能带来的利润,然后再建立一个模型来确定哪些客户可能会离开。充分了解用户所在企业的需求和目标有助于用户建立这样的目标。下一步是决定最合适的预言的种类。分类:预测一个特定的客户或事件属于哪一类;回归( regression):预测一个变量的值(如果此变量随事件变化,可成为时间序列预测)。在上面的例子中用户可以用回归来预测利润的大小,用分类预测哪些客户会离开。后面我们会详细讨论。现在用户可以选择模型的类型:用神经网络来做回归,决策树做分类,还是用统计模型,如:逻辑回归,偏差分析,普通线性模型等。每

27、种模型都可以用不同的算法来实现,比如,可以用回馈函数或 radial basis函数来建立神经网络;决策树有巳ART,C5.0, QUEST, CHAID等。在选择数据挖掘软件产品时,要注意这些软件所采用的算法虽然名称可能完全一样,但他们的实现方法通常都是不一样的。这些对算法的不同实现影响了软件对内存、硬盘的需求的不同及性能上的差异。大部分的商业目标都可以用各种不同的模型及相异的算法来解决。通常在用户还没有试过任何数据挖掘算法之前,很难决定哪种对用户来说是最好的。1.一些术语在预测模型中,把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量 ;用于预测的输入变量是预测变量或独立变量。一些

28、预测模型是通过那些已知目标变量值的历史数据训练出来的。这种训练有时也称为带指导的学习,因为是通过给出一些已知答案的问题(已知结果的数据)来让他“学习”。相对应地,还有不带指导的学习,如上面提到的描述型数据挖掘(在运行之前,算法对数据一无所知)。2.分类分类要解决的问题是为一个事件或对像归类。在使用上,既可以用此模型分析己有的数据,也可以用它来预测未来的数据。例如,用分类来预测哪些客户最倾向于对直接邮件推销做出回应,又有哪些客户可能会换他的手机服务提供商,或在医疗领域当遇到一个病例时用分类来判断一下从哪些药品着手比较好。数据挖掘算法的工作方法是通过分析已知分类信息的历史数据总结出一个预测模型。这

29、里用于建立模型的数据称为训练集,通常是已经掌握的历史数据。如,已经不再接受服务的用户,用户很可能还保存了他们在接受服务时的历史记录。训练集也可以是通过实际的实验得到的数据。比如用户从包含公司所有顾客的数据库中取出一部分数据做实验,向他们发送介绍新产品的推销信,然后搜集对此做出回应的客户名单,然后用户就可以用这些推销回应记录建立一个预测哪些用户会对新产品感兴趣的模型,最后把这个模型应用到公司的所有客户上。3.回归回归是通过具有已知值的变量来预测其他变量的值。在最简单的情况下,回归采用的是像线性回归这样的标准统计技术。但在大多数现实世界中的问题是不能用简单的线性回归所能预测的。如商品的销售量、股票

30、价格、产品合格率等,很难找到简单有效的方法来预测,因为要描述这些事件的变化所需的变量以上百计,且这些变量本身往往都是非线性的。为此人们又发明了许多新的手段来试图解决这个问题,如逻辑回归、决策树、神经网络等。一般同一个模型既可用于回归也可用于分类。如CART决策树算法既可以用于建立分类树,也可建立回归树。神经网络也一样。4.时间序列时间序列是用变量过去的值来预测未来的值。与回归一样,它也是用已知的值来预测未来的值,只不过这些值的区别是变量所处时间的不同。时间序列采用的方法一般是在连续的时间流中截取一个时间窗口(一个时间段),窗口内的数据作为一个数据单元,然后让这个时间窗口在时间流上滑动,以获得建

31、立模型所需要的训练集。比如用户可以银行业CRM理论与实务用前6天的数据来预测第7天的值,这样就建立了一个区间大小为7的窗口。数据挖掘算法下面主要介绍在数据挖掘中最常见的和应用最广泛的算法:神经网络方法和决策树方法。其他的一些算法,例如 Bayesian方法,遗传算法,粗糙集算法等可以参照相应的文献。应注意的是大部分算法都不是专为解决某个问题而特制的,算法之间也并不互相排斥。不能说一个问题一定要采用某种算法,别的就不行。一般来说并不存在所谓的最好的算法,在最终决定选取哪种模型或算法之前,用户可能各种模型都试一下,然后再选取一个较好的。神经网络神经网络近来越来越受到人们的关注,因为它为解决大复杂度

32、问题提供了一种相对来说比较有效的简单方法。神经网络可以很容易地解决具有上百个参数的问题(当然实际生物体中存在的神经网络要比我们这里所说的程序模拟的神经网络要复杂得多)。神经网络常用于两类问题:分类和回归。图4-9 一个神经元网络在结构上,可以把一个神经网络划分为输入层、输出隐含层层和隐含层(见图 4-9)。输入层的每个节点对应一个个的图 4-9一个神经元网络预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度。除了输入层的节点,神经网络的每个节点都与很多它前面的节点(称为此节点的输入节点)连

33、接在一起,每个连接对应一个权重Wxy,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到的,我们把这个函数称为活动函数或挤压函数。如图 4-10中节点 4输出到节点 6的值可通过如下计算得到。W14 X节 J点1的值+W24 X节点 2的值图4-10 权重计算神经网络的每个节点都可表示成预测变量图4-10权重计算(节点1,2)的值或值的组合(节点3-6)。注意节点6的值已经不再是节点1,2的线性组合,因为数据在隐含层中传递时使用了活动函数。实际上如果没有活动函数的话,神经元网络就等价于一个线性回归函数,如果此活动函数是某种特定的非线性函数,那么神经网络又等价于逻

34、辑回归。调整节点间连接的权重就是在建立(也称训练)神经网络时要做的工作。最早的也是最基本的权重调整方法是错误回馈法,现在较新的有变化坡度法、类牛顿法、Leven-berg-Marquardt法和遗传算法等。无论采用哪种训练方法,都需要有一些参数来控制训练的过程,如防止训练过度和控制训练的速度。决定神经网络拓扑结构(或体系结构)的是隐含层及其所含节点的个数,以及节点之间的连接方式。要从头开始设计一个神经网络,必须要决定隐含层和节点的数目,活动函数的形式,以及对权重做那些限制等,当然如果采用成熟软件工具的话,它会帮你决定这些事情。在诸多类型的神经网络中,最常用的是前向传播式神经网络,也就是如图 4

35、-10中所描绘的那种。为讨论方便假定只含有一层隐含节点。可以认为错误回馈式训练法是变化坡度法的简化,其过程如下。前向传播:数据从输入到输出的过程是一个从前向后的传播过程,后一节点的值通过它前面相连的节点传过来,然后把值按照各个连接权重的大小加权输入活动函数再得到新的值,进一步传播到下一个节点。回馈:当节点的输出值与预期的值不同时,也就是发生错误时,神经网络就要“学习”(从错误中学习)。可以把节点间连接的权重看成后一节点对前一节点的“信任”程度(它自己向下一节点的输出更容易它前面哪个节点输入的影响)。学习的方法是采用惩罚的方法,过程如下:如果一节点输出发生错误,那么它看它的错误是受哪个(些)输入

36、节点的影响而造成的,是不是它最信任的节点(权重最高的节点)陆害了它(使它出错),如果是则要降低它的信任值(降低权重),惩罚它们,同时升高那些做出正确建议节点的信任值。对那些收到惩罚的节点来说,它也需要用同样的方法来进一步惩罚它前面的节点。就这样把惩罚一步步向前传播直到输入节点为止。对训练集中的每一条记录都要重复这个步骤,用前向传播得到输出值,如果发生错误,则用回馈法进行学习。当把训练集中的每一条记录都运行过一遍之后,称完成一个训练周期。要完成神经网络的训练可能需要很多个训练周期,经常是几百个。训练完成之后得到的神经网络就是在通过训练集发现的模型,描述了训练集中响应变量受预测变量影响的变化规律。

37、决策树决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,图 4-11是为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。图 4-11一棵简单的决策树决策树中最上面的节点称为根节点,是整个决策树的开始。本例中根节点是“收入¥40000”,对此问题的不同回答产生了“是”和“否”两个分支。决策树的每个节点子节点的个数与决策树所用的算法有关。如 CART算法得到的决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。每个分支要么是一个新的决策节点,要么是树的结尾,

38、称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。假如负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝哪些贷款,那么他就可以用贷款申请表来运行这棵决策树,用决策树来判断风险的大小。“年收入¥40000”和“高负债”的用户被认为是“高风险”,同时“收入5年”的申请,则被认为“低风险”而建议贷款给他/她。数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来做预

39、测(就像上面的银行官员用它来预测贷款风险)。常用的算法有 CHAID、CART、Quest和 C5.0。数据挖掘过程在实施数据挖掘之前,先制定采取什么样的步骤,每一步都做什么,达到什么样的目标是必要的,有了好的计划才能保证数据挖掘有条不紊地实施并取得成功。很多软件供应商和数据挖掘顾问公司提供了一些数据挖掘过程模型,来指导他们的用户一步步地进行数据挖掘工作。CRISP-DM(Cross Industry Standard Process for Data Mining)是数据挖掘界公认的规范标准,是由SPSS、NCR、DaimlerChrysler等世界知名公司根据其实际经验与理论基础共同设计的

40、数据挖掘流程。它以企业(组织)所面临的问题为出发点,以能实际解决企业(组织)的问题并找出新的商机为终极目标,所以CRISP-DM就是以数据为主轴,不断地寻找并有效地发掘出隐藏模式(Hidden Pattern)以及其内涵的整体流程。换言之,如何能在大量数据中不断地寻找出其宝藏即是CRISP-DM的精髓所在,如图 4-12所示。图 4-12 CRISP-DM方法一个数据挖掘项目的生命周期包括6个阶段,上图显示了该流程的各个阶段,包括商业理解、数据理解、数据准备、建立模型、模型评估、模型发布,各个阶段的顺序不是僵硬不变的,通常需要在不同阶段之间向前和向后移动,这取决于每个阶段的结果和接下来将要实施

41、的阶段或者一个阶段的具体任务。箭头指出了各个阶段间最为重要和频繁的关联。CRISP-DM通过这6个阶段来保证完成一个成功的数据挖掘流程。上图最外面的循环表示数据挖掘本身的循环特征。数据挖掘并非是一旦得到一个解决方案就结束了。在流程及解决方案中得到的教训可能引发新的、常常是更为集中的商业问题。后面的数据挖掘过程将从前几次的经验中获益。每个阶段的要点如下。 1.商业理解(Business understanding)这一初始阶段集中在从商业角度理解项目的目标和要求,然后把理解转化为数据挖掘问题,并制定出一个旨在实现目标的初步计划。2.数据理解(Data understanding)数据理解阶段开始

42、于原始数据的搜集,接下来进行的活动是熟悉数据、识别数据质量问题、探索对数据的第一认识,或挖掘有深层含义的数据子集来形成对隐藏信息的假设。3.数据准备(Data preparation)数据准备阶段包括所有从原始未加工的数据构造最终数据集的活动(这些数据集是指将要嵌入建模工具中的数据)。数据准备任务可能实施多次,而且不按任何规定的顺.序。这些任务包括表格、记录和属性选择以及对建模工具中数据的转换和清理。4.建立模型( Modeling)在此阶段,主要是选择各种建模技术,同时对它们的参数进行校准以达到最优值。通常对于同一个数据挖掘问题类型,会有多种方法。一些方法在数据形式上会有具体的要求。因此,常

43、常必须返回到数据准备阶段。5模型评估( Evaluation)进入项目中的这个阶段,你已经建立了一个模型(或者多个),从数据分析的角度来看,该模型似乎有很高的质量。在进行到模型的最后发布前,有一点是很重要的更为彻底地评估模型和检查建立模型的各个步骤,从而确定它完全地达到了商业目标。一个关键目标为决定是否存在一些重要的商业问题仍未得到充分地考虑。关于数据挖掘结果的使用决定应该在此阶段结束时确定下来。6.模型发布( Deployment)模型的创建通常并不是项目的结尾。即使模型的目的是增加对数据的了解,所获得的了解也需要进行组织并以一种客户能够使用的方式呈现。这常常包括在一个组织的决策过程中应用“

44、现场”模型,如在网页的实时个人化中或营销数据的重复得分中。不过,根据需要,发布过程可以简单到产生一个报告,也可以复杂到在整个企业中执行一个可重复的数据挖掘过程。在大部分情况下,是由客户来实施发布的,而非数据分析师本身。尽管如此,即使分析师并不执行发布,这对客户也是十分重要的提前理解需要采取什么行动来实际利用产生的模型。CRISP-DM有效管理商业问题处理的生命周期。如上图所示,生命周期的6个状态存在很强的相互依赖的关系,其中任何一个环节的质量关系着所有环节的成败。6个环节之间并无严格的顺序关系,可以根据需要从任何环节开始数据挖掘过程。深刻理解 CRISP-DM方法可以有助于用户更好地解决商业问

45、题。从提出一个粗糙的商业问题,历经若干个生命周期不断地完善它,并提供最佳的解决方案。数字证书技术数字证书技术提供了互联网通信的一种安全技术。数字证书介绍 数字证书就是互联网通信中标志通信各方身份信息的一系列数据,提供了一种在Internet上验证用户身份的方式,其作用类似于司机的驾驶执照或日常生活中的身份证。它是由一个由权威机构CA机构,又称为证书授权(Certificate Authority)中心发行的,人们可以在网上用它来识别对方的身份。数字证书是一个经证书授权中心数字签名的包含公开密钥拥有者信息以及公开密钥的文件。最简单的证书包含一个公开密钥、名称以及证书授权中心的数字签名。一般情况下

46、证书中还包括密钥的有效时间,发证机关(证书授权中心)的名称,该证书的序列号等信息,证书的格式遵循ITUT X.509国际标准。一个标准的X.509数字证书包含以下一些内容:(1)证书的序列号,每个证书都有一个惟一的证书序列号;(2)证书所使用的签名算法;(3)证书的发行机构名称,命名规则一般采用X.500格式;(4)证书的有效期,现在通用的证书一般采用UTC时间格式,它的计时范围为1950-2049;(5)证书所有人的名称,命名规则一般采用X.500格式;(6)证书所有人的公开密钥;(7)证书发行者对证书的签名。为什么要用数字证书基于因特网的电子商务系统技术使在网上购物的顾客能够极其方便轻松地

47、获得商家和企业的信息,但同时也增加了对某些敏感或有价值的数据被滥用的风险。买方和卖方对于在因特网上进行的一切金融交易运作必须是真实可靠的,并且要使顾客、商家和企业等交易各方都具有绝对的信心,因而因特网(因特网)电子商务系统必须保证具有十分可靠的安全保密技术,也就是说,必须保证网络安全的四大要素,即信息传输的保密性、数据交换的完整性、发送信息的不可否认性、交易者身份的确定性。信息的保密性交易中的商务信息均有保密的要求。如信用卡的账号和用户名被人知悉,就可能被盗用,订货和付款的信息被竞争对手获悉,就可能丧失商机。因此在电子商务的信息传播中一般均有加密的要求。交易者身份的确定性 网上交易的双方很可能

48、素昧平生,相隔千里。要使交易成功首先要能确认对方的身份,对商家要考虑客户端不能是骗子,而客户也会担心网上的商店是不是一个玩弄欺诈的黑店。因此能方便而可靠地确认对方身份是交易的前提。对于为顾客或用户开展服务的银行、信用卡公司和销售商店,为了做到安全、保密、可靠地开展服务活动,都要进行身份认证的工作。对有关的销售商店来说,他们对顾客所用的信用卡的号码是不知道的,商店只能把信用卡的确认工作完全交给银行来完成。银行和信用卡公司可以采用各种保密与识别方法,确认顾客的身份是否合法,同时还要防止发生拒付款问题以及确认订货和订货收据信息等。不可否认性.由于商情的千变万化,交易一旦达成是不能被否认的,否则必然会

49、损害一方的利益。例如订购黄金,订货时金价较低,但收到订单后,金价上涨了,如收单方能否认受到订单的实际时间,甚至否认收到订单的事实,则订货方就会蒙受损失。因此电子交易通信过程的各个环节都必须是不可否认的。不可修改性交易的文件是不可被修改的,如上例所举的订购黄金。供货单位在收到订单后,发现金价大幅上涨了,如其能改动文件内容,将订购数1吨改为1克,则可大幅受益,那么订货单位可能就会因此而蒙受损失。因此电子交易文件也要能做到不可修改,以保障交易的严肃和公正。人们在感叹电子商务的巨大潜力的同时,不得不冷静地思考,在人与人互不见面的因特网上进行交易和作业时,怎么才能保证交易的公正性和安全性,保证交易双方身

50、份的真实性。国际上已经有比较成熟的安全解决方案,那就是建立安全证书体系结构。数字安全证书提供了一种在网上验证身份的方式。安全证书体制主要采用了公开密钥体制,其他还包括对称密钥加密、数字签名、数字信封等技术。可以使用数字证书,通过运用对称和非对称密码体制等密码技术建立起一套严密的身份认证系统,从而保证:信息除发送方和接收方外不被其他人窃取;信息在传输过程中不被篡改;发送方能够通过数字证书来确认接收方的身份;发送方对于自己的信息不能抵赖。数字证书原理数字证书采用公钥体制,即利用一对互相匹配的密钥进行加密、解密。每个用户自己设定一把特定的仅为本人所知的私有密钥(私钥),用它进行解密和签名;同时设定一

51、把公共密钥(公钥)并由本人公开,为一组用户所共享,用于加密和验证签名。当发送一份保密文件时,发送方使用接收方的公钥对数据加密,而接收方则使用自己的私钥解密,这样信息就可以安全无误地到达目的地了。通过数字的手段保证加密过程是一个不可逆过程,即只有用私有密钥才能解密。在公开密钥密码体制中,常用的一种是RSA体制。其数学原理是将一个大数分解成两个质数的乘积,加密和解密用的是两个不同的密钥。即使已知明文、密文和加密密钥(公开密钥),想要推导出解密密钥(私密密钥),在计算上是不可能的。按现在的计算机技术水平,要破解目前采用的1024位RSA密钥,需要上千年的计算时间。公开密钥技术解决了密钥发布的管理问题

52、,商户可以公开其公开密钥,而保留其私有密钥。购物者可以用人人皆知的公开密钥对发送的信息进行加密,安全地传送给商户,然后由商户用自己的私有密钥进行解密。用户也可以采用自己的私钥对信息加以处理,由于密钥仅为本人所有,这样就产生了别人无法生成的文件,也就形成了数字签名。采用数字签名,能够确认以下两点:(1)保证信息是由签名者自己签名发送的,签名者不能否认或难以否认;(2)保证信息自签发后到收到为止未曾做过任何修改,签发的文件是真实文件。数字签名的具体做法是:(1)将报文按双方约定的HASH算法计算得到一个固定位数的报文摘要。在数学上保证,只要改动报文中任何一位,重新计算出的报文摘要值就会与原先的值不

53、相符。这样就保证了报文的不可更改性。(2)将该报交摘要值用发送者的私人密钥加密,然后连同原报文一起发送给接收者,而产生的报文即称数字签名。(3)接收方收到数字签名后,用同样的HASH算法对报文计算摘要值,然后与用发送者的公开密钥进行解密解开的报文摘要值相比较。如相等则说明报文确实来自所称的发送者。证书与证书授权中心CA 机构,又称为证书授证(Certificate Authority)中心,作为电子商务交易中受信任的第三方,承担公钥体系中公钥的合法性检验的责任。CA中心为每个使用公开密钥的用户发放一个数字证书,数字证书的作用是证明证书中列出的用户合法拥有证书中列出的公开密钥。CA机构的数字签名

54、使得攻击者不能伪造和篡改证书。它负责产生、分配并管理所有参与网上交易的个体所需的数字证书,因此是安全电子交易的核心环节。由此可见,建设证书授权(CA)中心,是开拓和规范电子商务市场必不可少的一步。为保证用户之间在网上传递信息的安全性、真实性、可靠性、完整性和不可抵赖性,不仅需要对用户的身份真实性进行验证,也需要有一个具有权威性、公正性、惟一性的机构,负责向电子商务的各个主体颁发并管理符合国内、国际安全电子交易协议标准的电子商务安全证书。附录资料:不需要的可以自行删除 CRM应用必知CRM应用必知之一:谁从CRM获益 越来越多的企业都在强调,客户是如此重要,客户关系管理(CRM, Custome

55、r Relationship Management)因此吸引了越来越多的注意力。探讨CRM这个话题,让我们从一个基本的问题开始:对于一个要应用CRM的企业来说,谁将从CRM受益?因为,这些受益者是CRM这个系统的“客户”,所以,对这个问题如果存在模糊认识,将对CRM应用的结果产生很大危害。在不同的场合,我们提到的CRM的获益对象则可能是如下的群体,他们都很富有“个性”: 消费者产品或者服务的最终消费者。往往是个人、或者一个家庭。 合作伙伴具体有两类,一类是买了你的产品/服务之后,会把它应用到自己的产品/服务中去,再销售给他自己的客户;还有一类是渠道伙伴/分销商/代理商,可能是个人也可能是公司,

56、他们在当地进行产品/服务的转手销售。 内部员工企业内部应用CRM的员工或部门,一般包括营销、销售、服务、管理部门等等。面对这样一个多样化的群体,企业应该如何建好CRM?让我们记住一个基本的原理:换位思考,为他们各自提供个性化的系统。 产品或服务的最终消费者。对于他们,CRM要做如下的重要事情:记住他们,更快捷向他们提供更多更好的产品和服务。具体来讲,为了达到这个目标,CRM系统可能需要提供下面的功能:客户数据库;市场活动管理(包括网上营销);产品和价格配置器;B2C网上订单和网上服务;呼叫中心;电话销售和营销;服务自动化;客户/业务数据记录和分析等。 B2B/渠道伙伴/分销商/代理商。对于他们

57、,CRM要做如下的重要事情:与他们结成联盟,利益和信息共享。具体来讲,为了达到这些目标,CRM系统可能要向他们提供如下的功能:产品和价格配置器;B2B网上订单;客户和产品信息、公司数据库、渠道活动信息;共享销售机会;销售管理工具和销售机会管理工具;呼叫中心。 内部“客户”。对于他们,CRM系统要做如下的重要事情:提高他们的工作效率、工作质量和工作效果,降低他们的工作强度,记录信息并提高信息共享程度。为了达到这些目标,具体来讲,CRM系统可能需要提供下面的功能:客户和联系人信息管理;时间管理;销售自动化管理;营销自动化管理;服务自动化管理;知识管理;呼叫中心;各种报表。结合上面的思考,经过对自身

58、需求的调查和分析,我们就可以对号入座,选择合适的CRM功能,并进而选择合适的CRM软件、供应商和服务商,踏上实现客户关系管理的旅程。CRM应用必知之二:CRM功能“心中有谱”by AMT 孟凡强CRM的具体产品有很多,功能也各有一定的特色。面对种种的DEMO演示,对于企业用户来说,很容易觉得眼花缭乱。这时,如果心里有张“谱”,自然会轻松很多。通过对国内外的CRM产品的调查和分析,我们把CRM软件提供的功能归集为10类,按照应用难度从小到大的大致顺序一并列示如下:1. 客户和联系人管理。主要功能有:客户和联系人基本信息;与此客户相关的基本活动和活动历史;订单的输入和跟踪;建议书和销售合同的生成;

59、跟踪同客户的联系,并可以把相关的文件作为附件;客户的内部机构的设置概况。2. 时间管理。主要功能有:日历;设计约会、活动计划;进行事件安排;备忘录;进行团队事件安排;把事件的安排通知相关的人;任务表;预告/提示;记事本;电子邮件;传真。3. 潜在客户/项目管理/销售管理。主要功能包括:业务线索的记录、升级和分配;销售机会的升级和分配;潜在客户的跟踪;各销售业务的阶段报告;对销售业务给出战术、策略上的支持;对地域进行维护,把销售员归入某一地域并授权;地域的重新设置;定制关于将要进行的活动、业务等方面的报告;销售秘诀和销售技能的共享;销售费用管理;销售佣金管理。4. 电话营销和电话销售。主要功能包

60、括:电话本;生成电话列表,并把它们与客户、联系人和业务建立关联;把电话号码分配到销售员;记录电话细节,并安排回电;电话营销内容草稿;电话录音,同时给出书写器,用户可作记录;电话统计和报告;自动拨号。5. 营销管理。主要功能包括:产品和价格配置器;营销百科全书;营销公告板,可张贴、查找、更新营销资料;跟踪特定事件;安排新事件;信函书写、批量邮件;邮件合并;生成标签和信封。6. 客户服务。主要功能包括:服务项目的快速录入;服务项目的安排、调度和重新分配;事件的升级;搜索和跟踪与某一业务相关的事件;生成事件报告;服务协议和合同;订单管理和跟踪;问题及其解决方法的数据库。7. 呼叫中心。主要功能包括:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论