




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第 1 章 银行业 CRM 软件技术本章对涉及建设银行 CRM 系统的核心软件技术进行慨要讲解,并对一些功能进行了比较分析,有助于银行进行软件选型。1.1 XML 技术 XML 技术作为互联网的种子技术是建设 CRM 的一个重要支撑技术。1.1.1 XML 介绍 XML 是 Extensible Markup Language 的简称,即“可扩展标记语言” ,是由 W3C 组织于 1998 年 2 月制定的一种通用语言规范,是专为 Web 应用而设计的 SGML 2 (Standard Generalized Markup Language )的一个优化子集。同 SGML 类似, XML 是一种元标记语言,使用者可按需创建新的标记, XML 的可扩展性就在于此。这些标记通过 XML DTD(Document Type Defi n ition,文挡类型定义)来加以定义。DTD 是一系列关于元素类型( Element Type) ,属性(Attributes), 实体(Entities)和符号( Notations)的定义。它定义了文档所需的标记,比如可在文档里使用的元素类型,这些元素之间的可能的联系,还可能声明元素的属性,属性是元素的“元数据” ,而不是元素包含的内容。另外,一个实体就像是一个缩写,被当做一些文本或一些数据的缩写来使用。而符号描述某一类事物(例如图像)的数据内容,它定义怎样翻译某类对像的比特流。XML 文档可以在它的文档类型声明( Document Type Oeclaration)里声明该文档遵循某个 XMLDTD。1.1.2 XML 语法 1.1.2.1XML 文档的组成 XML 文档包含由 XML 标记和字符数据组成的文本。它是一个有固定长度的有序字节的集合,并遵守特定的约束。它可能是或者不是一个文件。例如,XML 文档可能。 存储在数据库中 由 CGI 程序在内存中瞬间创建 由几个相互嵌套的不同文件组合而成 不存在于自身的文件中但是如果把一个 XML 文档看做一个文件也是可以的,只要记住它可能并不是存在于硬盘上的真实文件。XML 由称为 “实体”的存储单元组成,每个实体包含文本或者二进制数据,但不能同时存在。文本数据由字符组成,二进制数据用于图片和小程序等类内容。用一个具体的示例说明就是,一个含有标记的原始 HTML 文件是一个实体而不是文挡。一个 HTM 文件加上所有使用 标记嵌入的图片就组成一个文档。在本章和后续几章中我们只针对由一个实体构成的简单的 XML 文档,即文档本身。而且这些文档只包含文本数据,不包含诸如图片小程序一类的二进制数据。这些文档能够完全独立被, 理解而无须读取其他文件。换句话说,它们是独立存在的。这种文档通常在它的 XML 标头中含有一个值为 yes 的 standalone 属性,如下所示。? xml version =“1.0” standalone=“yes”? 外部实体和实体引用用于组合多个文件和其他数据源以创建一个独立的 XML 文挡。这样的文挡如果不引用其他文件就不能进行句法分析。这些文档通常在 XML 声明中含有一个属性值为 no 的 standalone 属性。? xml version =“1.0” standalone=“no”? 1.1.2.2实体引用实体引用是指分析文档时会被字符数据取代的置标。XML 预先定义了 5 个实体引用,列在表 6-1 中。实体引用用于 XML 文档中的特殊字符,否则这些字符将被解释为置标的组成部分。例如,实体引用<;代表小于号("; “&qpos; XML 中的实体引用与 HTML 中不同,必须以一个分号结束。因此 >;是正确的实体引用写法, > 是不正确的。未经处理的小予号( 1.1.2.3CDATA 在大多数情况下,出现在一对尖括号( 惟一不许出现在 CDATA 段中的文本是 CDATA 的结束界定符 。注释可能会出现在CDATA 段中,但不再扮演注释的角色。也就是说两个注释标记和包含在它们之间的全部文本都将显示出来。因为不能出现在 CDATA 段中,所以 CDATA 段不能嵌套。这使得使用 XML 写有关的 CDATA 段相对困难些。如果需要的话,必须去掉项目符号,并使用 <;、&;和实体引用。CDATA 段不常需要,一旦需要时,它是非常有用的。1.1.2.4标己标记能够区分 XML 文件与无格式文本文件。标记在 XML 文档中以结束,而且不包含在注释或者 CDATA 段中。因此, XML 标记有与 HTML 标记相同的形式。开始或打开标记?1t;开始,后面跟有标记名。终止或结束标记以 该标记结束。1.标记名每个标记都有一个名称。标记名必须以字母或下划线 C)开始,名称中后续字符可以包含字母、数字、下划线、连字符和句号。其中不能含有空格(经常用下划线替代空格) 。下面是一些合法的 XML 标记。以下是句法不正确的 XML 标记。结束标记与起始标记同名,只是在起始尖括号后加了一个/。例如,如果起始标记是,那么结束标记是。下面是前面所提到的合法起始标记所对应的结束标记。XML 名称是大小写敏感的。在 HTML 中的和是同一个标记, 可以结束一个标记,但在 XML 中却不行。下面所示的并不是我们讨论过的合法起始标记所对应的结束标记。2.空标记许多不含数据的 HTML 标记没有结束标记。例如,有 、或标记。一些页面作者在所列的项目后面确实会包含标记,一些 HTML 工具也使用标记。但是 HTML4.0 标准特别否认了这一点的必要性。同 HTML 中所有没有被公认的标记一样,一个不必要的 的出现对交付的输出没有任何影响。这在 XML 中不是问题。XML 的总体观点就是在分析文档时允许发现新的标记。因此没有识别的标记就不会被简单地忽略。而且 XML 处理器一定能够判明以前从没出现过的一个标记有没有结束标记。XML 区分带有结束标记的标记,而不带结束标记的标记称为空标记。空标记以斜杠和一个结束尖括号(/)结束。例如, 或。目前的 Web 浏览器处理这种标记的方法不一致,如果希望保持向后的兼容性,可以用结束标记来代替,只要在两个标记之间不包含任何文本。例如。1.1.2.5属性在前面内容中讨论过,起始标记和空标记可以随意地包含属性。属性是用等号(=)分隔开的名称一数值对。例如。Hello XML!在此标记有一个 LANGUAGE 属性,其属性值是 English。标记有一个 SRC 属性,其属性值为 WavingHand.mov。1.属性名属性名是宇符串,遵循与标记名同样的规则。这就是,属性名必须以字母或下划线(_)开始,名称中后续字符可以包含字母、数字、下划线、连字符和句号。其中不能含有空格(经常用下划线替代空格) 。同一个标记不能有两个同名的属性。例如,下面的例子是不合法的。属性名是区分大小写的。SIDE 属性与 side 或 Side 属性不是同一个属性,因此以下例子是合法的。2.属性值属性值也是字符串。如下面所示的 LENGTH 属性,即使字符串表示的是一个数,但还是两个宇符 7 和 2,不是十进制数的 72。如果编写处理 XML 的代码,在对字符串执行算术运算之前必须把它们转换为一个数。与属性名不同,对属性值包含的内容没有任何限制。属性值可以包含空格,可以以一个数字或任何标点符号(有时单括号和双括号除外)开头。XML 属性值由引号界定。与 HTML 属性不同, XML 属性值必须加引号。大多数情况下使用双引号,但是如果属性值本身含有个引号,就需要使用单引号。例如:如果属性值中含有两种引号,那么其中不用于界定字符串的一个必须用合适的实体引用代替。通常替换两个,这种方法很管用。例如:1.1.2.6XML 文档规则尽管可以根据需要编写标记,但 XML 文档为了保持结构完整必须遵循定的规则。如果一个文挡不是结构完整的,大部分读取和显示操作都会失败。事实上,XML 规范严格禁止 XML 句法分析器分析和解释结构欠妥的文档。正在执行操作的分析器惟能做的是报告出错。它不会修改错误,不会做最大的努力显示作者想要的东西,也不会忽略不当的结构欠妥的标记。它所能做的是报告错误和退出。这样做的目的是为了避免对错误的兼容性的竞争。这种竞争已使得编写 HTML 语法分析程序和显示程序变得非常困难。因为 We 浏览器承认畸形的 HTML,而 Web 页面设计者不会特别尽力确保他们的 HTML 正确无误。事实上,他们甚至利用个别浏览器中的错误达到特殊的效果。为了正确显示被大量安装的 HTML 页面,每个新的 Web 浏览器必须支持已有的 Web 浏览器的每一个细微差别和各自的属性。用户将放弃任何一种严格执行 HTML 标准的浏览器。正是为了避免这种遗憾, XML 处理器才只接受结构完整的 XML。为了使一个文档结构完整,XML 文档中的所有置标和字符数据必须遵守前几节中给出的规则。而且有几条关于如何把置标和字符数据相互联系起来的规则。这些规则总结如下:(1)文挡的开始必须是 XML 声明。(2)含有数据的元素必须有起始标记和结束标记。(3)不含数据并且仅使用一个标记的元素必须以/结束。(4)文档只能包含一个能够包含全部其他元素的元素。(5)元素只能嵌套不能重叠。(6)属性值必须加引号。(7)字符如果声明出现,它绝对是该文件最开头部分,因为 XML 处理器会读取文件最先的几个字节并将它与字符串 XML 确实允许完全省略 XML 声明。通常不推荐这样做,但这样做有特殊的用途。例如,省略 XML 声明,通过连接其他结构完整的 XML 文档有助于重新建立一个结构完整的 XML 文档。2.在非空标记中使用起始和结束标记如果忘了结束 HTML 的标记,Web 浏览器并不严格追究。例如,如果文档包含一个标记却没有相应的 标记,在标记之后的全部文档将变为粗体。但文档仍然能显示。XML 不会如此宽松,每个起始标记必须以相应的结束标记结束。如果一个文档未能结束一个标记,浏览器或移交器将报告一个错误信息,并且不会以任何形式显示任何文档的内容。3.用”/“结束空标记不包含数据的标记,例如 HTML 的、和,不需要结束标记。但是 XML 空标记必须由 /结束,而不是。例如、 和的 XML 等价物是、 和 。当前的 Web 浏览器处理这种标记的方法不一致。但是如果想保持向后的兼容性,可以使用结束标记来代替,而且不能在其间包含任何文本。例如。即使这样,Netscape 处理 也有困难(它把这两个标记解释为行间距,而不是前面所讲的) 。因此,在 HTML 中包含结构完整的空标记也并非总是可行的。4.让一个元素完全包含其他所有元素一个 XML 文档包含一个根元素,它完全包含了文档中其他所有元素。有时候这种元素被称做文档元素。假设根元素是非空的(通常都是如此) ,它肯定有起始标记和结束标记。这些标记可能使用但不是必须使用 root 或 DOCUMENT 命名。例如,在下面的文档中根元素是 GREETING:Hello XML! XML 声明不是一个元素,它更像是一个处理指令,因此不必包含在根元素中。类似地,在一个 XML 文档中的其他非元素数据,诸如其他处理指令、DTD 和注释也不必包含在根元素中。但是所有实际的元素(除根元素本身)必须包含在根元素中。5.不能重叠元素元素可以包含别的元素(大多数情况下) ,但是元素不能重叠。事实上是指,如果一个元素含有一个起始标记,则必须同时含有相应的结束标记。同样,一个元素不能只含有一个结束标记而没有相应的起始标记。例如,下面的 XML 是允许的:n =n +1; 下面所示的 XML 是非法的,因为结束标记 放在了结束标记之前。n = n +1; 大部分 HTML 浏览器容易处理这种情况,但是 XML 浏览器会因为这种结构而报告出错。空标记可随处出现。例如。Oscar WildeJoe Orton 本规则与规则 4 联系在一起有如下含义 :对于所有非根元素,只能有一个元素包含某一非根元素,但是元素不能包含其中含有非根元素的元素。这个直接含有者称为非根元素的父元素,非根元素被认为是父元素的子元素。因此,每个非根元素只有一个父元素。但是一个单独的元素可以有任意数目的子元素或不含有子元素。请分析如下所示的清单。根元素是 DOCUMENT 元素,它含有两个元素。第一个 STATE 元素含有 4 个子元素。 NAME、TREE、FLOWER 和 CAPITOL。第二个 STATE元素含有 3 个子元素。NAME、TREE 和 CAPITOL。这些里层的子元素只包含字符数据,没有子元素。父元素和子元素Louisiana Bald CypressMagnolia Baton RougeMississippiMagnolia Jackson 6.属性值必须加引号 XML 要求所有的属性值必须加引号,不管属性值是否包括空白。例如。HTML 的要求则不是这样。比如, HTML 允许标记含有不带引号的属性。例如,下面是一个合法的 HTML标记。惟一的要求是属性值不能嵌有空格。如果一个属性值本身含有双引号,可以使用属性值加单引号来代替。例如。如果一个属性值包含有单引号和双引号,可以使用实体引用 &apos;代替单引号,";代替双引号。例如。7只在开始标记和实体引用中使用 A Homage to Ben &Jerry sNew York Super Fudge Chunk Ice Cream Web 浏览器会正确地显示该标记,但是为了最大限度的安全,应当避免使用 &,用 &;来代替,像下面这样。A Homage to Ben &;Jerry s New York Super Fudge Chunk Ice Cream 开尖括号( for(int i = 0;i XML 与 HTML 都会把。因此该行会表示成。for(int i = 0;而不是。for(int i =0;i for(int i = 0;i <;= args.length ;i + +)| 结构完整的 XML 要求把&写成&;,把B,A 称为前提和左部(LHS ) ,B 称为后续或右部(RHS) 。如关联规则“买锤子的人也会买钉子” ,左部是“买锤子” ,右部是“买钉子” 。要计算包含某个特定项或几个项的事务在数据库中出现的概率只要在数据库中直接统计即可。某一特定关联(“锤子和钉子” )在数据库中出现的频率称为支持度。比如在总共1000 个事务中有 15 个事务同时包含了“锤子和钉子” ,则此关联的支持度为 1.5 %。非常低的支持度(比如 1 百万个事务中只有一个)可能意味着此关联不是很重要,或出现了错误数据(如, “男性和怀孕” ) 。要找到有意义的规则,还要考察规则中项及其组合出现的相对频率。当己有 A 时, B 发生的概率是多少?也即概率论中的条件概率。回到我们的例子,也就是问“当一个人已经买了锤子,那他有多大的可能也会买钉子?”这个条件概率在数据挖掘中也称为可信度,计算方法是求百分比:(A 与 B 同时出现的频率)/ (A 出现的频率) 。1.5.2.2预测型数据挖据数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的模型。建立这个模型可能需要各种各样的源数据,包括交易记录、顾客历史数据、人口统计信息、进程控制数据和市场相关的外部数据等,比如:信用卡公司提供的数据、天气数据等。模型是模式和数据间相关性的形式化描述。为了防止混淆,把数据挖掘概念划分为几个层次。(1)商业目标;(2)预言的种类;(3)模型的类型;(4)算法;(5)产品。最高层是商业目标:数据挖掘的最终目的是什么 ?比如:希望用数据挖掘技术留住用户的有价值的客户,用户可能先要建立一个模型来预测每个客户所能带来的利润,然后再建立一个模型来确定哪些客户可能会离开。充分了解用户所在企业的需求和目标有助于用户建立这样的目标。下一步是决定最合适的预言的种类。分类:预测一个特定的客户或事件属于哪一类;回归( regression):预测一个变量的值(如果此变量随事件变化,可成为时间序列预测) 。在上面的例子中用户可以用回归来预测利润的大小,用分类预测哪些客户会离开。后面我们会详细讨论。现在用户可以选择模型的类型:用神经网络来做回归,决策树做分类,还是用统计模型,如:逻辑回归,偏差分析,普通线性模型等。每种模型都可以用不同的算法来实现,比如,可以用回馈函数或 radial basis 函数来建立神经网络;决策树有巳 ART,C5.0, QUEST, CHAID 等。在选择数据挖掘软件产品时,要注意这些软件所采用的算法虽然名称可能完全一样,但他们的实现方法通常都是不一样的。这些对算法的不同实现影响了软件对内存、硬盘的需求的不同及性能上的差异。大部分的商业目标都可以用各种不同的模型及相异的算法来解决。通常在用户还没有试过任何数据挖掘算法之前,很难决定哪种对用户来说是最好的。1.一些术语在预测模型中,把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量 ;用于预测的输入变量是预测变量或独立变量。一些预测模型是通过那些已知目标变量值的历史数据训练出来的。这种训练有时也称为带指导的学习,因为是通过给出一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广场混凝土桥梁施工方案(3篇)
- 修整墙面施工方案(3篇)
- 国风文化活动方案策划(3篇)
- 宁波工程拆除施工方案(3篇)
- 北京市门头沟区2023-2024学年八年级下学期期末考试英语试卷及答案
- 安徽省宣城市绩溪县2023-2024学年高三上学期第一次月考数学考题及答案
- 忻州联考题目及答案解析
- 心理气质类型题目及答案
- 心理门诊测试题目及答案
- 归来三峡人:诗意理解与语言赏析教案
- 2025年内蒙古交通集团考试笔试试题(含答案)
- 消费品市场2025年消费者对绿色包装认知及需求调研可行性研究报告
- 台球厅消防知识培训课件
- 充电桩运维服务协议
- 2025至2030中国防砸安全鞋行业运营态势与投资前景调查研究报告
- 低压安全隐患排查
- 学堂在线 高技术与现代局部战争 章节测试答案
- 2025年医疗器械仓库管理培训试题及答案
- 2024年湖南省古丈县事业单位公开招聘工作人员考试题含答案
- 水费收缴使用管理办法
- 《研学旅行指导师实务》课件-第1章 研学旅行指导师职业基础
评论
0/150
提交评论