第四章华农符少玲管理信息系统课件.ppt_第1页
第四章华农符少玲管理信息系统课件.ppt_第2页
第四章华农符少玲管理信息系统课件.ppt_第3页
第四章华农符少玲管理信息系统课件.ppt_第4页
第四章华农符少玲管理信息系统课件.ppt_第5页
免费预览已结束,剩余80页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章信息处理技术 有价值的知识 可怕的数据 数据爆炸但知识贫乏 问题 数据库越来越大 是否企业所有数据都存储在数据库中 一般事务型数据库的存储年限是多少 CRM与数据仓库的关系 数据仓库的作用客户行为分析重点客户发现市场性能评估 思考 为什么需要建设数据仓库 数据库不足够吗 数据仓库是数据库吗 数据仓库有何好处 问题 网站中使用因特网访问企业内部数据库有哪些企业 其工作机理是什么 使用因特网访问企业内部数据库的优点有哪些 问题 凡客中的客户行为分析是采用什么工具来进行处理数据而得的结果 唯品会呢 新浪呢 要求掌握 数据仓库与数据库的关系数据仓库优势联机分析处理和数据挖掘区别 第一节数据的组织与管理 一 数据管理方法 一 数据的层次结构按照四个层次分 字符 是计算机中表示数据的基本单元 字段 属性 是字符的集合 表示一个有意义的数据单位 记录 是多个相互关联的字段组成的集合 用来描述某一个管理对象或业务活动的内容 文件和数据库文件 是按特定目的和格式组织的相关记录的集合 数据库 是逻辑上相关的文件的集合 数据的层次性 职工文件 部门文件 工资文件 二 实体和属性 实体 客观存在的人 物体 地点或事务的一般类别属性 是实体的特性 二 数据管理技术的发展 数据管理技术是对数据进行分类 组织 编码 存储和维护的技术 它的发展大致可分为如下四个阶段 1 人工管理阶段 20世纪50年代中期以前 数据不能长期保存在计算机中 没有软件系统对数据进行管理 数据大量冗余 且不能共享 应用程序1 应用程序1 应用程序1 数据组2 数据组1 数据1 数据2 人工管理下数据与应用程序的联系 2 文件系统阶段 出现于20世纪50年代后期到60年代中期 数据可以由操作系统管理的文件形式长期保存在计算机中 操作系统的文件管理系统提供了对数据的输入和输出操作接口 即提供数据存取方法 一个应用程序可以使用多个文件 一个文件可被多个应用程序使用 数据可以共享 数据仍然是面向应用的 文件之间彼此孤立 不能反映数据之间的联系 因而仍存在数据大量冗余和不一致性 应用程序1 应用程序2 文件系统 文件1 文件2 文件系统中应用程序与数据的联系 3 数据库系统阶段 大约从20世纪60年代后期开始 这一阶段的特点 采用一定的数据模型来组织数据 数据不在面向应用 而是面向系统 应用程序独立于数据 实现了数据的独立性 数据的冗余度明显减少 从而减少了数据的不一致性 为用户的数据操作提供了方便的用户接口 实现了数据共享 在数据库中 对数据进行统一的管理和控制 应用程序1 应用程序1 数据库管理系统 数据库 数据库管理阶段 4 高级数据库技术阶段 大约从20世纪80年代后期开始 其特点为 分布式数据库 由一组物理上分布在计算机网络的不同结点上数据 既面向本地的局部应用 又参与涉及多个结点的全局应用 面向对象的数据库 共享缩小了数据库和应用程序间的差距 降低了应用程序的开发费用 同时也减少了系统出现问题的可能性 二 数据库的定义和特点 定义数据库 DataBase 简称DB 是存放在计算机存储设备中的以一种合理的方法组织起来的 与公司或组织的业务活动和组织结构相对应的各种相关数据的集合 该集合中的数据可以为公司或组织的各级经过授权的人员或应用程序以不同的权限所共享 1 数据库的特点 以一定的数据模型来组织数据 数据尽可能不重复 以最优方式为某个特定组织的多种应用程序或用户服务 其数据结构独立于使用它的应用程序 对数据的定义 操纵和控制 由数据库管理系统统一进行管理和控制 2 数据库的分类 按照数据库的数据结构模型来分类 采用层次模型的数据库称为层次数据库采用网状模型的数据库称为网状型数据库采用关系模型的数据库称为关系型数据库采用面向对象模型的数据库称为面向对象数据库 三 数据模型 数据模型能比较真实地模拟现实世界 比较容易理解 同时也便计算机实现 按照应用的不同 数据模型可分为两类或两个层次 1 概念数据模型只描述信息的特性和强调语义 而不涉及信息在计算机中的表示 最常用的是实体联系模型 E R模型 2 结构数据模型直接描述数据库中数据的逻辑结构 通常用来定义和操作数据中的数据 最常用的有 层次模型 网状模型 关系模型和面向对象模型 层次模型 HierarchicalModel 曾在20世纪70年代商业领域中广泛应用 层次模型的数据结构是一种树型结构 如图a点 特征 有且只有一个结点没有父结点 该结点为根结点 根结点以外的其他结点有且只有一个父结点 客户代号 公司名称 城市 电话 订单代号 订购日期 运货单 产品代号 产品名称 单价 订单代号 产品日期 数量 客户 订单 产品订单 订单明细 a b 网状模型 NetworkModel 曾在20世纪70年代和80年代得到广泛的应用 用网状结构表示实体类型及实体之间联系的数据模型称为网状模型 网状模型许可一个以上的结点可以没有父结点 一个子结点可以有多个父结点 如上图中的b点 网状模型和层次模型称为非关系模型 在非关系模型中 实体是用记录来实现的 记录之间的联系是用指针来实现的 用表结构来表示实体类型以及实体间联系的模型为关系模型 特点 1 关系模型概念单一 数据结构简单 实体与实体间的联系是用关系 二维表 表示的 2 关系模型是数学化的模型 可把表格看成一个集合 数据操作是集合的操作 3 关系数据库语言是非过程化的 4 关系模型以关系代数为基础 形式化基础强 5 有功能强大的关系数据库语言SQL的支持 关系模型 RelationModel 订单关系模型表 面向对象模型 Object OrientedModel 面向对象的数据模型不仅能处理简单的数据类型 还可处理包括图形 图像 声音 动画等多种音频 视频信息 面向对象的数据模型中 最重要的概念是对象 Object 和类 Class 问题 目前关系数据库有哪些可用 Oracle Sysbase Informax DB2 FoxPro Access 第二节数据仓库 CRM与数据仓库的关系 数据仓库的作用客户行为分析重点客户发现市场性能评估 问题 什么是数据仓库 数据仓库有何特点 构建数据仓库有何好处 是不是所有企业都需要建立数据仓库 一 定义及其特点数据仓库是面向主题的 集成的 不可更新的 随时间变化的数据集合 用以支持企业或组织的决策的分析过程 数据仓库的结构如图所示 ERP数据库 CRM数据库 OLTP交易数据库 数据精简清洗添加格式转换数据整合数据导入 数据仓库数据库管理系统 OLTP分析数据库 数据集市 数据集市 数据仓库元数据 Metadata 数据仓库管理平台 查询报告引擎 OLAP数据访问 数据挖掘工具 ETL ExtratTransformation Load 企业处理数据方式 以联机事务处理形式处理信息以联机分析处理形式处理信息 并利用信息进行决策 以联机事务处理形式处理信息 增加更改产品单价更改顾客收入水平扩大顾客的信誉范围 以联机分析处理形式处理信息 上个月有多少产品的销售额超过100000美元 如果库存以10 速度下降 那么新的库存担负的成本是多少 顾客能变相接受高价位产品吗 分析型数据仓库与交易型数据库的区别 问题 用户在使用数据仓库时 发现某一衬衣3月份销售额15万元是不对的 应该为12 5万元 该用户可以直接在数据仓库上修改吗 特点 数据仓库是面向主题的主题是一个抽象的概念 从逻辑意义来说 主题对应了企业或组织中某一个宏观分析领域所涉及的分析对象 如销售 DB DB 零售系统 批发系统 销售主题系统 OLTP系统 2 数据仓库是集成的各种数据源中的数据经过提取 转换集成 最后被转载到数据仓库中 3 数据仓库是不可更新的4 数据仓库是随时间变化的 用户 用户 读 OLTP系统 读 数据仓库 写 OLTP系统与数据仓库的区别 建立数据仓库的好处 Owen Minor公司 是一个有着30亿美元资产的外科供应公司 他把关键的生产数据存储在其大型计算机的各种层次数据库上和比较老的非数据库文件上 所有这些数据库都是相互独立的 为了把数据放在一起 创建一个多维视图 公司决定使用Oracle数据库建立一个数据仓库 公司安装了一个易于使用的查询工具 是商业目标系统分析员的商业目标系统 它提供给用户一个访问数据库的界面 另外 他们购买了从老式生产系统取出数据 并且转换数据 把转换后的数据载入Oracle数据库的软件 在Aqua Chem的管理层想要使用老式数据来执行多纬财务分析 而不想替换他们的老式财务系统 该财务系统是在计算机联合公司的CA Datacom数据库管理系统上运行的 该公司信息主管解释说 我们喜欢老系统的安全性 功能性和可靠性 他开始转向联机分析处理和商业智能工具 公司使用微软的结构查询语言系统 SQLServer 数据库管理系统开发了一个财务数据仓库 生产 销售和其它数据被取出 转换和传送到SQLServer数据库 管理人员使用来自于Cognos公司的联机分析处理软件工具查看 分析 甚至处理这些数据 同时老式大型计算机系统仍然继续进行根本的事务处理 雇员通过公司的内部网可以容易地存取数据 问题 为何构建数据仓库 数据仓库优势 不用替换和废弃旧系统决策制定者获取信息更加容易 不影响基础的业务系统 问题 是不是所有企业都需要构建数据仓库 并非所有企业都有使用数据仓库的需求 如果轻而易举就能从企业业务数据库中获取所需信息 可以选择用OLAP工具 帮助企业管理者从各个维度审视和查询关系数据库中的信息 问题 当数据仓库过大 太集中且难以使用时 可以优先考虑构建什么 二 数据集市 定义数据集市是企业或组织为了特定的应用目的或应用范围 而从数据仓库中独立出来的一部分数据 亦称为部门数据库或主题数据 数据集市的数据来源通常数据集市可由两种途径来创建 1 直接从OLTP系统中将数据捕获到需要使用该数据的数据集市中 2 将OLTP系统中的数据捕获到中央数据仓库中 再将数据仓库中的数据填充到数据集市中 如下图所示 市场部 财务部 销售部 数据集市 数据仓库 数据集市 三 联机分析处理 OLAP 问题 1月份 头盔在什么地区销售最好 1月份 哪个国家的头盔销售在该畅销地区处于领先地位 在领先的国家中 哪个城市的头盔收入最高 能否从报表中发现商机 按地区划分的头盔销售数据 按地区和国家划分的头盔销售数据 按地区 国家和城市划分的头盔销售数据 山地车和头盔销售的比较 可选的OLAP工具 InformationAdvantage公司的Axsys软件Prodea公司中的Beacon软件斯坦福技术公司的Metacnbe软件 四 数据库与因特网 互联网与超媒体数据库将企业内部数据库连接至因特网 将企业内部数据库连接至因特网工作机理 使用者在其客户端的个人计算机上使用浏览器 通过因特网访问企业的网站在企业网站上 启动在线应用服务 并向数据库查询数据 在客户机 服务器环境中 数据库管理系统通常会放在一台特定的计算机中 成为数据库服务器 数据库管理系统接受来自于应用服务器的SQL查询指令并提供所需要的数据 应用服务将来自于企业内部数据库的信息通过因特网以网页的形式传送给使用者 问题 数据库系统可以回应用户所使用的超文本语言请求吗 数据库系统如何回应用户所使用的超文本语言请求吗 工作原理 应用服务器相当于语言翻译官 属于中间件 一般应用服务器接受来自用户HTML编写的指令 把HTML指令翻译成SQL 数据库系统才可解读用户的请求 然后又通过应用服务器再把SQL翻译成HTML语言 这样用户就可读数据 应用服务器有软件程序 介于浏览器端的计算机与公司后端商业数据库之间 可以处理所有的应用操作 提供与组织后端系统或数据库的链接 处理这些操作的软件可能是定制软件或通用网关接口脚本 使用因特网访问企业内部数据库优点 因特网浏览软件容易使用因特网接口不需要对内部数据库做修改 企业可以利用在旧系统的投资 第三节数据挖掘 定义数据挖掘 DataMining 简称DM 就是从超大型数据库 VLDB 或数据仓库中搜索有用的商业信息的过程 数据挖掘技术具有如下的性能 自动预测趋势和行为数据挖掘可以在大型数据库中自动发现预言性信息 自动发现以前未知模式数据挖掘工具可以识别以前隐藏的模式 数据挖掘的产生 数据爆炸但知识贫乏支持数据挖掘技术的基础 有价值的知识 可怕的数据 数据爆炸但知识贫乏 数据挖掘的出现 数据爆炸 知识贫乏 苦恼 淹没在数据中 不能制定合适的决策 数据 知识 决策 数据挖掘的定义 技术上的定义及含义数据挖掘 DataMining 就是从大量的 不完全的 有噪声的 模糊的 随机的实际应用数据中 提取隐含在其中的 人们事先不知道的但又是潜在有用的信息和知识的过程 商业角度的定义数据挖掘是一种新的商业信息处理技术 其主要特点是对商业数据库中的大量业务数据进行抽取 转换 分析和其他模型化处理 从中提取辅助商业决策的关键性数据 数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息 发现知识 数据挖掘的功能 自动预测趋势和行为关联分析对象分类聚类分析概念描述偏差检测 关联分析 人们购买爆米花后 有65 的人同时也会购买可乐 对象分类 如信用卡或电话公司为例 担心失去固定客户 通过分类 可以总结退卡或退出电话网客户的共同特征 然后预测哪些人有这样的迹象并找出对策挽留这些客户 聚类分析 对购买了汽车保险的客户 标识那些有较高平均赔偿成本的客户特征 数据挖掘功能 预测 数据挖掘自动在大型数据库中寻找预测性信息 以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论 一个典型的例子是市场预测问题 数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户 其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体 数据挖掘功能 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识 若两个或多个变量的取值之间存在某种规律性 就称为关联 关联可分为简单关联 时序关联 因果关联 关联分析的目的是找出数据库中隐藏的关联网 有时并不知道数据库中数据的关联函数 即使知道也是不确定的 因此关联分析生成的规则带有可信度 关联是某种事物发生时其他事物会发生的这样一种联系 例如 每天购买啤酒的人也有可能购买香烟 比重有多大 可以通过关联的支持度和可信度来描述 时序关联是一种纵向的联系 例如 今天银行调整利率 明天股市的变化 数据挖掘功能 分类 按照分析对象的属性 特征 建立不同的组类来描述事物 例如 银行部门根据以前的数据将客户分成了不同的类别 现在就可以根据这些来区分新申请贷款的客户 以采取相应的贷款方案 数据挖掘功能 聚类 数据库中的记录可被化分为一系列有意义的子集 即聚类 聚类增强了人们对客观现实的认识 是概念描述和偏差分析的先决条件 聚类技术主要包括传统的模式识别方法和数学分类学 聚类技术在划分对象时不仅考虑对象之间的距离 还要求划分出的类具有某种内涵描述 从而避免了传统技术的某些片面性 数据挖掘功能 概念描述 概念描述就是对某类对象的内涵进行描述 并概括这类对象的有关特征 概念描述分为特征性描述和区别性描述 前者描述某类对象的共同特征 后者描述不同类对象之间的区别 生成一个类的特征性描述只涉及该类对象中所有对象的共性 生成区别性描述的方法很多 如决策树方法 遗传算法等 数据挖掘功能 偏差检测 数据库中的数据常有一些异常记录 从数据库中检测这些偏差很有意义 偏差包括很多潜在的知识 如分类中的反常实例 不满足规则的特例 观测结果与模型预测值的偏差 量值随时间的变化等 偏差检测的基本方法是 寻找观测结果与参照值之间有意义的差别 偏差检测对分析对象的少数的 极端的特例的描述 揭示内在的原因 例如 在银行的100万笔交易中有500例的欺诈行为 银行为了稳健经营 就要发现这500例的内在因素 减小以后经营的风险 数挖掘技术 人工神经网络决策树覆盖正例排斥反例方法粗集 RoughSet 方法遗传算法公式发现统计分析方法模糊论方法可视化技术 决策树图 聚类分析 聚类如同通常所说的 物以类聚 是把一组个体按照相似性归成若干类别 它的目的是使属于同一类别的个体之间的距离尽可能的小 而不同类别上的个体间的距离尽可能的大 它反映同类事物共同性质的特征型知识和不同事物之间的差异性质的特征型知识 通过聚类 数据库中的记录可被划分为一系列有意义的子集 聚类增强了人们对客观现实的认识 是进行概念描述和偏差分析的先决条件 簇 Cluster 一个数据对象的集合在同一个类中 对象之间具有相似性 不同类的对象之间是相异的 聚类分析把一个给定的数据对象集合分成不同的簇 聚类是一种无监督分类法 没有预先指定的类别 典型的应用作为一个独立的分析工具 用于了解数据的分布 作为其它算法的一个数据预处理步骤 聚类分析应用 市场销售 帮助市场人员发现客户中的不同群体 然后用这些知识来开展一个目标明确的市场计划 土地使用 在一个陆地观察数据库中标识那些土地使用相似的地区 保险 对购买了汽车保险的客户 标识那些

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论