



全文预览已结束
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
年 月 日第 期 569 解释模型 1 9 98 569 思 考 模 型 5 89AB 78 和 公 式 模 型 AD 7 等四种模型 绝对模型属于静态数据分析 它通过比较历史 数据值或行为来描述过去发生的事实 因此查询 比较简单 仅是值的比较 综合路径是原有数据仓 库设计时定义好的 用户交互少 支持工具广泛 包括一般的查询表格工具 解释模型主要还是静态数据分析 分析人员利 银行数据大集中后银行数据大集中后银行数据大集中后 数据分析和知识获取数据分析和知识获取数据分析和知识获取 中国农业发展银行总行信息技术部李小庆中国农业发展银行总行信息技术部李小庆中国农业发展银行总行信息技术部李小庆 摘要 数据大集中后 各家银行均建立了数据仓库 分析和发掘蕴藏在数据中的信息和 知识 成了各家银行面临的主要课题 本文从多维分析 数据挖掘和知识发现三个方面介绍 了如何从大集中的数据中获取有价值的信息 关键词 数据大集中 多维分析 数据挖掘 知识发现 金融信息化论坛 年 月 日第 期 5 和发 掘型 A B 5C9 D 两种模式 验证型是用户首先提出 自己的假设 然后利用各种工具通过递归的检索查 询以验证或否定自己的假设 从用户的观点来看 他们是在从数据仓库中发现事实 这方面主要通过 可视化工具 以便充分利用人类的视觉能力 更方 便地发掘数据间的潜在关系 发掘型模式的应用主要负责从大量数据中发 现数据 预测趋势和行为 与验证性工具的很大的区 别在于 用户在对整个信息的挖掘过程中毋需或只 需很少的指导 挖掘型的工具主要指的是数据挖掘 A E 数据挖掘是一种从大型数据仓库中 提取隐藏的预测性信息的新技术 与验证型工具不 同 数据挖掘是一种展望和预测型的工具 它能发掘 数据间潜在的模式 发现经营者可能忽略的信息 并 为企业做出前瞻性的 基于知识的决策 具体地说 数据挖掘可以分为三个阶段F G一H 数据准备 A 9I 5 本阶段又可进一步细分为两步F 数据集成 数 据选择和预分析 集成 9E 5 这一步将从操作型环境中提取并集成数据 解 决语义二义性问题 消除脏数据等等 很明显 数据 集成的目的和所利用的技术与数据仓库的数据集 成完全一致 都是为了建立统一的数据视图 数 据挖掘不一定要建立在数据仓库的基础上7 但如果 数据挖掘与数据仓库能协同工作 将大大地提高数 据挖掘的工作效率 数据仓库的数据来源于整个企 业 保证了数据挖掘数据来源的广泛性和完整性 数据选择和预分析 A J9K9 5 6 9 L KDB B F 这一步将负责缩小数据范围 提高数据挖 掘的质量 前面提到 验证型工具长于对数据进行 细致 深入的观察和表述 在这一步中正适得其所 二 挖掘 E 数据挖掘处理器 A E 5 9BB5 综合 利用各种数据挖掘方法访问数据仓库中的数据 按功能可以划分为以下几种 F 关联 BB5 5 序列模式 J9MN9 K 9 B 分类 K BB 5 和聚类 KNB 9 E 完成对信息的提取和发掘 三 表述 9B9 5 与验证型工具一样 数据挖掘将获取的信息以 便于用户观察和理解的方式反映给用户 这时可以 利用可视化工具 金融信息化论坛 年 月 日第 期9 的限定逻辑 ABC D9E 及 AB F9 的非单调逻辑和 BB 9 的自知逻辑 传统信念维护系统有 AB F9 的真值维护系统 0 G 及 H9 IF99 的基于假设的真值维护系统 典型的非 单调知识库学习系统的组成如图 所示 图 具有非单调逻辑学习功能的学习系统 金融信息化论坛 年 月 日第 期 在 ABA 年提出的 算法 决策树又 称决策图 在决策树中 有两种结点 决策结点和状 态结点 由决策结点引出若干树枝 每个树枝代表 一个决策方案 每个方案树枝连结到一个新的结 点 这个新的结点既可能仍是一个新的决策结点 也可能是一个状态结点 每个状态结点表示一个具 体的最终状态 在决策树中 状态结点对应着叶结 点 决策树用于解决分类问题时 决策结点表示待 分类对象的属性 每个树枝表示它的一个可能取 值 而状态结点则表示分类结果 决策树的构造可通过训练集 0 完成 其中 0 C D EF GHI J 而 F C 4 4 4 为一个训练实例 它有 个属性 分别列于属性表 4 4 4 中 其中 表示属性 的取值 H C D 4 4 4 KJ为 L 的分类结果 决策树的构造算法 4 从属性表中选择属性 作为分类属性 4 若属性 的取值有 5 个 则将 0 划分成 5 个子集 0 4 4 4 05 其中 0 HC D EF GI J M EF GI 0 且 L 的属性 取值为第 H 个值 4 从属性表中删除属性 对于每一个 0 H H 5 令 0 C 0 H N4 如果属性表非空 返回 否则输出 算法 算法是经 4 24 改进后的决策树的学 习算法 其基本思想是 当训练集较大时 一次构造出完整的决策树的 算法将会是低效的 为此O 4 24 提出O 先随机 地选择若干实例构成一个训练集 称为训练集窗 口 用 P 对窗口内的实例构造其决策树 并寻找该 决策树的一个反例O 若反例存在 将其加入到训练窗 口内O 并直到不存在反例为止 最后 输出决策树 原算法选择扩展属性是基于平均主义的 即未 考虑其属性的差别 而仅依排列的顺序进行 这势 必造成分类的低效 为此 4 24 提出 按每个 属性对分类所能提供的信息量的大小决定属性扩 展顺序 即将信息量大的属性作为从当前状态扩展 时首选的属性 数据分析和知识获取的核心技术包括统计 人 工智能 机器学习等 数据大集中后 各家银行除了 做好日常的事务性处理外 都在考虑怎么利用这些 数据 怎样从中发现有价值的信息 使数据大集中的 价值得到最大的体现 在数据分析和知识获取领域 各家银行已开展了深入的研究 有些已经取得了一 定的进展 一般而言 查询工具 分析型工具和挖掘 型工具结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年投资理财师职业资格考试试题及答案
- 2025年全国硕士研究生考试题及答案
- 2025年绿色建筑设计专业考研试卷及答案
- 2025年科技创新与管理实践能力考试试题及答案
- 2025年计算机网络技术职业资格考试卷及答案
- 北师大版(2024)七年级下册英语期末复习:各单元主题作文范文
- 2025年电子商务专才职业资格考试试题及答案
- 员工生日会流程策划与实施
- 痔病人的外科护理
- 车间内龙门吊车安全培训
- 畜牧业对农业农村发展的引领作用
- 离婚协议书(完整版)WORDx(二篇)
- 《液晶显示基础教材》课件
- 物业客服课件培训模板
- 床上洗头医院基础护理知识要点
- 中等专业学校毕业生登记表-3
- 个人劳务清包工简单合同
- 林木管护服务投标方案技术标
- 华为流程与信息化实践与架构规划分享课件
- 房屋拆除施工合同
- 国家开放大学《知识产权法》考试复习题库(含答案)
评论
0/150
提交评论