




免费预览已结束,剩余102页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘 主讲 王名扬信息与计算机工程学院 2 引言 要挖掘知识的类型 概念描述 特征化和比较 关联规则 分类 预测 聚类分析 其他的数据挖掘任务 3 引言 从数据分析角度 DM可分为两类 描述式数据挖掘 以简洁 概要的方式描述数据 并提供数据的有趣的一般性质 预测式数据挖掘 分析数据 建立一个或一组模型 并试图预测新数据集的行为 4 引言 概念描述 描述性数据挖掘的最简单类型 概念 指一类数据的集合 如研究生 大客户等 概念描述用以产生数据的特征化和比较描述 特征化 提供给定数据集的简洁汇总 比较 区分 提供两个或多个数据集的比较描述 第5章 5 1什么是概念描述 5 2数据概化与基于汇总的特征化5 3属性相关分析5 4挖掘类比较 区分不同的类5 5常见的统计度量指标 6 学习目的 掌握属性归纳的一般方法 掌握属性相关分析的一般方法 掌握大型数据库中统计度量的常见指标 5 1什么是概念描述 概念描述 Conceptdescription 描述性数据挖掘的最简单类型 对于大量的细节数据 希望以简洁的描述形式 不同的粒度 不同的角度等 观察汇总的数据集 需要对该数据进行描述以概括出固有的特性 这种描述性数据挖掘称为概念描述 特征化 characterization 提供给定数据汇集的简洁汇总 比较 comparision 也称区分 discrimination 提供两个或多个数据汇集 或不同类别数据 的对比概念描述 数据概化 数据概化 概念描述与数据概化 datageneralization 密切相关 给定存放在数据库中的大量数据 如果能以简洁的形式在更一般的 而不是较低的 抽象层描述数据 这非常有利于用户考察数据的一般行为 如 一个商场数据库中 销售主管不用对每个顾客的购买记录进行检查 而只需要对更高抽象层次的数据进行研究即可 例如 对按地理位置进行划分的顾客购买总额 每组顾客的购买频率以及顾客收入情况进行更高层次的研究分析 5 2数据概化与基于汇总的特征化 为什么进行数据概化 数据库中数据及对象在基本概念层次包含了许多细节性的数据信息 如 在商场销售数据库的商品信息数据中 就包含着诸如 item ID name brand supplier等低层次信息 对这类大量的数据进行更高层次抽象以提供一个概要性描述是十分重要的 数据概化可以将大量的相关数据从一个较低的概念层次转化到一个比较高的层次 如从南京转换到江苏 江苏转换到华东地区等 10 数据概化和基于汇总的特征化 方法一数据立方体 或OLAP 方法 在数据立方体上进行计算和存储结果优点 数据概化的一种有效实现 效率高 能够计算多种不同的度量值 如 count average sum min max 概化和特征分析通过一系列的数据立方体操作完成 如roll down和roll up操作 12 等价于第三章的数据立方体聚集 13 数据立方体聚集 方法一数据立方体 或OLAP 方法 限制维和度量的数据类型有限 数据立方体和OLAP只能处理非数值类型 离散类型 的维和简单聚集数值类型的度量值 大部分现有商业系统中 只能为非数值类型的维产生概念分层 缺乏智能分析 不能自动确定分析中该使用哪些维 应该概化到哪个层次 15 面向属性归纳 Attribute OrientedInduction AOI 基本思想 1 首先使用关系数据库查询收集任务相关的数据 2 然后 通过考察任务相关数据中每个属性的不同值的个数 进行概化 属性删除 属性概化 3 通过合并相等的 概化的广义元组 并累计它们对应的计数值进行聚集操作 4 通过与用户交互 将广义关系以图表或规则等形式 提交给用户 方法二面向属性的归纳 16 属性删除 属性删除基本原则 若一个属性 在初始数据集中 有许多不同数值 且 a 该属性上没有定义概化操作符 如 没有定义相应的概念层次 b 它的较高层概念可用其他属性表示 则 该属性从数据集中删除 17 属性删除 解释 a 没有定义概化操作符 一个属性拥有许多不同的数值但却没有定义对它的泛化操作 该属性应被删除 因为如果保留 则会产生过多的规则 b 较高层概念可用其他属性表示 如街道属性street 它的更高层次概念是利用 city province country 三个属性表示的 此时删除street相当于应用于了概化操作 18 属性概化 属性概化基本原则 若一个属性 在初始数据集中 有许多不同数值 且 在该属性上存在概化操作符 则应当选择该概化操作符 解释 在一个数据集中对一个属性进行概化操作 将会使得所产生的规则覆盖更多的数据行 实现了对其所表示的概念的概化 19 特征化 面向属性归纳 属性删除和属性概化都表明 如果某属性有大量的不同值 应进一步进行概化 问题是 多大才算 属性具有大量不同值 两种方法 1 属性概化阈值控制 2 概化关系阈值控制 20 特征化 面向属性归纳 基本原理 如果属性的不同值的个数大于属性概化阈值 则应当进一步进行属性删除或概化 如果用户感到一个属性概化达到的层次太高 可以加大阈值 属性下钻 反之 可减小阈值 属性上卷 21 特征化 面向属性归纳 基本原理 为概化关系设置一个阈值 如果概化关系中不同元组的个数超过该阈值 则应进一步概化 否则 不再概化 阈值可在数据挖掘系统中预先设定 通常为10 30 或由用户或专家设置 调整 如果用户感到概化的关系太少 可以加大阈值 属性下钻 反之 可减小阈值 属性上卷 22 示例 面向属性归纳 示例1 从一个大学数据库的学生数据中挖掘出研究生的概念描述 所涉及的属性包括 姓名 性别 专业 出生地 出生日期 居住地 电话和gpa AOI方法的第一步是 首先利用数据库查询语言从大学数据库中将与本挖掘任务相关的学生数据抽取出来 然后指定一组与挖掘任务相关的属性集 最终得到如下关系表 23 示例 面向属性归纳 表1与任务相关的初始数据集合 要求对以上数据集进行面向属性归纳的操作 24 示例 面向属性归纳 1 name 由于name属性拥有许多不同的取值 且对它没定义合适的概化操作符 因此该属性被删除 2 gender 由于gender属性仅包括两个不同取值 该属性被保留且无需进行概化 3 major 假设对major属性已定义一个概念层次 science management engineering 从而可对major进行概化 又假设属性概化阈值设定为5 大于major较高层概化的属性值个数 则major可以沿概念分层向上攀升并被概化 25 示例 面向属性归纳 4 birth place 该属性拥有大量不同取值 需进行概化 假设其上存在一个概念层次 city province country 如果初始数据集中country的不同值个数大于属性概化阈值 则birth place应当被删除 因为即使存在概化操作符 概化阈值也不会满足 如果country的不同值个数小于属性概化阈值 则该属性应被概化到country 5 birth data 假定存在概念分层 可将birth data概化到age 而age可进一步概化到age range 如果age range的不同值个数小于对应的属性概化阈值 将birth data概化到age range 26 示例 面向属性归纳 6 residence 假设residence被属性number street residence city residence province和residence country属性定义 Number和street的不同值多半很多 删除 将residence概化到residence city 假定仅包含4个不同取值 7 phone 与属性name类似 也包含过多不同取值 删除 8 gpa 假定存在概念分层 将平均成绩划分为若干间隔 如 excellent verygood 等 对其进行概化 27 示例 面向属性归纳 概化过程会产生一系列内容相同的数据行 如表1所示的头两行数据记录就被上述的概化操作转变成具有相同内容的数据行 这里 继续对具有相同内容的数据行进行合并 同时累计其个数 count 最终获得的结果如表2所示 表2 表1 示例2在下面的初始工作表上做属性归纳 对于每个属性 概化讨论如下 1 姓名 电话 该属性的值有许多 并且无概化操作符 属性删除2 性别 属性可取的值2个 属性保留不概化3 专业 假定我们事先已定义了一个概念分层 可以将专业概化到 艺术 化学 机械 通信 信息 所以可被概化4 籍贯 此表以城市为单位 已无法概化 值不算太多 保留5 出生日期 假定存在概念分层 首先概化到年龄 再到年龄段6 信用 假定有 优 良 中 一般 差 的分层 可以概化7 学历 可以按 博士生 硕士生 本科生 概化 概化过程将产生相等的元组 相等的元组归为一类并给出计数 性别 专业 籍贯 年龄段 信用情况 计数 男 信息 南京 19 22 良 10 女 信息 南京 19 22 优 9 男 化学 盐城 19 22 中 4 男 通信 镇江 22 25 一般 1 学历 本 研 本 本 2 面向属性归纳结果的表示 31 面向属性归纳结果的表示方法 AOI方法的挖掘结果可以通过多种形式来输出表示 表格 组合表 图表等 32 示例 表格表示 假设面向属性的归纳操作是在一个商场数据库 2000年的销售额 中进行的 最终获得如表3所示的概化结果 表3AOI挖掘结果表格表示示意图 33 示例 组合表表示 AOI的结果也可用组合表 交叉表 表示 其中每一行代表属性的一个值 每一列代表其他属性的一个值 在一个n维组合表中 列可能代表多个属性的值并分栏显示各属性的累计值 表4对应表3的组合表表示示意图 34 示例 图表表示 AOI的结果也可用图表的形式表示 如 棒图 饼图 曲线 以实现结果的可视化 图1对应表3的棒图示意图 图2对应表3 部分数据 的饼图示意图 35 定量描述规则 概化关系用逻辑规则的形式表示 通常 每个概化后的数据行代表规则中的一个合取项 由于一个大型数据库中的数据通常具有多种不同的分布 因此一个概化后的数据行不可能覆盖或表达所有 100 的初始数据集中的数据行 36 定量描述规则 因此需要为每条规则带上量化的信息 如 满足规则条件前件和后件的数据行数目与初始数据集中总行数之比 作为度量规则客观价值的参量 将这种带参量的规则称为 定量描述规则 37 定量描述规则 t weight t 权 规则兴趣度度量指标表示规则中一个析取项具有的代表性 将需要进行归纳描述的对象集合称为目标集合 设qa是描述目标集合的一个概化数据行 则qa的t weight是该数据行所涵盖的数据行数与初始数据集中数据行数之比 定义如下 其中 N是概化后目标集合中的数据行个数 q1 q2 qN是概化后目标集合中的数据行 显然 qa是其中的一行 且t weight的值在 0 1 区间中 38 定量描述规则 定量描述规则 一个定量描述规则可表示为 其中 wi是conditioni的t weight 给出了目标集合X中 各个条件出现的兴趣度 如设定目标集合为 电脑 查看电脑在各个地域的销售情况 39 示例1 将表3所示的概化结果 转换为定量规则的形式 表3 40 示例1 设目标集合为一组电脑产品 相应的定量规则为 其中 第一个t weight值0 25 是通过将 computer Asia 的count累计值1000除以 computer all region 的count累计值4000 代表总体电脑销售额 而得到的 其余的权值通过类似方法获得 例 有部分学生在图书馆借阅了 大趋势 这本书 想通过数据挖掘技术发现这部分学生具有什么样的特征 其基本关系表是 示例2 概化层次 系别文科 商学院 经济 金融 企管 会计 国贸文科 文学院 中文 新闻 信管 历史 哲学理科 医学院理科 理学院 数学 天文 物理 文 商学院 文 商学院 理 医学院 文 商学院 文 文学院 文 商学院 文 文学院 概化关系表二 按学科 概化关系表一 按学院 如果定义噪声数据的阈值是1 记录数为1 则 根据 基本关系表一 发现的特征规则是 借阅 大趋势 一书的是 经济系 的学生 如果定义噪声数据的阈值是1 记录数为1 则 根据 概括关系表一 发现的特征规则是 借阅 大趋势 一书的是 商学院 的学生借阅 大趋势 一书的是 文学院 的学生 如果定义噪声数据的阈值是1 记录数为1 则 根据 基本关系表一 发现的特征规则是 借阅 大趋势 一书的是 经济系 的学生根据 概括关系表一 发现的特征规则是 借阅 大趋势 一书的是 商学院 的学生借阅 大趋势 一书的是 文学院 的学生根据 概括关系表二 发现的特征规则是 借阅 大趋势 一书的是 文科 的学生 如果定义噪声数据的阈值是2 记录数为2 则 根据 基本关系表一 发现的特征规则是 发现不到特征规则 如果定义噪声数据的阀值是2 记录数为2 则 根据 基本关系表一 发现的特征规则是 发现不到特征规则根据 概括关系表一 发现的特征规则是 借阅 大趋势 一书的是 商学院 的学生 如果定义噪声数据的阈值是2 记录数为2 则 根据 基本关系表一 发现的特征规则是 发现不到特征规则根据 概括关系表一 发现的特征规则是 借阅 大趋势 一书的是 商学院 的学生根据 概括关系表二 发现的特征规则是 借阅 大趋势 一书的是 文科 的学生 如果定义噪声数据的阈值是5 记录数为5 则 根据 基本关系表一 发现的特征规则是 发现不到特征规则 如果定义噪声数据的阈值是5 记录数为5 则 根据 基本关系表一 发现的特征规则是 发现不到特征规则根据 概括关系表一 发现的特征规则是 发现不到特征规则 如果定义噪声数据的阈值是5 记录数为5 则 根据 基本关系表一 发现的特征规则是 发现不到特征规则根据 概括关系表一 发现的特征规则是 发现不到特征规则根据 概括关系表二 发现的特征规则是 借阅 大趋势 一书的是 文科 的学生 应该说 此时的规则是有意义的 该书基本上是文科学生借阅 t 权 6 7 5 3属性相关分析 在进行数据挖掘时 原始数据集中可能包含50 100个 甚至更多的属性 在这些属性中 很有可能存在着与挖掘任务不相关或弱相关的属性 如将所有属性考虑在内 将大大增加数据挖掘的复杂度 同时降低数据挖掘的结果的质量 5 3属性相关分析 尤其对于分类数据挖掘 对给定的类 如果某属性或维的值可用于区分该类与其他类 则该属性被认为是任务高度相关的 如 汽车的颜色多半不能区分汽车价格的高低 但型号 制造商 款式和汽缸数可能是更相关的属性 此外 在同一维内 不同层的概念也可能具有不相同的分类能力 如 在birth data维 birth day和birth month看上去与雇员的salary不相关 然而 birth decade 即年龄区间 则可能与雇员的salary是高度相关的 属性相关分析 因此 必须引入一些方法进行属性或维上的相关性分析 以过滤掉统计上不相关或弱相关的属性 而仅保留对手头挖掘任务最相关的属性 属性相关分析的方法 属性相关分析的步骤 1 属性相关分析的方法 属性相关分析方法 在机器学习 统计学 模糊逻辑和粗糙集领域都提出了许多属性相关分析的方法 基本思想 对给定的数据集 计算某种度量 用于量化属性与给定的类或概念间的相关性 常用的度量包括信息增益 GINI索引 不确定性和相关系数等 基于信息增益的属性选择过程 信息增益法 决策树归纳学习算法 如ID3 C4 5 中普遍采用的一种方法 该方法可以删除信息量较少的属性 而保留信息含量较大的属性 以帮助进行概念描述分析 以ID3算法为例介绍基于信息熵进行属性相关分析的基本内容 ID3算法 ID3算法是一个众所周之的决策树算法 该算法是澳大利亚悉尼大学的RossQuinlan于1986年提出 也是国际上最早 最有影响力的决策树算法 其他的许多算法如C4 5 CART算法等都是在ID3算法基础上的改进 ID3算法 在ID3算法中 决策节点属性的选择运用了信息论中的熵概念作为启发式函数 在这种属性选择方法中 选择具有最大信息增益 informationgain 的属性作为当前划分节点 通过这种方式选择的节点属性可以保证决策树具有最小的分枝数量 使得到的决策树冗余最小 ID3算法的基本原理 ID3算法根据一组类别已知的训练数据集来构造一棵决策树 然后利用构造的决策树对类别未知的数据对象进行分类 在归纳学习过程中 利用一个称为信息增益的参量对属性的重要性进行评估 认为 具有最大信息增益的属性为当前数据集中具有最大分辨能力的属性 利用该属性构造决策树的一个节点 并根据该属性取值的个数确定该节点的各个分支 这些分支将原有数据集分为若干子数据集 若一个节点所包含的数据行均为同一类别 则将该节点标记为决策树的叶节点 并标记为所有数据行对应的类别 不断重复这一过程 直至所有节点都无需继续分支为止 示例 假如你是一个网球爱好者 天气状况 天气 温度 湿度 风力 是你决定是否去打球的重要因素 利用ID3算法构筑决策树 条件属性 天气 温度 湿度 风力决策 结果 属性 yes 打球 no 不打球 训练集 ID3算法致力于建立这样形式的决策树 决策树是类似流程图的倒立的树型结构 最顶层节点为根节点 是整个决策树的开始 树的每个内部节点表示在一个属性上的测试 其每个分支代表一个测试输出 树的每个叶节点代表一个类别 利用决策树 判定树 进行属性选择 在决策树的每个节点 算法选择 最好 的属性 将数据划分成类 当决策树归纳用于属性子集选择时 不出现在树中的所有属性假定是不相关的 出现在决策树中的属性形成相关的属性子集 Problem 如何构造决策树 基于信息增益的属性选择过程 对本例 结果属性打球有两个取值 即 Yes No 因此有两个不同的类 即m 2 设C1类对应 Yes C2类对应 No C1有9个元组 C2有5个元组 我们根据上式可以计算S中元组分类所需要的期望信息 I S 初始不确定性 基于信息增益的属性选择过程 如果根据天气属性划分 有三个取值 晴朗 多云 雨天 S晴 2 3 天气属性取值 晴朗 的样例共5个 2正 3反S多云 4 0 天气属性取值 多云 的样例共4个 4正 0反S雨 3 2 天气属性取值 雨天 的样例共5个 3正 2反故 E 天气 知道天气之后的不确定性 基于信息增益的属性选择过程 则 根据天气进行划分的信息增益为 Gain 天气 I S E 天气 0 940 0 694 0 246位根据相似的思路 可以继续计算用其他属性进行划分的信息增益 显然 根据属性 天气 进行划分带来的信息增益最大 所以选择天气作为决策树的根节点 基于信息增益的属性选择过程 70 最终生成的决策树 根据生成的决策树 出现在树中的属性形成归约的属性子集 天气 湿度 风力 2 属性相关分析的步骤 属性相关分析步骤 1 数据收集 通过查询处理 建立目标数据集 以及对比数据集 如需要进行比较概念描述的话 对比数据集与目标数据集互不相交 2 利用保守的AOI方法进行属性相关分析 利用AOI方法进行初步的属性相关分析工作 删除数据集中取不同值个数过多的属性或对可概化数据进行概化 保险起见 这里属性概化控制阈值都设置的较大 以便留下较多属性供稍后属性相关分析用 利用AOI方法所获得的数据集被称为数据挖掘任务的候选数据集 概念描述的属性相关分析步骤 3 使用选定的相关分析度量删除不相关和弱相关的属性 使用选定的相关分析度量 如上面介绍的信息增益度量 评估候选关系中的每个属性 可以设置一个阈值来定义 弱相关 4 使用AOI产生概念描述 利用更严格的属性概化控制阈值来进行基于属性的归纳操作 若描述性挖掘任务是概念描述 仅涉及初始目标数据集 若描述挖掘任务是比较概念描述 则需包括初始目标数据集 及相应的对比数据集 示例 背景 假定我们想得到Big university的研究生的一般特征描述 给定的属性是name gender birth place birth date phone 和gpa 示例 具体步骤 1 收集目标数据 建立研究生目标数据集合和本科生对比数据集 2 利用保守的属性概化阈值进行面向属性的归纳 通过属性删除和属性概化进行预相关分析 与前面的例子类似 属性name和phone 因含有过多取值而被删除 使用概念分层将birth place概化到birth country属性 将birth date属性概化到age range 同样将属性major和gpa概化到更高的概念分层 从而获得如下表所示的候选数据集 示例 表5目标候选数据集 研究生 示例 表6对比数据集 本科生 示例 3 用属性相关分析方法 如 利用信息增益法从候选数据集中选择有关的属性 假设C1对应研究生数据集 其中包含120个数据行 C2对应本科生数据集 其中包含130个数据行 为计算每个属性的信息增益 需要首先利用信息量的计算公式来计算该属性对当前数据进行分类所需要的信息熵 示例 示例 4 假设属性阈值设为0 1 以此来帮助判断弱相关属性 因此由于属性gender 0 0003 和birth country 0 0407 都小于这一阈值 因此被认为是弱相关的 而同时从目标数据集和对比数据集中删除 并获得初始工作数据集 表7初始工作数据集 研究生 表8初始工作数据集 本科生 示例 5 利用面向属性的归纳算法 最终获得研究生目标数据集的概念描述 定量描述规则 81 回顾 定量描述规则 一个定量描述规则可表示为 其中 wi是conditioni的t weight 给出了目标集合X中 各个条件出现的兴趣度 示例 82 表7初始工作数据集 研究生 表8初始工作数据集 本科生 5 4挖掘类比较 区分不同的类 在许多实际应用中 用户可能需要对多个不同的数据集进行对比归纳 以获得比较概念描述 即 基于对比数据集挖掘出目标数据集的概念描述 注意 目标数据集与对比数据集应包含相同的属性 维 以确保它们是可比的 如 雇员 地址和商品这三个数据集就是不可比的 而过去3年的销售额数据是可以比较的 不同系别的学生数据也是可比的 5 4挖掘类比较 区分不同的类 在比较概念描述中 属性概化仍是一个重要的处理操作 注意 属性概化在所有比较类上同步进行 以确保数据集中属性均被概化到同一抽象层次 如 要对一个商场1999年和2000年的数据集进行比较归纳 这两年的销售数据中location属性均需要同时进行city属性 province属性和country属性抽象层次的概化 并要概化到同一层次 即 同时概化到city层次 province层次和country层次 5 4挖掘类比较 区分不同的类 比较概念描述的步骤 比较概念描述结果的表示 1 比较概念描述的步骤 87 比较方法的实现步骤 1 数据收集 通过查询处理收集数据库中与挖掘任务相关的数据集 并将它们分为目标数据集和对比数据集 2 属性相关分析 如果数据集中包含的属性个数过多 需要进行属性相关分析 以保留强相关的属性 供稍后分析 3 同步概化 依据用户或专家所设置的阈值 同步概化目标数据集和对比数据集 得到主目标数据集以及主对比数据集 88 比较方法的实现步骤 4 挖掘结果表示 根据用户的要求 对主目标数据集以及主对比数据集进行某个或某些属性 维 上的比较 将结果用表格 图形 或规则等的形式表示 如需要 用户还可以在目标数据集和对比数据集上进行上钻 下钻或其他的OLAP操作 示例 背景 假定我们想对Big university的研究生和本科生的一般特征进行对比 给定的属性是姓名 性别 专业 籍贯 出生日期 居住地 电话号和信用情况 示例 具体步骤 1 收集数据 建立研究生目标数据集和本科生对比数据集 2 对两个数据集进行属性相关分析 删除无关或弱相关的属性 如 name gender birth place和phone 只留下与挖掘任务密切相关的属性 3 进行同步概化 根据用户指定或预先设置的控制阈值 对目标数据集和对比数据集中的属性进行同步概化 得到如表5和6所示的主目标数据集和主对比数据集 示例 表5目标候选数据集 研究生 表6对比数据集 本科生 示例 具体步骤 4 对挖掘结果进行可视化 需注意的是 在显示挖掘结果时 还包括一个对比度量 如表中的count 以对目标数据集和对比数据集进行比较 例如 得到如下的结论 研究生一般年龄更大一些 且gpa更高一些 仅有2 32 的年龄在25 30之间且gpa为良的研究生来自科学专业 而相比之下 满足同样条件的本科生的比例占到5 02 2 比较概念描述结果的表示 94 比较结果的表示 与特征化概念描述类似 比较概念描述也可采用多种形式 如 关系表 组合表 棒图 曲线和规则的形式加以表示 在上述表示方式中 除规则表示外 其他表示方法与特征化中的表示方法相同 因此 这里着重介绍基于规则的表示方法 95 基于规则的表示方法 设qa是一个概化后的数据行 Cj为目标数据集 qa可能包含Cj中的一部分数据行 当然也可能包含对比数据集中的数据行 则 qa的d weight值定义为 qa所包含的Cj中数据行数与qa所涵盖的所有数据行数 包括目标数据集及所有对比数据集 之比 96 基于规则的表示方法 目标数据集中一个较大的d weight值意味着相应的概念 概化后某一数据行 涵盖较多的目标数据集中的初始数据行 反之 则意味着该概念涵盖较多的非目标 对比 数据集中的初始数据行 示例 背景 设在前面所进行的比较概念描述中 所获得的一个概化后的数据行为 major 科学 andage range 25 30 andgpa 良 的有关内容如表9所示 表9研究生与本科生的其中一个比较结果 示例 从表9得到 major 科学 andage range 25 30 andgpa 良 该数据行相对目标数据集的d weight为 90 210 90 30 而相对对比数据集的d weight为 210 210 90 70 即 若一个学生专业为 科学 年龄在25 30之间且gpa为良 则根据现有数据 有30 的可能为研究生 而70 的可能为本科生 5 5在大型数据库中挖掘描述统计度量 关系数据库系统通常提供了5个内置的合计函数 count sum avg max 和min 这些函数可以对数据进行高效运算 仍可用于多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 琵琶行集体备课课件
- 琵琶行并序课件
- 服装扶贫工程方案范文(3篇)
- 扶贫希望工程方案(3篇)
- 洞库工程临时伪装方案(3篇)
- 电梯工程的安装方案(3篇)
- 农业电商新业态:2025年乡村特色农产品直播基地风险管理报告
- 广西灵山县大步江水闸除险加固工程环评报告
- 玲玲的画课件
- 风机更换工程方案(3篇)
- 2024至2030年中国钾长石土壤调理剂行业市场深度分析及投资前景展望报告
- 2024事业单位工勤技能考试题库(含答案)
- DL∕T 1935-2018 架空导线载流量试验方法
- 异地就医备案的个人承诺书
- 小学数学解题研究(小学教育专业)全套教学课件
- 个体诊所备案信息表
- 招标代理服务服务方案
- 小提琴培训行业市场前瞻与未来投资战略分析报告
- 网络舆情应对及处置
- (带目录)员工劳动合同书版Word模板下载
- 最高人民法院民法典婚姻家庭编司法解释
评论
0/150
提交评论