




已阅读5页,还剩51页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
智能信息处理 习题答疑 助教 谭小勰邮箱 tanxx1214 习题 2 4 假设医院对18个随机挑选的成年人检查年龄和身体肥胖 得到如下结果 a 计算age和 fat的均值 中位数和标准差 b 绘制age和 fat的盒图 c 绘制基于这两个变量的散点图和q q图 习题 2 4 a 计算age和 fat的均值 中位数和标准差 变量age的均值为46 44 中位数为51 标准差为12 85 变量 fat的均值为28 78 中位数为30 7 标准差为8 99 习题 2 4 b 绘制age和 fat的盒图 Matlab StatisticsToolbox 中的boxplot x 命令 习题 2 4 c 绘制基于这两个变量的散点图和q q图 Matlab StatisticsToolbox plot age fat o qqplot age fat 习题 2 8 假设我们有如下二维数据集 a 把该数据看做二维数据点 给定一个新数据点x 1 4 1 6 作为查询点 使用欧几里得距离 曼哈顿距离 上确界距离和余弦相似性 基于与查询点的相似性对数据库的点排位 b 规格化该数据集 使得每个数据点的范数等于1 在变换后的数据上使用欧几里得距离对诸数据点排位 习题 2 8 a 把该数据看做二维数据点 给定一个新数据点x 1 4 1 6 作为查询点 使用欧几里得距离 曼哈顿距离 上确界距离和余弦相似性 基于与查询点的相似性对数据库的点排位 欧几里得距离 曼哈顿距离 上确界距离 余弦相似性 习题 2 8 a 把该数据看做二维数据点 给定一个新数据点x 1 4 1 6 作为查询点 使用欧几里得距离 曼哈顿距离 上确界距离和余弦相似性 基于与查询点的相似性对数据库的点排位 习题 2 8 a 把该数据看做二维数据点 给定一个新数据点x 1 4 1 6 作为查询点 使用欧几里得距离 曼哈顿距离 上确界距离和余弦相似性 基于与查询点的相似性对数据库的点排位 所以 排序分别为 欧几里得距离 x1 x4 x3 x5 x2曼哈顿距离 x1 x4 x3 x5 x2上确界距离 x1 x4 x3 x5 x2 x2 x6 x3 x4 余弦相似性 x1 x3 x4 x2 x5 习题 2 8 b 规格化该数据集 使得每个数据点的范数等于1 在变换后的数据上使用欧几里得距离对诸数据点排位 归一化后的数据 习题 2 8 b 规格化该数据集 使得每个数据点的范数等于1 在变换后的数据上使用欧几里得距离对诸数据点排位 重新计算欧几里得距离排序为 x1 x3 x4 x2 x5 习题 3 3 在习题2 2中 属性age包括以下值 以递增序 13 15 16 16 19 20 20 21 22 22 25 25 25 25 30 33 33 35 35 35 35 36 40 45 46 52 70 a 使用深度为3的箱 用箱均值光滑以上数据 说明你的步骤 讨论这种技术对给定数据的效果 b 如何确定该数据中的离群点 c 还有什么其他方法来光滑数据 习题 3 3 在习题2 2中 属性age包括以下值 以递增序 13 15 16 16 19 20 20 21 22 22 25 25 25 25 30 33 33 35 35 35 35 36 40 45 46 52 70 a 使用深度为3的箱 用箱均值光滑以上数据 说明你的步骤 讨论这种技术对给定数据的效果 对以上数据进行箱深度为3的箱均值光滑 需要一下步骤 第一步 对所有数据按从小到大排序 也可以从大到小 第二步 将数据划分到大小为3的等频的箱中箱1 13 15 16箱2 16 19 20箱3 20 21 22箱4 22 25 25箱5 25 25 30箱6 33 33 35箱7 35 35 35箱8 36 40 45箱9 46 52 70第三步 计算每个箱的均值第四步 将想汇总每一个值都替换为箱中的均值箱1 44 3 44 3 44 3箱2 55 3 55 3 55 3箱3 21 21 21箱4 24 24 24箱5 80 3 80 3 80 3箱6 101 3 101 3 101 3箱7 35 35 35箱8 121 3 121 3 121 3箱9 56 56 56 习题 3 3 在习题2 2中 属性age包括以下值 以递增序 13 15 16 16 19 20 20 21 22 22 25 25 25 25 30 33 33 35 35 35 35 36 40 45 46 52 70 b 如何确定该数据中的离群点 聚类的方法可用来将相似的点分成组或 簇 并检测离群点 落到簇的集外的值可以被视为离群点 作为选择 一种人机结合的检测可被采用 而计算机用一种事先决定的数据分布来区分可能的离群点 这些可能的离群点能被用人工轻松的检验 而不必检查整个数据集 c 还有什么其他方法来光滑数据 其它可用来数据光滑的方法包括别的分箱光滑方法 如中位数光滑和箱边界光滑 作为选择 等宽箱可被用来执行任何分箱方式 其中每个箱中的数据范围均是常量 除了分箱方法外 可以使用回归技术拟合成函数来光滑数据 如通过线性或多线性回归 分类技术也能被用来对概念分层 这是通过将低级概念上卷到高级概念来光滑数据 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 最小 最大规范化 z分数规范化 小数定标规范化 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 最小 最大规范化 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 z分数规范化 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 小数定标规范化 由于最大的绝对值为70 所以j 2则 习题 3 7 使用喜帖3 3中给出的age数据 回答一下问题 a 使用最小 最大规范化将age值35变换到 0 0 1 0 区间 b 使用z分数规范化变换age值35 其中age的标准差为12 94岁 c 使用小数定标规范化变换age值35 d 之处对于给定的数据 你愿意使用哪种方法 陈述你的理由 d 小数定标规范化 保持数据的分布和直观解释 同时针对该题还可以挖掘特殊的age数据组 最小最大规范化 当出现除遇到 出界失误 以外的一个落在最大值和最小值以外的点值时 会出现意外结果 Z分数规范化 Z分数规范化将数值转化成表示与平均值的距离的度量 基于标准差 没有小数定标规范化直观 习题 3 12 a 简略描述ChiMerge如何工作 b 取鸢尾花数据集作为待离散化的数据集合 使用ChiMerge方法 对四个数值属性分别进行离散化 分裂点 最终区间 习题 3 12 a 简略描述ChiMerge如何工作 b 取鸢尾花数据集作为待离散化的数据集合 使用ChiMerge方法 对四个数值属性分别进行离散化 分裂点 最终区间 a 伪代码 开始将数据按升序排列为每一个不同的数值分配一个单独的间隔当没有达到终止条件时 开始计算每对相邻间隔的开方值用最小的开方值合并这两个区间结束结束 习题 3 12 b 取鸢尾花数据集作为待离散化的数据集合 使用ChiMerge方法 对四个数值属性分别进行离散化 分裂点 最终区间 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 a 分别使用Apriori算法和FP growth算法找出频繁项集 比较两种挖掘过程的有效性 b 列举所有与下面的原规则匹配的强关联规则 给出支持度s和置信度c 其中 X是代表顾客的变量 如 A B 等 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 a 分别使用Apriori算法和FP growth算法找出频繁项集 比较两种挖掘过程的有效性 Apriori算法 由于只有5个购买事件 所以绝对支持度是5 min sup 3 第一步 扫描所有事物 对每个候选计数 生成C1 习题 6 6 绝对支持度是3 第一步 扫描所有事物 对每个候选计数 生成C1 C1 习题 6 6 绝对支持度是3 第二步 通过候选的支持度计数与最小支持度技术比较 确定L1 L1 C1 习题 6 6 绝对支持度是3 第三步 连接和剪枝 由L1产生候选C2 L1 C2 习题 6 6 绝对支持度是3 第四步 通过候选的支持度计数与最小支持度技术比较 确定L2 C2 L2 习题 6 6 绝对支持度是3 第五步 连接和剪枝 由L2产生候选C3 C3 L2 习题 6 6 绝对支持度是3 第六步 通过候选的支持度计数与最小支持度技术比较 确定L3 L3 C3 习题 6 6 绝对支持度是3 第七步 连接和剪枝 由L3产生候选C4 因为C4 因此算法终止 C4 L3 终止 习题 6 6 Apriori算法找出的所有频繁项集 L3 L2 L1 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 a 分别使用Apriori算法和FP growth算法找出频繁项集 比较两种挖掘过程的有效性 FP growth算法 数据库的都成扫描与Apriori算法相同 得到L1 再按支持度计数的递减序排序 得到L K 5 E 4 M 3 O 3 Y 3 N 2 D 1 扫描每个事物 按以上L的排序 从根节点开始 得到FP 树 习题 6 6 FP growth算法 数据库的都成扫描与Apriori算法相同 得到L1 再按支持度计数的递减序排序 得到L K 5 E 4 M 3 O 3 Y 3 扫描每个事物 按以上L的排序 从根节点开始 得到FP 树 习题 6 6 FP growth算法 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 a 分别使用Apriori算法和FP growth算法找出频繁项集 比较两种挖掘过程的有效性 效率比较 Apriori算法的计算过程必须对数据库作多次扫描 而FP 增长算法在构造过程中只需扫描一次数据库 再加上初始时为确定支持度递减排序的一次扫描 共计只需两次扫描 由于在Apriori算法中的自身连接过程产生候选项集 候选项集产生的计算代价非常高 而FP 增长算法不需产生任何候选项 习题 6 6 数据库有5个事务 设min sup 60 min conf 80 b 列举所有与下面的原规则匹配的强关联规则 给出支持度s和置信度c 其中 X是代表顾客的变量 如 A B 等 习题 6 8 数据库有4个事务 设min sup 60 min conf 80 a 在item category粒度 例如 itemi可以是 Milk 对于下面的规则模板 列出最大的k的频繁项集和包含最大k的频繁k项集的所有强关联规则 包括他们的支持度s和置信度c b 在brand item category粒度 例如 itemi可以是 Sunset Milk 对于下面的规则模板 列出最大k的频繁k项集 但不输出任何规则 习题 6 8 数据库有4个事务 设min sup 60 min conf 80 a 在item category粒度 例如 itemi可以是 Milk 对于下面的规则模板 列出最大的k的频繁项集和包含最大k的频繁k项集的所有强关联规则 包括他们的支持度s和置信度c 最大k 3 频繁3项集为 Bread Milk Cheese 产生如下规则 习题 6 8 数据库有4个事务 设min sup 60 min conf 80 b 在brand item category粒度 例如 itemi可以是 Sunset Milk 对于下面的规则模板 列出最大k的频繁k项集 但不输出任何规则 K 3频繁3项集 Wonder Bread Dairyland Milk Tasty Pie Wonder Bread Sunset Milk Dairyland Cheese 习题 6 14 a 假设挖掘除了关联规则 hotdogs humburgers 给定最小支持度阀值25 最小置信度阀值50 该关联规则是强规则吗 b 根据给定的数据 买hotdogs独立于买humburgers吗 如果不是 晾着之间存在何种相关联系 c 在给定的数据上 将全置信度 最大置信度 Kulczynski和余弦的使用与提升度和相关度进行比较 习题 6 14 a 假设挖掘除了关联规则 hotdogs humburgers 给定最小支持度阀值25 最小置信度阀值50 该关联规则是强规则吗 支持度support 2000 5000 40 25 置信度confidence 2000 3000 66 7 50 所以是强规则 习题 6 14 b 根据给定的数据 买hotdogs独立于买humburgers吗 如果不是 晾着之间存在何种相关联系 计算提升度 所以购买hotdogs和购买humburgers不独立 是正相关的 习题 6 14 c 在给定的数据上 将全置信度 最大置信度 Kulczynski和余弦的使用与提升度和相关度进行比较 P hotdogs humburgers 0 8P humburgers hotdogs 0 67全置信度 0 67最大置信度 0 8Kulczynski 0 74余弦 0 73提升度 1 3相关度 习题 8 7 a 如何修改基本决策树算法 一遍考虑每个广义数据元祖 即每个行 的count b 使用修改过的算法 构造给定数据的决策树 c 给定一个数据元组 它的属性depatment age和salary的值分别为 system 26 30 和 46 50K 该元组status的朴素贝叶斯分类是什么 习题 8 7 a 如何修改基本决策树算法 以便考虑每个广义数据元祖 即每个行 的count 基本的决策树算法应该进行如下修改以便考虑每个广义数据元祖的count 1 每个元组的count必须被整合到属性选择度量的计算 比如信息增益 2 把count值纳
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 储能系统效率研究-洞察及研究
- 食物网动态模拟-洞察及研究
- 量子态制备方法-第1篇-洞察及研究
- 高血压认知损害机制-洞察及研究
- 2025贵州大方县马场镇卫生院招聘(合同制)妇产科护理工作人员1名笔试备考题库及答案解析
- 2025赤水恒迅建筑工程有限公司项目管理人员聘任制招聘笔试模拟试题及答案解析
- 2025贵州施秉县人民医院招聘17人笔试备考题库及答案解析
- 2025福建厦门市集美区后溪中心幼儿园招聘笔试备考题库及答案解析
- 2025广东佛山市南海区第九人民医院招聘事业聘用制工作人员6人(第一批)笔试模拟试题及答案解析
- 2025广东清远市佛冈县招募银龄教师2人笔试备考试题及答案解析
- 柏拉图教育思想体系解析
- 奶茶线上活动方案
- 军训医疗知识培训
- 公司适用法律法规标准清单2025年08月更新
- 透视高考政治真题研究山东高考政治命题特点
- 2025年中国萝卜干市场调查研究报告
- 牙周疾病治疗沟通讲课件
- 患者的入院护理课件
- 聚磷酸铵阻燃剂市场分析报告
- 香港公司章程范本中文
- 数据治理与合规性试题及答案
评论
0/150
提交评论