全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 .什么是数据挖掘? 有什么样的功能?从大量的、不完整的、有噪声的、模糊的、随机的数据中提取出隐藏在其中的、人们不熟悉但潜在有用的信息和知识的过程称为数据挖掘。 相关名称包括知识发现、数据分析、数据融合、决策支持等。数据挖掘的功能包括概念描述、相关分析、分类和预测、聚类分析、趋势分析、孤立点分析、偏差分析等。2 .什么是粒度? 对数据仓库有什么影响? 用粒度整理数据的方法是什么?粒度是指以数据仓库中的数据为单位存储的数据细分和聚合度级别。 粒度会影响存储在数据仓库中的数据量的大小,并且会影响数据仓库能够回答查询问题的详细程度。 按粒度组织数据的方法主要有:单纯堆积结构轮转综合结构简单的直接结构连续结构3、简述数据仓库设计的三级模型及其基本内容。概念模型设计是一个高抽象层面的设计,其主要内容是系统边界的定义和主题域的确定。逻辑模型设计的主要内容包括主题域分析、粒度级别划分决策、数据划分策略决策、关系模式定义和记录系统定义。物理数据模型设计的主要内容包括确定数据存储结构、确定数据存储位置、确定存储分配以及确定索引策略。 设计物理数据模型时主要考虑的因素包括: I/O访问时间、空间利用率和维护成本等。提高性能的主要措施是划分粒度、分割数据、整合表格、创建数据序列、引入冗馀、生成派生数据和创建广义索引。4 .为什么在数据挖掘之前预处理原始数据?原始商业数据来自多个数据库或数据仓库,其结构和规则可能不同,原始数据可能变得非常杂乱,即使在同一数据库中也可能存在重复的不完整数据信息,从而提高了效率以满足数据挖掘的要求为数据挖掘算法提供完整、清洁、准确、符合目的的数据,减少算法计算量,提高挖掘效率和准确性。5 .简述数据的预处理方法和内容。数据清洗:填充空缺值,识别孤立点,去除与干扰无关的数据。数据整合:将多个数据源的数据结合,存储在一致的数据存储中。 需要注意不同数据源的数据匹配问题、数值冲突问题、冗馀问题等。数据转换:将原始数据转换为适合数据挖掘的形式。 包括数据聚合、聚合、概况化和规范化,可能需要重建属性。数据汇总:缩小数据的获取范围,根据数据挖掘算法的需要,得到与原始数据相同的分析结果。6 .简述数据清理的基本内容。尽可能给属性名称和属性值以明确的含义统一多个数据源的属性值代码删除不需要的唯一属性和键值(例如,自动增加的id )删除重复属性(在某些分析中,年龄和出生日期可能是重复属性,但在某些情况下可能同时需要)。删除可忽略的字段(大多数null值属性通常没有多大价值,因此必须删除错误的数据挖掘结果)合理选择关联字段(对于多个关联性强的属性,重复无用,只要选择其中的部分用于数据挖掘即可,例如价格、数据、金额)。删除数据中的噪音、填充值、缺失值、处理不一致数据。7 .简述如何处理空缺值。忽略该记录删除属性手动填写空缺值使用默认值使用属性平均值使用同种样品的平均值预测最可能的值。8 .常见的分箱方法是什么?数据平滑的方法是什么?分箱的方法主要如下统一权重法(也称为等深分箱法)统一区间法(也称为等幅分箱法)最小熵法自定义区间法数据平滑的方法主要有平均值法、边界值法、中值法。9 .什么是数据规范化? 归一化的方法是什么?写对应的转换公式。缩放数据(例如,更改大的单位),以便数据适合于称为规范化的特定区域(例如,0.0到1.0 )。 标准化的一般方法包括:(1)最大-最小正规化:(2)零平均归一化:(3)小数标准化: x=x0/1010 .数据汇集的方法是什么?为什么要签订维度合同?数据立方体聚集维归约数据压缩数值压缩离散化和概念分层删除聚合维不重要的属性,减少数据立方体的维数,减少数据挖掘中处理的数据量,提高挖掘效率。11 .什么是群集? 和分类有什么不同?集群在将物理或抽象对象集合编组到多个集群或集群中的过程中,在同一集群内的对象之间具有高相似度,并且在不同集群内的对象之间存在较大差异。聚类与分类不同,聚类被分类的类是未知的,分类是可以按照已知规则进行的聚类是没有指导性的学习,不依赖于预先定义的类和带有类标签的训练事例,属于观察性的学习,分类属于有指导性的学习,是示例性的学习。12 .聚类分析的典型应用举例说明。商业:市场分析师从客户库中发现不同的客户库,帮助不同的购买模式描述不同的客户库特征。生物学:导出植物和动物的分类,根据分类得出对种群固有结构的认识。WEB文档分类其他:地球观测数据库中相似地区的特定各种投保者的分组在一个城市中不同类型、价值、地理场所的房屋分组等。聚类分析也可以在进行聚类之后用其它数据挖掘算法作为其它数据挖掘算法的预处理进行分类等。 聚类分析是数据的简化技术,由基于类似数据特征的变量和事例组合而成。13 .聚类分析中常见的数据类型是什么? 什么是差异度矩阵? 有什么特点?常见的数据类型包括区间尺度变量、尺度型变量、二元变量、公称型、序数型、混合型等。 差异度矩阵是存储所有对象的两个之间的差异度的矩阵,是一个nn维的单模矩阵。 其特征在于,d(i,j)=d(j,I ),d(i,i)=0,d(j,j)=0。 这将是:14 .分类知识的发现方法主要是什么?分类过程通常包括哪两个步骤?分类规则挖掘方法通常为决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。 分类过程分为两个阶段:首先是已知的训练数据集,根据属性的特征,按类型分类合理的描述或模型,即根据查找分类规则的规则对新数据进行分类。15 .什么是决策树? 用决策树怎么分类?决策树是以样本的属性为节点,以属性的取值为枝干的树形结构。 它利用信息理论原理分析和总结了大量样本的属性。 决策树的根节点是所有样本中信息量最大的属性。 树的中间节点是以该节点为根的子树中包含的样本的集中信息量最大的属性。 决策树的叶节点是样本的类别值。决策树用于新样本的分类,即由决策树测试新样本的属性值,从树的根节点,对应于样本属性值,逐渐沿着决策树下行至树的叶节点,该叶节点表示的类别是新样本的类别。 决策树方法是数据挖掘中非常有效的分类方法。16 .简述ID3算法的基本思想及其主要算法的基本步骤。首先,找出最具有辨别能力的元素,然后将数据划分成多个子集,每个子集选择最具有辨别能力的元素,并且进一步划分直到所有子集只包括相同类型的数据为止。 最后得到决策树,可以用它对新样本进行分类。主要算法如下:从训练集中随机选择既包含正例又包含负例的子集(称为窗口)。在当前窗口中用“建树算法”形成决策树训练组(窗口除外)中的例子,用得到的决策树进行类别判定,找出错误判定的例子如有误判例,将其插入窗口,重复步骤,否则结束。17 .简述ID3算法的基本思想及其建树算法的基本步骤。首先,找出最具有辨别能力的元素,然后将数据划分成多个子集,每个子集选择最具有辨别能力的元素,并且进一步划分直到所有子集只包括相同类型的数据为止。 最后得到决策树,可以用它对新样本进行分类。建木算法的具体步骤如下:针对当前例子的集合,计算各特征的相互信息选择互信息最大的特征Ak;Ak取同一值的例子为同一子集,AK取若干值则需要若干子集对于同时包含正例和负例的子集,递归调用建树算法子集只包含正例或负例的话,在分支标记上加上p或n返回呼叫处。18 .将某事务项目集构成下表,将其中的支持度和信赖度的计算空白完成。事务ID项目集L2支持率%规则可靠度%T1a,da,b33.3AB50T2d,ea,c33.3CA60T3a,c,ea,d44.4AD66.7T4a,b,d,eb,d33.3BD75T5a、b、cc,d33.3CD60T6a,b,dd,e33.3DE43T7a,c,dT8c,d,eT9b,c,d19 .从信息处理的角度来看,神经元具有什么基本特征? 写出记述神经元状态的M-P方程式,说明其意义。基本特征:多输入、单输出突触兼备兴奋和抑制两方面的性能能够进行时间加权和空间加权能够产生脉冲脉冲能够传递非线性,具有阈值。M-P方程式:Wij是神经元间连接强度,阈值,f(x )是阶跃函数。20 .遗传算法与传统的优秀算法相比有什么特点?遗传算法是集体搜索,有助于找到全局最优解遗传算法采用高效、定向的随机搜索,搜索效率高遗传算法处理的对象不是参数而是个体,具有广泛的应用领域遗传算法用适应值信息评价个体,不需要导数和其他辅助信息,运算速度快,适应性好遗传算法具有隐式并行性,运行效率更高。21 .建立不对称二元变量差异度计算公式(jaccard系数),并计算下表中的每个对象之间的差异度。测试项目对象test-1战斗机test-2战斗机test-3战斗机test-4战斗机test-5战斗机test-6战斗机OBJ1ynpnnnOBJ2战斗机ynpnpnOBJ3战斗机nynynn简述22.k-均值算法的输入、输出和聚类过程(流)。输入:包含群集数k和n个对象的数据集。输出: k个聚类使均方误差准则最小化。步骤:任意选择k个对象作为初始集群中心计算其他对象与该k个中心之间的距离,将各个对象汇总到“最近”群集中计算各集群中对象的平均值,重新选择集群中心(平均值“最近”的对象值)重复步骤23,直到集群中心不变。23 .简述k -中心点算法的输入、输出和聚类过程(流程)。输入:包含结果群集数k、n个对象的数据集输出: k个群集最小化所有对象与最接近的中心点之间的差异度总和。进程:随机选择k个对象作为初始中心点计算其他对象与该k个中心之间的距离,将各个对象汇总到“最近”群集中随机选择中心点以外的对象Orandom,使用Orandom代替Oj计算总成本s如果是s0,用Orandom代替Oj,形成新的k个中心点集合重复步骤3、4,直到中心点改变为止。24 .什么是文本挖掘? 与信息检索有什么关系(异同)。文本挖掘是从大量文本数据中提取先前未知的有用、可理解和可操纵知识的过程。 与信息检索的区别如下:方法学差异:信息检索是以目标为导向的,用户需要明确提出查询要求的文本挖掘结果独立于用户的信息需求,用户无法预测。着眼点的差异:信息检索着重于文档中的单词、单词、链接的文本挖掘是理解文本的内容和结构。目的不同:信息检索的目的是从大量文本中找到满足该查询要求的文本子集,文本挖掘是为了揭示文本中隐藏的知识。评价方法不同:信息检索用检验率和检验率评价性能。 文本挖掘使用收入、可靠性、简洁性等来衡量所发现知识的有效性、可用性和可理解性。使用场景不同:文本挖掘是比信息检索更高水平的技术,可用于信息检索技术无法解决的许多情况。 这两种技术各有优势,既可以分别应用,又可以利用文本挖掘的研究成果提高信息检索的准确性和效率,改进检索结果的组织,使信息检索系统发展到新的水平。人工神经网络是由大量的简单处理单元广泛连接的网络,为了模拟生物神经网络的智能计算系统,神经网络是类似神经元的处理单元的组,各个连接与一个权重相关联。Apriori的优势和缺点:大大压缩了频繁聚集的大小,性能卓越。 缺点: (1)生成大量频繁集合;(2)如何重复扫描事务数据库?(3)在遍历第一个数据库之后,不需要使用原始数据库,而是使用上一个过程中使用的候选集合。在循环的初始阶段,候选项集的数目大于数据项的数目,并且结构的TID表可以大于原始事务数据库,尽管AprioriTid算法的优点是将逐渐减少的TID表替换为原始数据库。集群分析器:从这些数据集合中找到类似数据,并构成不同组数据挖掘过程:问题定义、数据准备、预处理、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年7月福建厦门市集美区国有资产投资有限公司招聘工作人员4人笔试历年典型考点题库附带答案详解试卷3套
- 2025山东济南城市投资集团有限公司招聘55人笔试历年备考题库附带答案详解试卷3套
- 2025安徽宿州首创水务有限责任公司招聘笔试表笔试历年常考点试题专练附带答案详解试卷3套
- 输电线路迁改项目信息化管理方案
- 混凝土搅拌站设备选型与配置方案
- 大豆加工技术优化方案
- 热力管网优化设计方案
- 逢格林公务员考试试题及答案
- 空间重构与土地利用规划
- 郴州市公务员考试考区试题及答案
- 辽宁省抚顺市东洲区2025-2026学年八年级上学期11月期中数学试题(含答案)
- 天柱山旅游管理答辩
- 执业药师考试试题带答案2025年
- 2025内蒙古巴彦淖尔市临河区招聘社区工作者80人笔试考试备考试题及答案解析
- 2025昆明市呈贡区城市投资集团有限公司及下属子公司第一批招聘(12人)笔试考试参考题库及答案解析
- 2024年广西中考数学第24题(说题课件)
- 湖北省武汉市2025年-2026年小学五年级数学期中考试(上,下学期)试卷及答案-共3套
- 2022年新媒体运营行业分析报告.pdf
- 新种子法解读
- 字作文纸A4打印模板
- 田英章 刘少英《历代名言帖谱》
评论
0/150
提交评论