




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
填空或简短回答:1.数据、信息和知识是广义数据表示的不同形式。2.知识模式的主要类型有:广义知识、相关知识、准知识、预测知识和特定知识3.网络挖掘研究的主要流派有:网络结构挖掘、网络使用挖掘、网络内容挖掘4.一般来说,KDD是一个多步骤的过程,通常分为基本阶段,如问题定义,数据提取,数据预处理,数据挖掘和模式评估。5.数据库中的知识发现过程模型包括:阶梯过程模型、螺旋过程模型、以用户为中心的过程结构模型、在线KDD模型、支持多数据源和多知识模型的KDD过程模型6.粗略地说,知识发现软件或工具的开发经历了三个主要阶段:独立知识发现软件、水平知识发现工具集和垂直知识发现解决方案。后两者反映了目前知识发现软件的两个主要发展方向。7.决策树分类模型的建立通常分为两个步骤:决策树生成和决策树剪枝。8.从所使用的主要技术来看,分类方法可分为四种类型:a)基于距离的分类方法b)决策树分类方法c)贝叶斯分类方法d)规则归纳方法9.挖掘关联规则的问题可以分为两个子问题:a)查找频繁项集:根据用户给定的支持找到所有频繁项集或最大频繁项集。b)生成关联规则:通过用户给定的最小确认在频繁项目集中搜索关联规则。10.数据挖掘是在相关学科充分发展的基础上提出并发展起来的。主要相关技术:数据库等信息技术的发展统计的深入应用人工智能技术的研究与应用11.衡量关联规则挖掘结果的有效性:应该从多种综合角度考虑:准确性:挖掘的规则必须反映数据的实际情况。实用性:挖掘出的规则必须简洁实用。新颖性:挖掘出的关联规则可以为用户提供新的有价值的信息。12.常见的约束类型有:单调性约束;反单调约束;可变约束;简单性约束。13.根据规则所涉及的级别,多级关联规则可以分为:同级关联规则:如果一个关联规则对应的项目具有相同的粒度级别,那么它就是同级关联规则。层间关联规则:如果在不同的粒度级别考虑问题,可以得到层间关联规则。14.根据聚类分析算法的主要思想,聚类方法可以总结如下。划分方法:数据划分是根据一定的标准构建的。属于这一类的聚类方法包括:k-均值、k-模型、k-原型、k-medoids、PAM、CLARA、CLARANS等。分层方法:给定的一组数据对象的分层分解。密度方法:基于数据对象的连接密度评估。网格方法:将数据空间划分为有限单元的网格结构,并根据网格结构进行聚类。建模方法:为每个集群假设一个模型,然后寻找能够很好地满足模型的数据集。15.班级间距离的测量主要包括:最短距离法:将两个类中最接近的两个元素之间的距离定义为类之间的距离。最大距离法:将两个类中最远的两个元素之间的距离定义为类之间的距离。中心法:将两个类的两个中心之间的距离定义为类之间的距离。类平均法:计算两个类中任意两个元素之间的距离,并将其合成为类之间的距离;偏差平方和。16.分层聚类方法可分为:内聚分层聚类:一种自下而上的策略,首先将每个对象视为一个集群,然后将这些原子集群合并成越来越大的集群,直到满足某个终止条件。分层聚类:采用自顶向下的策略,首先将所有对象放在一个聚类中,然后逐渐将它们细分为越来越小的聚类,直到达到某个终止条件。分层聚合的代表是AGNES算法。分层分割的代表是DIANA算法。关键词搜索:最简单的方式,它类似于传统的搜索技术。挖掘项目关联:重点挖掘页面上信息(包括关键词)之间的关联信息。信息分类和聚类:利用数据挖掘的分类和聚类技术实现页面的分类,并对页面进行更高层次的抽象和排序。自然语言处理:揭示自然语言处理技术的语义,实现对网页内容更精确的处理。18.网络访问挖掘中的常见技术:路径分析路径分析最常见的应用是确定网站中最常访问的路径。这些知识对于电子商务网站或信息安全评估非常重要。关联规则发现关联规则发现方法可用于从网络访问事务集中找到一般的关联知识。顺序模式发现在具有有序时间戳的事务集中,顺序模式的发现指的是找到那些内部事务模式,例如“一些项目跟随另一个项目”。分类我们发现,分类规则可以描述识别特定组的公共属性。该描述可用于对新项目进行分类。聚类可以从网络使用数据中收集具有相似特征的客户。将客户信息或数据项聚集在网络交易日志中可以促进未来市场策略的开发和实施。19.根据不同的功能和侧重点,数据挖掘语言可以分为三种类型:数据挖掘查询语言:希望用像SQL这样的数据库查询语言来完成数据挖掘的任务。数据挖掘建模语言:描述和定义数据挖掘模型的语言。标准数据挖掘建模语言旨在使数据挖掘系统具有模型定义和描述中可以遵循的标准。通用数据挖掘语言:通用数据挖掘语言结合了上述两种语言的特点。它不仅具有定义模型的功能,还可以作为查询语言与数据挖掘系统进行交互挖掘。通用数据挖掘语言的标准化是解决数据挖掘行业问题的一个有吸引力的研究方向。20.这些规则被归纳为四种策略:减法、加法、先加后减、先减后加。减法策略:以具体的例子为起点,扩展或推广例子,即减去条件(属性值)或减去连词(为方便起见,我们不考虑增加析取的扩展),使扩展的例子或规则不包含任何反例。加法策略:初始假设规则的条件部分是空的(永久真理规则)。如果规则包含反例,条件或连词将被添加到规则中,直到规则不再包含反例。先加后减的策略:由于属性之间的相关性,添加某个条件可能会使之前添加的条件无效,因此需要减去之前的条件。先减后加的策略:原因和先加后减一样。这也是为了处理属性之间的相关性。三种定义21.数据挖掘有广义和狭义之分。从广义的角度来看,数据挖掘是一个挖掘人们事先不知道的隐含知识的过程,对于从大数据集(可能是不完整的、有噪声的、不确定的和各种存储形式的)进行决策是有用的。从这个狭隘的角度来看,我们可以将数据挖掘定义为从特定形式的数据集提取知识的过程。22.网络挖掘的含义:针对各种网络数据,包括网页内容、页面间结构、用户访问信息、电子商务信息等。数据挖掘方法被用来帮助人们从互联网中提取知识,并为访问者、网站经营者和基于互联网的商业活动(包括电子商务)提供决策支持。23.K近邻的定义(KNN):通过计算每个训练数据到待分类元组的距离,获取与待分类元组最接近的K个训练数据,并且待分类元组属于其中K个数据的训练数据占大多数的类别。两种算法的性能分析24.k-means算法的性能分析;主要优势:它是解决聚类问题的经典算法,简单快速。对于处理大型数据集,该算法相对可伸缩且高效。当结果簇密集时,其效果更好。主要缺点它只能在定义了簇的平均值时使用,可能不适合某些应用。k(要生成的簇的数量)必须预先给出,并且对初始值敏感,这可能导致不同初始值的不同结果。它不适合于寻找具有非凸形状的簇或具有非常不同大小的簇。此外,它对“噪声”和异常数据很敏感。25.ID3算法的性能分析;ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的完整空间。因此,ID3算法避免了搜索不完整假设空间的主要风险:假设空间可能不包含目标函数。ID3算法在搜索的每一步都使用当前所有的训练样本,大大降低了单个训练样本对错误的敏感性。因此,通过修改终止标准,它可以很容易地扩展到处理包含噪声的训练数据。ID3算法在搜索过程中不回溯。因此,在没有回溯的爬山搜索中,它容易受到常见风险的影响:收敛到局部最优而不是全局最优。简短的回答或讨论26.Apriori算法有两个致命的性能瓶颈:多次扫描事务数据库,需要大量的输入/输出负载对于每个K周期,候选集合Ck中的每个元素必须通过扫描数据库一次来验证,以查看它是否加入Lk。如果存在包含10个项目的频繁大项目集合,则事务数据库需要被扫描至少10次。B.可能的大候选集由Lk-1生成k-候选集Ck呈指数增长,例如,104个1-频繁项集可能生成接近107个元素的2-候选集。如此大的候选集对时间和主存储空间都是一个挑战。一种基于数据分割的方法:基本原则是“支持度小于最小支持度的k-项集不能是全局频繁的”。27.提高Apriori算法适应性和效率的主要改进方法有:一种基于数据划分的方法:基本原理是“在一个划分中支持度小于最小支持度的k项集不能是全局频繁的”。基于哈希的方法:基本原则是“支持度小于哈希桶中最小支持度的k项目集不能是全局频繁的。”c .基于抽样的方法:基本原则是“通过抽样技术评估待抽样的子集,依次估计k-项集的全局频率”。其他:例如,动态删除无用的事务:“不包含任何Lk的事务不会影响未来的扫描结果,因此可以被删除”。28.面向网络的数据挖掘比数据库和数据仓库的数据挖掘复杂得多:异构数据源环境:网站上的信息是异构的。每个站点的信息和组织是不同的。有大量的非结构化文本信息和复杂的多媒体信息。网站使用和安全性、隐私要求各不相同,等等。数据很复杂:有些是非结构化的(如网页),通常用长句或短语来表达文档类信息;有些可能是半结构化的(例如电子邮件、HTML页面)。当然,有些有很好的结构(例如电子表格)。揭示包含在这些复合对象中的一般描述特征是数据挖掘不可推卸的责任。动态应用环境:网络上的信息经常变化。新闻和股票等信息是实时更新的。这种高度变化也反映在页面的动态链接和随机访问上。网络用户是不可预测的。网络上的数据环境非常嘈杂。29.简要描述知识发现项目的过程管理过程模型。最小过程模型将KDD过程分为IM1,IM2,IM6和其他步骤。在每个步骤中,讨论几个问题,并根据一定的质量标准控制项目的实施。任务和目的:这是KDD项目的规划阶段。它确定企业的挖掘目标,选择知识发现模式,并编译从知识发现模式获得的元数据。其目的是将企业的挖掘目标嵌入到相应的知识模式中。任务和目的:这是KDD的预处理阶段。IM2a、IM2b和IM2c可用于分别对应于数据清洗、数据选择和数据转换的阶段。目的是生成高质量的目标数据。任务和目的:这是KDD的采矿准备阶段。数据挖掘工程师进行挖掘实验,反复测试和验证模型的有效性。目的是通过实验和培训获得知识集中,并为最终用户提供可用的模型。任务和目的:这是KDD的数据挖掘阶段。用户通过指定数据挖掘算法获得相应的知识。IM5任务和目的:这是KDD的知识表示阶段,按照规定的要求形成规范化的知识。任务和目的:这是KDD的知识解释和使用阶段。其目的是根据用户需求直观地输出知识或将其集成到企业的知识库中。30.提高Apriori算法适应性和效率的主要改进方法有:一种基于数据划分的方法:基本原理是“在一个划分中支持度小于最小支持度的k项集不能是全局频繁的”。基于哈希的方法:基本原则是“支持度小于哈希桶中最小支持度的k项目集不能是全局频繁的”。基于采样的方法:基本原理是“通过采样技术来评估待采样的子集,并依次估计k-项集的全局频率”。其他:例如,动态删除无用的事务:“不包含任何Lk的事务不会影响未来的扫描结果,因此可以被删除”。31.数据分类的两个步骤是什么?建立一个模型来描述一组预定的数据类或概念数据元组也称为样本、实例或对象。为建模而分析的数据元组形成训练数据集。训练数据集中的单个元组被称为训练样本,也称为引导学习,因为每个训练样本的类标签被提供。分类模型通过分析训练数据集来构建,并且可以以分类规则、决策树或数学公式的形式来提供。使用模型的分类首先,评估模型(分类)的预测精度。如果模型的准确性被认为是可接受的,它可以用于分类数据元组或具有未知类标签的对象。32.网络访问信息挖掘的特点:网络访问数据容量大、分布广、内涵丰富、形式多样。一个中型网站每天可以记录几兆字节的用户访问信息。广泛分布于世界各地。有各种形式的访问信息。获取信息有着丰富的内涵。网络访问数据包含可用于决策的信息每个用户的访问特征可以用来识别用户和网站访问的特征。同一类别用户的访问代表同一类别用户的个性。在一段时间内访问数据代表了组用户的行为和组用户的共性。网站访问信息数据是网站设计者和访问者之间的桥梁。Web访问信息数据是数据挖掘研究的良好对象。网络访问信息挖掘对象的特征访问事务的元素是一个网页,事务元素之间有丰富的结构信息。访问事务的元素代表每个访问者的顺序关系,事务元素之间有丰富的顺序信息。每个页面的内容可以抽象成不同的概念,访问顺序和访问部分决定了这些概念。用户对页面的访问持续时间不同,访
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 船舶VR培训数据采集-洞察及研究
- 永州职业技术学院《园林植物配景》2023-2024学年第一学期期末试卷
- 湘南幼儿师范高等专科学校《动画影视欣赏》2023-2024学年第一学期期末试卷
- 湖南工程职业技术学院《粤剧唱腔与身段表演》2023-2024学年第一学期期末试卷
- 河南财经政法大学《复变函数与积分变换Ⅰ》2023-2024学年第一学期期末试卷
- 电容器能效提升策略-洞察及研究
- 贵州工程职业学院《产品手绘快速表现》2023-2024学年第一学期期末试卷
- 西藏藏医药大学《结构力学》2023-2024学年第一学期期末试卷
- 情感计算交互机制-洞察及研究
- 嘉峪关公司活动方案
- 村规民约范文大全三篇村规民约范文大全
- Q∕SY 01007-2016 油气田用压力容器监督检查技术规范
- 赤水市辖区内枫溪河(风溪河)、宝沅河(宝源河)、丙安河
- 水利水电 流体力学 外文文献 外文翻译 英文文献 混凝土重力坝基础流体力学行为分析
- 零星维修工程项目施工方案
- 物流公司超载超限整改报告
- 起重机安装施工记录表
- 江苏省高中学生学籍卡
- 碳排放问题的研究--数学建模论文
- 赢越酒会讲解示范
- 物业承接查验协议书
评论
0/150
提交评论