数据采集与预处理电子教案 P1-T2-认识数据预处理技术_第1页
数据采集与预处理电子教案 P1-T2-认识数据预处理技术_第2页
数据采集与预处理电子教案 P1-T2-认识数据预处理技术_第3页
数据采集与预处理电子教案 P1-T2-认识数据预处理技术_第4页
数据采集与预处理电子教案 P1-T2-认识数据预处理技术_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集与预处理课程教案课程思政版·理实一体化课程名称数据采集与预处理课程类型专业核心课(理实一体化)教案编号P1-T2授课周次第周章节项目1数据采集与预处理准备本次学时4学时(180分钟)课题任务2认识数据预处理技术授课类型理论+实践授课地点计算机实训室授课班级授课日期年月日授课教师教室/实训室计算机实训室一、教学目标目标维度具体内容🎯课程思政目标(价值塑造)通过本任务的学习,培养学生:①精益求精的工匠精神和严谨细致的工作态度;②遵守职业规范、保护数据安全的职业道德意识;③团队协作、共同解决技术问题的合作精神。📚认知目标(知识传授)①识记数据采集与预处理的概念和目的。②领会数据采集与预处理的意义。💪能力目标(技能培养)①熟悉数据采集技术。②熟悉数据预处理技术。③学会数据采集与预处理环境的搭建。二、教学重点与难点(核心知识点)类别内容教学重点1.学习数据预处理技术等相关知识,如数据采样的主要任务和常用方法、数据清理的主要任务和常用方法、数据集成的主要任务和常用方法。2.完成Kettle系统环境的搭建。3.了解原始数据的主要特征。4.理解数据预处理的作用和工作任务。5.学会数据处理工具平台的搭建。6.数据预处理的概念教学难点1.学习数据预处理技术等相关知识,如数据采样的主要任务和常用方法、数据清理的主要任务和常用方法、数据集成的主要任务和常用方法。2.完成Kettle系统环境的搭建。3.了解原始数据的主要特征。三、教学过程设计(180分钟理实一体化)教学环节时间教学内容与活动课程思政融入课程导入10分钟1.情景导入:展示认识数据预处理技术在实际项目中的应用案例2.回顾上节课的知识点,建立知识联系3.提出本节课的学习问题:如何实现认识数据预处理技术?4.明确本次任务目标和学习路径创设真实应用情境,激发学习兴趣,潜移默化融入思政元素,引导学生思考技术与社会的关系。理实一体化78分钟g.组合完整化方法:这种方法用缺失属性值的所有可能的属性取值来尝试,并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法,能够得到较好的约简结果。当数据量很大或者缺失的属性值较多时,可采用条件组合完整化方法。两者采用相同的填补缺失属性值原则,不同之处在于,条件组合完整化方法只是其从决策相同的对象中尝试所有的属性值的可能情况,而不是根据信息表中所有对象进行尝试。条件组合完整化方法能够在一定程度上减小组合完整化方法的计算开销(在信息表包含不完整数据较多的情况下,可能的测试方案将剧增)。h.回归:基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程可估计未知属性值,以此估计值来进行填充。当变量不是线性相关或是与预测变量高度相关时,会导致有偏差的估计。③平滑有噪声的数据。噪声是指测量变量中的随机错误或偏差,包含错误值或偏离期望的孤立点值。数据平滑包括以下几种方法。a.分箱:通过考察数据的“近邻”(即周围的值)来平滑有序数据值。这些有序的值被分布到一些桶或箱中。分箱方法考察邻近的值,因此它进行的是局部平滑。如果使用箱均值平滑,则箱中每一个值被箱中的平均值替换;如果使用箱中位数平滑,则箱中的每一个值被箱中的中位数替换;如果使用箱边界平滑,则箱中的最大值和最小值同样被视为边界,箱中的每一个值被最近的边界值替换。一般而言,宽度越大,平滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是一个常量。分箱也可以作为一种离散化技术使用。b.回归:用一个函数拟合数据来平滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得通过一个属性能够预测另一个属性。多线性回归是线性回归的扩展,它涉及两个以上的属性,并且数据会拟合到一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。c.聚类:将类似的值组织成群或簇,从而检测离群点。直观地讲,落在簇集合之外的值都可以视为离群点。(3)数据集成数据集成指将来自多个数据源的数据合并,形成一致的数据存储,如将不同数据库中的数据集成到一个数据仓库中存储。有时数据集成之后还需要进行数据清理,以消除可能存在的数据冗余。在进行数据集成时需要考虑很多问题。①实体识别问题。模式集成和对象匹配可能需要技巧。来自多个信息源的现实世界的等价实体如何才能“匹配”?这涉及实体识别问题。例如,如何确定一个数据库中的cust_id和另一个数据库中的cust_number指的是同一实体?可以借助属性的元数据(如名称、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值的空值规则)进行判断。这种元数据可以帮助用户避免模式集成的错误,还可以帮助用户转换数据。在数据集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。②冗余问题。冗余是数据集成的另一个重要问题。一个属性(如年收入)如果能由其他属性“导出”,则这个属性可能是冗余的。属性命名的不一致也可能导致数据集成过程中的冗余。③元组重复问题。通过了解国家大数据战略,培养学生的数据主权意识和科技报国情怀,引导学生认识到数据安全的重要性。理实一体化77分钟除了检测属性间的冗余,还应在元组级检测重复。例如,对于给定的唯一数据实体,可能存在两个或多个相同的元组。④数据值冲突问题。数据集成还涉及数据值冲突问题。例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同,这可能是因为表示、尺度或编码不同。例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。属性也可能在不同的抽象层中有着不同的含义。⑤数据转换问题。数据转换主要是指将数据转换成适用于挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间,这对于基于距离的数据挖掘算法尤为重要。数据转换的具体方法包括平滑处理、聚集处理、数据泛化处理、规格化、属性构造等。⑥数据归约问题。数据归约指在不影响数据挖掘结果的前提下,通过数值聚集、删除冗余特性的办法压缩数据,提高数据挖掘的质量,降低时间复杂度。数据归约策略包括维归约、数量归约和数据压缩。维归约减少了所考虑的随机变量或属性的个数。用于分析的数据集可能包含数以百计的属性,其中大部分属性与挖掘任务不相关或冗余。例如,在分析银行客户的信用度时,诸如客户的电话号码、家庭住址等属性就可能与该数据挖掘任务不相关,或者说是冗余的。维归约通过减少不相关的属性(或维)达到减小数据集规模的目的。数量归约用替代的、较小的数据表示形式替换原数据。数据压缩使用转换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构而不损失信息,则该数据归约为无损的;如果只能近似重构原数据,则该数据归约为有损的。⑦特征选择问题。将高维空间的样本通过映射或者变换的方式转换到低维空间,可达到降维的目的,并通过特征选取删除冗余和不相关的特征来进一步降维。特征选择是指从原始特征中挑选出一些最有代表性的特征,分为过滤式、封装式和嵌入式3种类型。过滤式的主要思想是,对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表该维特征的重要性,并依据权重排序。其主要方法有卡方检验(Chi-squareTest)、信息增益(InformationGain)、相关系数(CorrelationCoefficient)等。封装式的主要思想是,将子集的选择看作搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样即可将子集的选择看作优化问题,有很多的优化算法可以解决这个问题,尤其是一些启发式的优化算法,如人工蜂群算法、粒子群优化算法等。此外也可以采用递归特征消除算法来实现。通过独立实践操作,培养学生自主探究能力和解决实际问题的技术应用能力,强调规范操作和数据安全意识。课堂总结15分钟1.梳理本次课程的核心知识点2.对比总结认识数据预处理技术的关键操作步骤3.布置课后作业:完成课后练习题,预习下一任务4.预告下一次课程内容归纳总结知识要点,强化职业规范意识,鼓励学生持续学习、精益求精,以工匠精神要求自己。四、课后作业①复习并整理本次课程的核心知识点,撰写不少于200字的学习心得。②完成教材项目1数据采集与预处理准备

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论