




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 第2章数据预处理 主要内容 2 1为什么要预处理数据2 2描述性数据汇总2 3数据清理2 4数据集成和变换2 5数据归约2 6数据离散化和概念分层产生 2 3 2 1数据预处理的原因 正确性 Correctness 一致性 Consistency 完整性 Completeness 可靠性 Reliability 数据质量的含义 现实世界的数据 不完整的缺少属性值或某些感兴趣的属性 或仅包含聚集数据 含噪声的包含错误或存在偏离期望的离群值 不一致的采用的编码或表示不同 如属性名称不同冗余的如属性之间可以相互导出 5 数据错误的不可避免性 数据输入和获得过程数据错误数据集成所表现出来的错误数据传输过程所引入的错误据统计有错误的数据占总数据的5 左右 Redmen Orr98 数据错误的危害性 高昂的操作费用糟糕的决策制定组织的不信任分散管理的注意力 7 数据预处理的形式 数据清理补充缺失数据 平滑噪声数据 识别或删除离群点 解决不一致数据集成集成多个数据库 数据立方或文件数据变换规范化和聚集数据归约简化数据 但产生同样或相似的结果 数据预处理的形式 小结 现实世界的数据一般是脏的 不完整的和不一致的 数据预处理技术可以改进数据的质量 从而有助于提高其后的挖掘过程的精度和性能 高质量的决策必然依赖于高质量的数据 因此数据预处理是知识发现过程的重要步骤 检测异常数据 尽早地调整数据并归约待分析的数据 将在决策过程中得到高回报 2 2描述性数据汇总 获得数据的总体印象对于成功的数据预处理是至关重要的 描述性数据汇总技术可以用来识别数据的典型性质 突显哪些数据值应当视为噪声或离群点 动机 更好的理解数据 主要内容 度量数据的中心趋势和离散程度 描述数据汇总的图形显示 2 2 1度量数据的中心趋势 算数平均值最常用分布式度量可以通过如下方法计算度量 即函数 将数据集划分成较小的子集 计算每个子集的度量 然后合并计算结果 得到原 整个 数据集的度量值 sum count min max 2 2 1度量数据的中心趋势 代数度量可以通过应用一个代数函数于一个或多个分布度量计算的度量 mean 中列数整体度量必须对整个数据集计算的度量 中位数 众数 代数度量 mean 加权平均 截断均值 去掉高 低极端值得到的均值 减小极端值对均值的影响 中列数 midrange max min 2 整体度量 中位数 median 适用于倾斜的数据 近似值计算如下 设N个数值排序 若N为奇数 中位数是有序集的中间值 若N为偶数 中位数是中间两个值的平均值 例如 1 3 5 7中位数41 3 5 6 7中位数5 整体度量 众数 mode 集合中出现频率最高的值 单峰 多峰 双峰 三峰 无众数对于适度倾斜的单峰频率曲线 有如下的经验关系 16 中位数 均值和众数 17 极差最大值与最小值之差四分位数中位数是第50个百分位数 是第2个四分位数第1个是第25个百分位数 Q1中间四分位数极差IQR Q3 Q1离群点outlier与数据的一般行为或模型不一致的数据对象盒图方差 标准差反映了每个数与均值相比平均相差的数值 2 2 2度量数据的离散程度 度量数据的离散程度 盒图boxplot 也称箱线图从下到上五条线分别表示最小值 下四分位数Q1 中位数 上四分位数Q3和最大值盒的长度等于IRQ中位数用盒内的横线表示盒外的两条线 胡须 分别延伸到最小和最大观测值 盒图的功能1 直观明了地识别数据集中的离群点2 判断数据集的偏态和尾重3 比较几批数据的形状 22 直方图 分位数图 分位数 分位数图 q q图 散布图 散布图矩阵局部回归 Loess 曲线 2 2 3基本描述数据汇总的图形显示 直方图Histogram 概括给定属性分布的图形方法每个矩形等宽 分位数图QuantilePlot 观察单变量数据分布的简单有效方法 散布图scatterplot 直接观察是否存在簇 cluster 离群点等每个点对应一个坐标对 局部回归 Loess 曲线 添加一条光滑曲线到散布图 2 3数据清理 现实世界的数据一般是不完整的 有噪声的和不一致的 数据清理的任务 填充缺失的值 光滑噪声并识别离群点 纠正数据中的不一致 28 忽略元组人工填写空缺值使用一个全局常量填充空缺值使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最可能的值填充空缺值 2 3 1缺失值 29 分箱 通过考察数据的 近邻 周围的值 来光滑有序数据的值 局部光滑 回归 用一个函数 回归函数 拟合数据来光滑数据 聚类 将类似的值聚集为簇 其他 如数据归约 离散化和概念分层 2 3 2噪声数据 30 分箱 通过考察数据的 近邻 周围的值 来光滑有序数据的值 局部光滑 划分 等频 等宽光滑 用箱均值 用箱中位数 用箱边界 去替换箱中的每个数据 2 3 2噪声数据 分箱法光滑数据 Sorteddataforprice indollars 4 8 9 15 21 21 24 25 26 28 29 34 Partitionintoequal frequency equi depth bins Bin1 4 8 9 15 Bin2 21 21 24 25 Bin3 26 28 29 34 Smoothingbybinmeans Bin1 9 9 9 9 Bin2 23 23 23 23 Bin3 29 29 29 29 Smoothingbybinboundaries Bin1 4 4 4 15 Bin2 21 21 25 25 Bin3 26 26 26 34 回归 用一个函数 回归函数 拟合数据来光滑数据 线性回归多元线性回归聚类 将类似的值聚集为簇 检测离群点 回归Regression x y y x 1 X1 Y1 Y1 聚类ClusterAnalysis 2 3 3数据清理作为一个过程 偏差检测使用 元数据 编码使用的不一致 数据表示的不一致 字段过载等一些规则 唯一性规则 连续性规则 空值规则 商业工具 数据清洗工具 数据审计工具数据变换 纠正偏差 数据迁移工具提取 变换 载入 ETL 工具加强交互性数据清理工具 Potter sWheel开发数据变换操作规范说明语言 2 4数据集成和变换 数据集成合并多个数据源中的数据 存放在一个一致的数据库 如数据仓库 中 源数据可能包括多个数据库 数据立方体或一般文件 数据变换将数据转换或统一成适合于挖掘的形式 37 实体识别元数据可帮助避免错误属性冗余相关分析数据重复 元组冗余 数据值冲突的检测与处理表示 比例或编码不同 2 4 1数据集成 38 平滑 去掉数据中的噪声 技术包括分箱 回归 聚类 聚集Aggregation 对数据进行汇总或聚集 数据泛化 概化 使用概念分层 用高层概念替换低层或 原始 数据 规范化 将属性数据按比例缩放 使之落入一个小的特定区间 最小 最大 Z Score 按小数定标规范化 属性构造 特征构造 由给定的属性构造新的属性并添加到属性集中 以帮助挖掘过程 可以帮助提高准确率和对高维数据结构的理解 2 4 2数据变换 规范化 1 最小 最大规范化 将原始数据v经线性变换 映射到区间 new minA new maxA 例如 income的最大 最小值分别为9000 2000 则将它的值映射到 0 1 时 若income的值6800规范后为 6800 2000 9000 2000 1 0 0 0 686 存在问题 若存在离群点 可能影响规范化若在规范化后添加新的数据 当新数据落在原数据的区间 minA maxA 之外 将导致 越界 错误 规范化 2 z score规范化 零均值规范化 属性A的值基于A的平均值和标准差规范化 对离群点不敏感 2 5数据归约DataReduction 对海量数据进行复杂的数据分析和挖掘将需要很长时间 使得这种分析不现实或不可行 数据归约技术可以用来得到数据集的归约表示 它小得多 但仍接近保持原数据的完整性 对归约后的数据集挖掘将更有效 并产生相同 或几乎相同 的结果 数据归约 数据归约策略 1 数据立方体聚集 对数据立方体做聚集操作 2 属性子集选择 检测并删除不相关 弱相关或冗余的属性和维 3 维度归约 删除不重要的属性 4 数值归约 用规模较小的数据表示 替换或估计原始数据 5 离散化和概念分层 concepthierarchy 产生属性的原始数值用区间值或较高层的概念替换 2 5 1数据立方体聚集 数据立方体存储多维聚集信息 提供对预计算的汇总数据进行快速访问 如 立方体内存储季度销售额 若对年销售额感兴趣 可对数据执行聚集操作 例如sum 等 2 5 2属性子集选择 通过删除不相关或冗余的属性 或维 减小数据集 其目标是找出最小属性集 使得数据类的概率分布尽可能地接近使用所有属性得到的原分布 通过穷举搜索找出有属性的最佳子集是不现实的 通常采用压缩搜索空间的启发式算法 如贪心算法 从局部最优到全局最优 逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳 2 5 3维度归约 维度归约使用数据编码或变换 以便得到原数据的归约或 压缩 表示 分为无损和有损两种 主要方法 串压缩 无损 但只允许有限的数据操作 小波变换 DWT 有损 适合高维数据 主成分分析 PCA 有损 能更好地处理稀疏数据 2 5 4数值归约 通过选择替代的 较小的 数据表示形式来减少数据量 可以分为参数方法和非参数方法 参数方法 回归 regression 和对数线性模型非参数方法 直方图 聚类 抽样 抽样 用数据的小得多的随机样本 子集 不是大型数据集 抽样方法s个样本无放回简单随机抽样 SRSWOR s个样本有放回简单随机抽样 SRSWR 聚类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年西安市灞桥区纺织城小学教师招聘考前自测高频考点模拟试题及答案详解(全优)
- 2025年金华市卫生健康委员会所属医院金华市第二医院招聘7人(第一批)考前自测高频考点模拟试题及完整答案详解1套
- 2025年甘肃省嘉峪关市第八中学、嘉峪关市明珠学校分校区招聘公益性岗位人员模拟试卷及一套答案详解
- 2025大唐锡林浩特电厂招聘专职消防员1人考前自测高频考点模拟试题附答案详解(典型题)
- 室内安装桥架安全协议书8篇
- 2025江苏东南大学招聘5人考前自测高频考点模拟试题及答案详解(网校专用)
- 2025福建福州市罗源县社会救助协管员招聘1人考前自测高频考点模拟试题及1套参考答案详解
- 2025辽宁长海县银龄教师招聘6人考前自测高频考点模拟试题参考答案详解
- 2025年广东惠州市公安局惠城区分局第二批辅警招聘48人模拟试卷及1套参考答案详解
- 2025年山西焦煤集团所属煤炭子公司井下操作技能人员招聘考前自测高频考点模拟试题及答案详解(各地真题)
- 安徽省农村信用社联合社2026年校园招聘备考考试题库附答案解析
- 化工安全三级培训考试题及答案解析
- 2025加工定做合同范本
- 2025湖北宜昌市不动产交易和登记中心招聘编外聘用人员17人考试参考试题及答案解析
- 教PEP版六年级英语上册第一次月考试卷(Unit 1-2).(含答案含听力原文)
- 铁路局安全理论培训课件
- 物流配送调度管理系统设计方案
- 35kV线路工程电杆安装施工方案
- 2025年乡镇工会集体协商指导员招聘考试试题库及答案
- 2025-2026学年苏教版(2024)小学科学二年级上册教学计划及进度表
- 2025年度环评文件技术复核服务方案投标文件(技术方案)
评论
0/150
提交评论