




已阅读5页,还剩10页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索与数据预处理,主讲人:王栋 2012年4月13日,信息检索,信息来源: 1、传统资源.图书馆纸质书籍期刊。 2、网络资源。 数据库:中国期刊网,超星,书生之家 (图书馆首页数据库导航) 搜索引擎:google学术、google图书(google搜索技巧 ) 新浪共享资料、豆丁网 百度文库、CSDN、人大经济论坛 各大高校BBS论坛、FTP资源 数学中国论坛 国家统计局 维基百科(英文版),信息检索,信息检索技术: 1、利用搜索引擎,关键词搜索 2、数据库中,利用题名、摘要、作者等分类搜索 3、从参考文献入手 4、从维基百科(英文版)词条的reference入手 4、从在该领域有名的教授的论文入手,数据预处理,自2000年以来,数学建模竞赛题目的数据提供方式越来越多样(txt文档、acess数据、excel数据);数据量越来越庞大; 快速而方便的从提供的数据中,找到我们所需要使用的数据,就可以为后面的分析和处理节约时间,而不为提取数据所累; 数据的存储、重用和传递,也是数学建模竞赛中常常 用到的; 对数据的使用和分析是建模的基础,数据预处理,1、数据提取(Data extraction) 2、数据清洁(Data Cleaning) 3、数据变换(Data Transformation) 4、统计描述(Statistic Description),数据提取(Data extraction),(1)如果数据较为整齐,则利用matlab函数直接导入。如importdata(),xlsread(),load(). (2)如果是txt数据,而且混有字符和数字,一般处理起来比较麻烦点,则可用C语言中的fgets()一行行读出来,存成字符串再用atof()函数转化为十进制数,最后重新存为txt数据进行处理。 (3)熟悉数据库语言的可以利用数据库进行相关操作,再次不作介绍。,数据提取(Data extraction),Ps: 若其中涉及的人工步骤,如各种相同的复制粘贴较多,则建议还是编写简单的C语言程序或者matlab程序处理。做到采取手动提取和使用程序、工具软件提取相结合. 尽量将数据存为矩阵形式,方便matlab的使用。 为保险起见,要注意save重要数据和常用数据。将导入的数据,存成一个.mat文件,以后就可以重新Load进工作区间参与运算。,数据清洁(Data Cleaning),数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据、空缺值, 识别删除孤立点等。,数据清洁(Data Cleaning),Noisy Data 噪声是一个测量变量中的随机错误和误差。一般我们直接剔除这些异常值。 例:,数据清洁(Data Cleaning),Incomplete Data 数据的不完整可能由于数据在收集、来源、整理等过程中造成的数据的缺失。 (1)忽略缺失值 (2)人工凭经验填写缺失值 (3)使用该部分数据的均值填充 (4)利用回归等方法填写一个最有可能的值 (5)利用SPSS中分析缺失值分析,数据清洁(Data Cleaning),Inconsistent Data 由于数据来源,收集标准等的不同导致相同属性的数据不同表现形式。 例1:A数据库对产品质量等级划分列为一等品,二等品,三等品;B数据库则划分为A级,B级,C级。 例2:武大的一周从周日开始到周六 我们学校的一周从周一开始到周日,数据变换(Data Transformation),平滑化:消除数据中的噪声影响(回归方法) 标准化: 归一化:,统计描述(Statistic Description),1、查看均值mean、中位数median,标准差std,极差range 2、峰度kurtosis,正态分布的峰度为3,若2 比3 大得多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可以用作衡量偏离正态分布的尺度之一。 3、偏度skewness,偏度反映分布的对称性.其值大于0 称为右偏态,此时数据位于均值右边的比位于左边的多;反之,称为左偏态;而值接近于0则可认为分布是对称的,统计描述(Statistic Description),4、直方图hist 5、数据拟合,利用cftool Ps:以上数据预处理方法只是对数据的简单描述,更深入的内容可以参看数据挖掘技术和多元统计分析。,references,1 杨文霞,数学建模培训之数据的预处理,武汉理工大学理学院,2009.7.11 2/viewthread.php?tid=872 3元昌安等,数据挖掘原理与SPSS Clementi
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2023年呼伦贝尔农垦谢尔塔拉特泥河哈达图浩特陶海农牧场招聘172人笔试历年难、易点深度预测模拟试卷带答案详解
- 2025年禁毒法测试题及答案
- 2025年北京警察招录考试(申论)历年参考题库含答案详解
- 合成孔径雷达成像关键算法剖析与前沿探索
- 基于2025年的跨境电商海外营销中心用户体验优化报告
- 内蒙古呼伦贝尔农垦牙克石、莫拐、免渡河农牧场有限公司招聘笔试题库及答案详解(名校卷)
- 2025年教师招聘之《幼儿教师招聘》通关练习题库包附答案详解(考试直接用)
- 教师招聘之《小学教师招聘》提分评估复习附完整答案详解(考点梳理)
- 2025内蒙古呼伦贝尔农垦莫拐农牧场有限公司招聘16人备考及参考答案详解
- 教师招聘之《小学教师招聘》通关模拟题库及答案详解(真题汇编)
- 新媒体运营实务完整全套课件
- 桩基础平法施工图(平法施工图识读)
- GB/T 9113-2010整体钢制管法兰
- GB/T 23338-2018内燃机增压空气冷却器技术条件
- 海姆立克急救法完整版本课件
- 国家地表水环境质量监测网采测分离实施方案课件
- 控压钻井技术及实践培训讲义工艺课件
- 厚度仪点检表
- 北京市水利工程维修养护定额
- 自然拼读法在小学英语教学中的应用的实践研究
- 无领导小组面试评分表模板
评论
0/150
提交评论