




已阅读5页,还剩24页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据预处理,为什么要预处理数据与现实世界有关数据库太大,信息多而杂数据易受噪声数据、空缺数据和不一致性数据的侵扰,数据预处理,提高数据质量,提高挖掘结果的质量使挖掘过程更有效、更容易如何预处理数据一般的预处理方法数据清理、数据集成和变换、数据归约,数据预处理,用于一些具体的web挖掘中的方法使用预处理:数据净化、用户识别、会话识别、帧页面识别、路径补缺、事务识别等结构预处理:站点拓扑内容预处理:页面信息抽取、信息主观兴趣特征定义,数据预处理,一般的预处理方法数据清理原因:现实世界的数据一般是脏的、不完整和不一致的。功能:填充空缺值、识别孤立点、消除噪声、纠正数据不一致。具体实现:空缺值忽略元组:除非元组有多个属性缺少值,否则该方法不是很有效。,数据预处理,人工填写空缺值:费时,数据集大时可能行不通使用一个全局常量填充空缺值:如Unknow或-使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值使用最有可能的值填充空缺值:利用回归、判定树归纳等方式确定,数据预处理,噪声数据噪声是一个测量变量中的随机错误或偏差噪声平滑技术:分箱:例:原始数据为4,8,15,21,21,24,25,28,34,数据预处理,数据预处理,聚类:将类似的值组织成群或“聚类”,落在聚类集合外的点被视为孤立点计算机和人工检查结合:计算机根据信息度量理论等进行初次筛选,将筛选结果交由人来复查回归:通过让数据适合一个函数(如回归函数)来平滑数据,数据预处理,不一致数据对于有些事务,所记录的数据可能存在不一致。有些数据不一致可以使用其他材料人工地更正。知识工程工具也可以用来检测违反限制的数据。例如,知道属性的函数依赖,可以查找违反函数依赖的值。,数据预处理,数据集成功能:将来自不同数据源的数据整合成一致的数据存储。元数据、相关分析、数据冲突检测和语义异种性的解析都有助于数据集成。问题和解决办法:问题1:模式集成来自多个信息源的现实世界的实体如何“匹配”?-实体识别问题,数据预处理,例如:数据分析者或计算机如何才能确信一个数据库中的customer_id和另一个数据库中的cust_number指的是同一个实体?解决方法:利用数据库的元数据-一种关于数据的数据。这种元数据可以帮助避免模式集成中的错误。问题2:冗余一个属性若能由另一个表导出,它便是冗余的。例如年薪。属性或维命名的不一致也可能导致数据集中的冗余。解决方法:可利用相关分析的方法检测冗余。除了检测属性间的冗余外,“重复”也当在元组级进行检测。所谓重复是指对于同一数据,存在两个或多个相同的元组。,数据预处理,问题3:数据值冲突的检测和处理对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、比例或编码的不同。例如重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。数据这种语义上的异种性,是数据集成的巨大挑战。,数据预处理,数据变换将数据转换成适合挖掘的形式。平滑:去掉数据中的噪声。这种技术包括分箱、聚类和回归。聚集:对数据进行汇总和聚集。例如可以聚集日销售数据,计算年销售额。通常这一步用来为多粒度数据分析构造数据立方体。,数据预处理,数据概化:使用概念分层,用高层次的概念替换低层次的“原始”数据。如分类的属性street可以概化为较高层的概念,如city或country。规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0到1.0或0.0到1.0最小-最大规范化:对原始数据进行线形变换。假定属性A的最小和最大值分别为minA和maxA,计算,数据预处理,将A的值映射到区间new_minA,new_maxA中的vz-score规范化:属性A的值基于A的平均值和标准差规范化,计算,小数定标规范化:通过移动属性A的小数点位置进行规范化,计算,数据预处理,属性构造:由给定的属性构造和添加新的属性,以帮助提高精度和对高维数据结构的理解。例如,我们可能根据属性height和width添加属性area。通过组合属性,属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。数据归约对数据处理的技术,如数据立方体聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小。,数据预处理,数据立方体聚集:聚集操作用于数据立方体中的数据。维归约:通过删除不相关的属性(或)维减少数据量。通常使用属性子集选择方法。属性子集选择方法:目标:找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。优点:减少了出现在发现模式上的属性的数目,使得模式更易于理解。,数据预处理,属性子集选择方法包括以下技术:逐步向前选择:由空属性集开始,每次都选择原属性集中最好的属性,将其添加到集合中。逐步向后删除:由整个属性集开始,在每一步,删除掉尚在属性集中的最坏属性。向前选择和向后删除的结合:每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。判定树归纳:用判定树算法选择“最好”的属性,将数据划分成类。,数据预处理,数据压缩有损压缩和无损压缩无损压缩的不足:只允许有限的数据操作。两种流行和有效的有损数据压缩方法:小波变换主要成分分析,数据预处理,数值归约选择替代的、较小的数据表示形式来减少数据量。有参方法:回归和对数线形模型无参方法:直方图、聚类和选样,数据预处理,SomemethodsusedinwebminingStructureandContentPreprocessingPreprocessingthestructureandcontentofawebsiteareinter-relatedtasks.ThedegreeofdifficultyinperformingpreprocessingishighlydependentonthetechnologyusedtocreatetheWebsitecontent.,数据预处理,Therearetwomajortasksassociatedwithcontentandstructurepreprocessing-determiningwhatconstitutesauniquepagefile,anddetermininghowtorepresentthecontentandstructureorthepagefileinaquantifiablefrom.UsagePreprocessingThegoalofusagepreprocessingistoendupwithasetofminableobjectsforaparticularWebsite(orsetofsites).,数据预处理,ThemostcommonformofinputisaWebserverlogintheCLF(CommonLogFormat)orECLF(ExtendedCommonLogFormat)format.However,usagedatacanalsocomefromHTTPpacketsniffersorapplicationlogs.DataCleaningTechniquestocleanaserverlogtoeliminateirrelevantitemsareofimportanceforanytypeofWebloganalysis,notjustdatamining.,数据预处理,UserIdentificationUsecookiesUselog/siterecordEachIPrepresentausergroupIftheIPaddressisthesame,makeeachdifferentagenttypeforanIPaddressrepresentadifferentuser.SessionIdentificationGoal:todividethepageaccessesofeachuserintoindividualsession.,数据预处理,Methods:useatimeout,ifthetimebetweenpagerequestsexceedsacertainlimit,itisassumedthattheuserisstartinganewsession.PathCompletionIfapagerequestismadethatisnotdirectlylinkedtothelastpageauserrequested,thereferrerlogcanbecheckedtoseewhatpagetherequestcamefor.,数据预处理,Forexample:assumeasequenceofasessionisA-B-C-D,ifneitherBorCcanreachD,butAcan,thecompletepathwillbeA-B-C-B-A-D.PageViewIdentificationPageviewidentificationreliesheavilyontheresultsofthestructureandcontentpreprocessingforthesite.,数据预处理,Thepageviewidentificationstepdetermineswhichpagefilerequestspartofthesamepageviewandwhatcontentwasserved.Thefirstpartthisstepistoidentifythecontentservedbyeachpagefilerequestinasession.Thesecondpartofpageviewidentificationisdeterminingwhichpagefilesmakeupeachpageview.(usesomealgorithm),数据预处理,ThepageviewidentificationstepcanfinderrorsoranomaliesinaWebsitebyidentifyingsessionswithincompletepageviews.TransactionIdentificationGoal:tocreatemeaningfulclustersofreferencesforeachuser.Task:dividingalargetransactionintomultiplesmalleronesormergingsmalltransactionsintofewerlargerones.,数据预处理,Methods:TransactionIdentification
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建福州城投供应链集团有限公司社会招聘4人笔试历年参考题库附带答案详解
- 2025福建省福能海峡发电有限公司招聘2人笔试历年参考题库附带答案详解
- 2025福建广电网络集团社会招聘1人笔试历年参考题库附带答案详解
- 2025浙江绍兴市嵊州市机关事业单位招聘编外人员和国有企业(社会团体)招聘16人笔试历年参考题库附带答案详解
- 2025江西抚州崇仁县县属国有企业招聘员工13人笔试历年参考题库附带答案详解
- 2025年山东沂河控股集团有限公司及其权属子公司招聘工作人员14人笔试历年参考题库附带答案详解
- 2025天津市武清区产业投资发展有限公司面向社会招聘10人笔试历年参考题库附带答案详解
- 2025中邮人寿保险股份有限公司四川分公司社会招聘笔试历年参考题库附带答案详解
- 2025湖南湘西凤凰县直机关事业单位公开选调工作人员40人考前自测高频考点模拟试题及答案详解(名师系列)
- 2025广东深圳市龙岗区城市建设投资集团有限公司招聘第二批考前自测高频考点模拟试题及答案详解(典优)
- 反诈知识竞赛题库及答案(共286题)
- 《有理数加减法的混合运算-添括号》教学课件
- 质量承诺保证保函
- 2025年10月自考15040习概押题及答案
- 安徽省宿州市埇桥区教育集团2024-2025学年上学期九年级第一次月考数学试卷
- 汾酒白酒招商手册
- 甜米酒创业计划书
- 塔吊租赁服务技术实施方案技术标
- 员工组织承诺的形成过程内部机制和外部影响基于社会交换理论的实证研究
- 优质课件:几代中国人的美好夙愿
- 2023年真空镀膜机行业市场分析报告及未来发展趋势
评论
0/150
提交评论