北风网 云计算与数据挖掘_第1页
北风网 云计算与数据挖掘_第2页
北风网 云计算与数据挖掘_第3页
北风网 云计算与数据挖掘_第4页
北风网 云计算与数据挖掘_第5页
已阅读5页,还剩111页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云计算与数据挖掘刘鹏中国云计算:中国网格:

内容提纲云计算概念与现状云计算的起源云计算发展的驱动因素云计算的定义

云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。云计算技术体系结构Google云计算关键技术Google文件系统GFS(GoogleFileSystem)并行数据处理MapReduce结构化数据表BigTable分布式锁管理ChubbyMapReduceBigTableGFSChubby微软镇的节师能措沉施Go巡寿og达le云计凤算原门理分布镰式文狱件系附统GF队SGo挥og报le竞F风il牙e雷Sy疲st休em12Go击og申le需要智一个傻支持史海量酒存储戚的文宁件系枕统购置梨昂贵付的分基布式妇文件敌系统额与硬铃件?Go翅og扛le设计GF誉S的动悦机是否言可以愧在一饥堆廉电价且矩不可全靠的识硬件军上构戴建可煤靠的很分布榨式文鞭件系境统?13为什柴么不看使用基当时宁现存吨的文稻件系降统?Go厚og煮le所面斯临的王问题精与众撇不同不同厌的工倍作负族载,软不同况的设望计优紫先级谁(廉苍价、直不可缝靠的底硬件粱)需要置设计苹与Go盟og旺le应用你和负刑载相开符的渐文件顽系统Go新og创le设计GF叶S的动慈机14GF惩S的假隙设与仗目标硬件非出错谦是正经常而纲非异窄常系统治应当固由大饥量廉舌价、木易损叼的硬贪件组朗成必须瓣保持剧文件证系统墓整体唤的可拆靠性主要拒负载匀是流胃数据埋读写主要悠用于页程序扯处理酱批量屈数据棋,而足非与剧用户判的交径互或威随机写读写数据舱写主烛要是畜“追即加写耍”,厦“插含入写杠”非漠常少需要吉存储鞋大尺马寸的启文件存储蜘的文滤件尺筛寸可类能是GB或TB量级懒,而吧且应珍当能培支持过存储滥成千揉上万弃的大瓦尺寸愁文件15将文辨件划泻分为伞若干渡块(Ch何un忌k)存尼储每个揪块固申定大坑小(64喜M)通过筑冗余购来提弹高可业靠性每个文数据配块至妨少在3个数侦据块玩服务刃器上牢冗余数据林块损串坏概抖率?通过泉单个ma扶st哈er来协澡调数合据访炕问、胁元数陵据存集储结构姨简单描,容思易保童持元长数据旋一致外性无缓至存Wh驾y?GF位S的设波计思粉路16单一Ma替st绢er用,若干Ch筹un轰kS铃er活ve肾rGF鉴S的架嘱构GF钉S的架浮构有闲什么厘问题鼠吗?1718分布诞式系戏统设左计告尘诉我泰们:这是顽单点谁故障这是粪性能厉瓶颈GF况S的解稼决办盆法单点劝故障随问题单一Ma誓st熊er问题采用贝多个端(如3个)益影子Ma往st端er节点累进行乳热备西,一沃旦主模节点辰损坏训,立达刻选今举一龟个新盼的主许节点歼服务19GF嫁S的解然决办显法性能穴瓶颈乌问题单一Ma逢st扔er问题尽可姿能减再少数锣据存踩取中Ma昂st渠er的参群与程虚度不使股用Ma纤st袍er读取疗数据督,仅帐用于逮保存斑元数块据客户克端缓堆存元梯数据采用运大尺泻寸的垒数据向块(64滔M)数据康修改串顺序妹交由Pr摄im跌ar动y亦Ch奶un撞k适Se礼rv党er完成Si隙mp昌le收,周an型d勤go半od贝e熔no四ug医h!20存储里元数吃据文件超系统耐目录糕管理偷与加签锁与Ch垮un与kS袭er只ve谁r进行悟周期认性通恒信发送斑指令罪,搜监集状稠态,忘跟踪锡数据搭块的叶完好纲性数据堆块创辣建、志复制带及负跨载均鞭衡对Ch淹un紫kS夏er材ve斥r的空条间使您用和明访问辨速度稿进行酱负载帽均衡盗,平撒滑数额据存炸储和肚访问防请求霸的负字载对数潮据块演进行心复制阅、分低散到Ch板un扰kS岂er溜ve凭r上一旦遥数据屯块冗鸡余数叨小于摧最低径数,佣就发桂起复磨制操驻作Ma革st旋er节点叼的任美务21垃圾船回收在日扩志中墓记录脂删除社操作介,并艰将文陕件改誉名隐辣藏缓慢扇地回瞒收隐誓藏文口件与传置统文软件删险除相扫比更抽简单自、更神安全陈旧蜻数据看块删鉴除探测转陈旧辈的数乖据块乘,并钥删除Ma脆st恋er节点缎的任改务22采用粥中心月服务纸器模忧式可以称方便烛地增走加Ch悦un每k占Se廊rv也erMa档st拨er掌握梅系统乡丰内所弹有Ch骗un宣k湿Se缴rv赌er的情宇况,贝方便系进行仪负载旬均衡不存叹在元斤数据种的一唐致性刘问题GF边S架构偿的特涂点23不缓着存数特据GF煮S的文崖件操俗作大摊部分冤是流捉式读虑写,刮不存览在大奔量的乎重复贺读写代,使赚用Ca猎ch奋e对性但能提考高不谨大Ch席un虏k霞Se每rv树er上的棕数据易存取呜使用积本地站文件除系统创,如早果某啊个Ch芽un蓝k读取添频繁灯,文渣件系哲统具物有Ca赤ch士e从可躺行性是看,Ca脑ch抽e与实储际数颗据的桃一致侦性维桶护也民极其忍复杂GF轮S架构就的特宁点?24在用贯户态元下实抹现直接即利用Ch薪un女k挖Se虚rv界er的文翠件系还统存段取Ch武un絮k,实尿现简皂单用户盯态应岂用调耻试较捞为简鹿单,颠利于染开发用户羞态的GF肿S不会凡影响Ch曾un女k肿Se睬rv值er的稳帝定性提供萄专用凯的访扔问接封口未提交供标我准的PO哪SI史X访问笋接口降低GF涛S的实奴现复夕杂度GF指S架构铃的特蹦点25GF盒S的容恭错方右法GF恐S的容同错机睡制Ch反un遣k猜Se英rv谋er容错每个Ch碑un伍k有多晨个存读储副够本(菜通常恒是3个)性,分防别存致储于据不通牵的服粗务器巨上每个Ch亏un有k又划币分为芳若干Bl急oc剃k(64复KB),维每个Bl凯oc饺k对应咳一个32应bi蹈t的校伐验码航,保惜证数魂据正够确(敬若某合个Bl终oc务k错误延,则崇转移找至其顶他Ch借un耕k副本叛)26GF率S的性滚能27Go沾og上le云计爽算原旅理并行讯数据晒处理疮模型Ma纪pR笔ed煎uc蛙e摩尔赴定律集成联电路恳芯片湾上所移集成廉的电娱路的奔数目熄,每隔18个月润就翻望一番户,同笨时性肠能也真提升一倍并行酱计算扯基础Go罚rd话on年M亏oo偏re“免负费的榆性能踢大餐楼”?An曲dy畏g劳iv倍en滥,出an中d犹Bi鸣ll堵t系ak视en挖a摄wa独y软件宿算法蜻、数殊据结哄构似轿乎不嘉再重颜要,曾因为烦处理开器性涉能不颂断提互升并行唉计算墨基础免费廊的午棍餐已巷经结载束!累!In陵te潮lMi诱cr圣os威of爱t摩尔爪定律品正在真走向桨终结…单芯进片容尽纳晶芒体管粥的增巾加,俭对制南造工按艺提燃出要湖求CP探U制造18厅nm技术扒,电雅子泄这漏问晒题CP制U主频辰已达3G叹Hz时代霸,难栋以继筋续提庸高散热笨问题味(发凉热太岭大,挣且难起以驱涂散)功耗情太高并行呜计算烘基础未来伙的发盘展:裂多核在多筛核时洋代生愧存,巡寿必须界考虑遥并发戒问题不存箭在解误决多纹核编午程问瞎题的者银弹愚,不存泉在可垄以简条单地磁将并默发编乒程问腿题化解掉休的工爹具,忧开絮发高背性能果的并税行程绞序必须服要求匙开发仇者从承根本包上改押变其才编程方法从某者种意谊义上申来说递,这揪不仅迈仅是亮要改变50年来盐顺序垂程序座设计轰的工惠艺传状统,而且嘉是要盒改变粥数百携万年蚀来人么类顺末序化隐思考撞问题冠的习察惯并行在计算欠基础He屠rbSu领tt投er串行跳编程早期偷的计蒸算里缩慧,程益序一卫般是尝被串头行执压行的程序猾是指央令的绍序列推,在络单处拜理器坟的机伸器里昂,程喉序从饼开始咱到结虾束,夺这些朽指令河一条描接一送条的造执行并行喂编程一道驰处理哄可以惰被划雅分为松几部精分,然后睡它们隔可以星并发究地执伟行各部叼分的队指令译分别蒜在不坝同的CP晓U上同遮时运剥行,蜂这些CP德U可以扬存在乞于单却台机葡器中,也可磨以存铅在于籍多台长机器绸上,它们矛通过聪连接劝起来剧共同湿运作并行宵计算食基础什么古样的懂问题狡适合车并行垦计算坡?斐波豆那契烦序列(F伙ib概on韵ac很ci汇)的计招算?并行拆计算币基础什么边样的衰问题久适合阿并行衣计算菜?如果兼有大净量结催构一梢致的冤数据侧要处株理,璃且数恰据可救以分洗解成剥相同歼大小察的部或分,桶那滋我们啦就可去以设育法使服这道秩处理纺变成咳并行并行顶计算伐基础计算摄问题指简单这,但河求解简困难待处稍理数凯据量坝巨大丸(PB级)露,只爆有分布布在卧成百不上千顶个节篇点上谦并行牢计算士才能呜在可父接受聪的时蓬间内叙完成如何解进行勿并行孩分布叠式计浆算?如何夜分发统待处板理数衔据?如何范处理译分布笋式计爪算中堪的错丽误?为什该么需锯要Ma榜pR今ed瓶uc援e?简单新的问汤题,办计算嘉并不怕简单衬!为什挥么需订要Ma惠pR锣ed保uc剃e?Go精og枣le漫M甚ap百Re被du除ce架构敌设计馅师Je夏ff辆re拨y乏De臣anJe掌ff大er抬y笛De隆an设计谢一个醉新的级抽象年模型习,僚使我村们只抽要执讯行的字简单脚计算赢,而序将并番行化银、容驰错、挡数据暗分布洒、负则载均舌衡的身等杂藏乱细捞节放醉在一心个库忍里,撒使并顾行编王程时标不必晒关心译它们这就点是Ma梦pR侨ed衡uc吴e一个粱软件治架构守,是忠一种啄处理错海量塘数据总的并饼行编屋程模滨式用于胞大规璃模数诸据集皱(通项常大卡于1T唯B)的塘并行嗓运算Ma鸦pR静ed徐uc旗e实现镜了Ma贩p和Re吸du谣ce两个施功能Ma保p把一糕个函毕数应晓用于成集合苦中的陡所有新成员据,然销后返纺回一称个基天于这询个处恰理的团结果摇集Re芽du群ce对结效果集补进行惕分类更和归飞纳Ma浇p(承)和Re姜du盘ce理()两个特函数堂可能骡会并厚行运岁行,恒即使捎不是劣在同旁一的惩系统要的同并一时趟刻Ma注pR曾ed室uc沙eMa寇pR咳ed章uc钢e示例蜜:单哄词计慨数案例锻:单拦词记纤数问瓶题(W掌or续d昼Co续un暂t)给定侮一个统巨大珠的文婆本(勾如1T睁B),奶如何中计算件单词赌出现黎的数才目?Ma禽pR届ed沃uc息e示例荒:单洒词计栗数使用Ma般pR沈ed敌uc睬e求解攻该问棵题定义Ma钉p和Re撞du昌ce函数Ma业pR左ed朴uc兔e示例培:单籍词计晚数使用Ma已pR线ed弱uc身e求解榴该问驼题St上ep伙1膀:自动指对文况本进汇行分赏割,踢形成单初始屈的<k禁ey蛋,v轮al唯ue栏>对Ma血pR指ed吓uc谎e示例必:单佛词计店数使用Ma忧pR筒ed欲uc袋e求解缺该问辜题St霉ep晕2费:在分通割之耗后的幕每一列对<k卵ey距,v社al搁ue崭>进行捐用户葵定义涂的Ma家p进行汪处理唉,再蓬生成纵新的<k软ey逼,v药al究ue凯>对Ma佛pR关ed么uc刘e示例吨:单丧词计诊数使用Ma择pR尤ed决uc午e求解烫该问客题St存ep从3展:对输伶出的远结果盗集归速拢、逝排序(系统狱自动出完成铃)Ma撤pR乎ed层uc伏e示例逐:单隔词计各数使用Ma笑pR监ed佣uc逝e求解鲜该问尾题St莲ep嘉4冠:通过Re脂du先ce操作除生成涂最后困结果Go尿og捎le秃M妙ap扑Re敲du肠ce执行因流程源文罩件:GF嫌SMa吨p处理漂结果需:本沃地存垒储Re牢du职ce处理庆结果政:GF埋S日志朱:GF盗S文件信存储魂位置思考Go奔og去le咐M笋ap励Re失du钩ce计算疑架构灶有什物么问赶题?Wo齿rk榆er故障Ma春st默er周期恒性的pi丛ng每个wo但rk责er。如议果ma暂st此er在一顺个确膊定的浸时间负段内觉没有牲收到wo裳rk鞠er返回秤的信令息,寇那么些它将项把这举个wo付rk傻er标记雁成失哲效重新奴执行贤该节柄点上望已经魂执行夏或尚黎未执毛行的Ma悼p任务重新课执行遇该节塔点上脾未完蓬成的Re长du启ce任务耀,已首完成脂的不骗再执识行Ma必st巡寿er故障定期搁写入立检查答点数起据从检皮查点壶恢复Ma衣pR截ed顷uc浑e的容婶错WH苏Y?任务千备份乱机制慢的wo鸡rk货er汪s会严趣重地醋拖延签整个颗执行发完成为的时摸间由于安其他哑的任雁务占想用了缠资源磁盘温损坏解决副方案:在临浆近结踪蝶束的握时候湾,启触动多陷个进叼程来罩执行预尚未喊完成品的任吓务谁先缺完成旧,就跟算谁可以筐十分违显著蛛地提等高执掏行效已率Ma蛋pR抢ed悼uc围e的优锻化本地桌处理Ma翼st凤er调度鲜策略:向GF榴S询问累获得葡输入鹿文件bl捕oc速ks副本丈的位计置信许息Ma借p斩ta局sk判s的输拘入数谋据通恨常按64雄MB来划咳分(G素FS昆b炕lo内ck大小)按照bl榨oc烦ks所在与的机其器或悼机器朗所在爹机架梢的范季围进复行调柱度效果绝大指部分录机器愉从本洞地读揉取文猾件作纯为输窄入,夜节省咐大量过带宽Ma具pR嘉ed仇uc笛e的优蜂化跳过膛有问星题的抖记录一些抵特定轻的输挺入数唯据常狂导致Ma都p/勇Re沿du歌ce无法变运行最好游的解制决方签法是咱调试效或者窜修改不一削定可镜行~可能肺需要洲第三区方库稠或源怪码在每疯个wo她rk最er里运楼行一棕个信心号处援理程爆序,寄捕获ma清p或re链du迈ce任务凑崩溃替时发雀出的设信号保,一处旦捕锋获,扮就会仪向ma立st扫er报告祝,同翅时报夕告输微入记广录的喉编号转信息央。如抗果ma满st交er看到孟一条闷记录矿有两党次崩攀溃信技息,智那么豪就会陶对该阀记录锈进行矩标记婶,下辜次运遗行的精时候提,跳界过该安记录Ma废pR喝ed百uc枣e的优侮化“实情践是杰检验疫真理御的唯袍一标浩准”实践母证明估,Ma施pR嚷ed王uc仁e是出碧色的州分布辈式计监算模觉型Go越og帽le宣布豆,其遍对分头布于10峰00台计嘱算机殊上的1T树B数据设进行笔排序置仅仅老需要68淹s对40舟00台计夸算机持上的1P氏B数据像进行司排序究处理贺仅需盾要6小时2分钟答(每娃次测翼试至扭少会常损坏1块硬宅盘)在08年1月份喊,Go聋og苹le房诚M胜ap兄Re稳du车ce平均骄每天毒的数养据处针理量违是20毫PB,相倾当于殖美国测国会柏图书诞馆当他年5月份迁存档扭网络疲数据摊的24麻0倍Go洗ol咬ge的云斑计算分布柏式数渠据表Bi遭gT捆ab吧le53Bi府gT慌ab厦le为什枪么需门要设从计Bi泰gT裤ab绿le?Go面og邪le需要挪存储现的数润据种雪类繁近多网页塌,地塘图数庄据,捆邮件……如何剖使用膜统一是的方丢式存筋储各接类数西据?海量妥的服银务请逆求如何蝇快速果地从词海量食信息胞中寻慈找需驴要的证数据谷?Bi殿gT稳ab蚀le:基俘于GF喜S和Ch户ub我by的分帽布式尼存储罚系统对数幕据进由行结计构化镰存储丝式和管遇理与GF抛S的联棍系54数据弯存储用可靠疮性高速革数据严检索清与读淡取存储拳海量碰的记估录(萝若干TB)可以津保存违记录昼的多振个版师本Go潜og觉le的需句求55与写膝操作槽相比计,数恳据记患录读牢操作露占绝弦大多死数工假作负押载单个训节点映故障引损坏非是常吓见的磁盘祥是廉粪价的可以裙不提搏供标拒准接州口Go仍og导le既能威控制货数据腔库设宜计,重又能欣进行能应用陪系统惧设计假设56具有题广泛斜的适仓应性支持Go光og信le系列挂产品稠的存娘储需胶求具有仗很强蜘的可峰扩展笛性根据复需要阁随时径加入耐或撤山销服压务器应对跪不断促增多昨的访万问请刑求高可玩用性单个慨节点府易损驳,但砖要确借保几支乎所慎有的要情况像下系愿统都挤可用简单坏性简单访的底睬层系碎统可腥减少烧系统干出错两概率寇,为标上层徒开发辣带来骄便利设计里目标57总体夫上,甜与关进系数涉据库留中的赔表类追似逻辑浓视图RowKeyTimeStampColumnContentsColumnAnchorColumn“mime”my.look.ca“n.www”T9CNNT8CNN.COMT6“<html>..“Text/htmlT5“<html>..“t3“<html>..“58关系谦数据质库中韵的表么是什秃么样或的?妥有什幻玉么特鹊征?关系弯数据迹库中李的表厘设计遥需要目遵循要什么叛原则伤?行每行途数据据有一异个可泊排序辜的关集键字狡和任但意列盒项字符榴串、乎整数乖、二雀进制哨串甚正至可呼串行睁化的主结构价都可漫以作虑为行垂键表按舟照行易键的洗“逐骡字节逐排序新”顺虑序对困行进声行有团序化拌处理表内皮数据蓬非常践‘稀席疏’酱,不危同的亦行的昼列的亡数完环全目烦可以昼大不些相同UR售L是较质为常仙见的侦行键博,存帝储时箱需要祥倒排统一枪地址蚀域的卫网页贷连续暴存储泉,便泻于查呜找、雪分析横和压河缩数据眼模型/i筹nd罗ex性.a尾sp剪→/匹in梨de拼x.泊as剖p59列特定姑含义轻的数小据的血集合偷,如异图片私、链刘接等可将提多个吐列归容并为忧一组细,称漠为族找(fa狗mi披ly)采用族:限定鲁词的语眨法规透则进葬行定邮义fi店le后at申tr鹿:o体wn乖in顷g_裹gr皂ou羽p”拒,唉“f陷il疾ea巡寿tt险r:零ow健ni呆ng衔_u熟se珍r”火,劫et萌c同一左个族才的数壮据被吼压缩增在一潜起保有存族是研必须望的,授是Bi吐gT呀ab兵le中访肾问控斤制的迅基本盆单元数据宫模型60时间丙戳保存刚不同捆时期询的数坛据,吧如“驻网页更快照酬”“A骄b掘ig拥t矛ab悬le屡”表中隶的列富可以镇不受敬限制梁地增源长表中赖的数盒据几辨乎可楚以无法限地垒增加数据积模型通过(r蔑ow奔,矿co翠l,辆t番im摸es闲ta斑mp俊)查询通过(r雁ow共,竟co尤l,困M敏OS兴T_恐RE明CE膜NT沟)查询61无数澡据校练验每行策都可包存储惜任意夫数目沿的列Bi明gT皱ab极le不对久列的请最少衰数目遗进行芦约束任意丙类型绿的数逆据均汽可存脂储Bi热gT潮ab悦le将所阴有数步据均浩看作遍为字璃符串数据权的有坐效性复校验捏由构访建于绣其上泽的应柔用系叼统完毁成一致逮性针对俘同一蛾行的放多个选操作面可以舞分组穿合并不支择持对请多行雀进行浊修改叔的操俯作符数据终模型62物理拿视图RowKeyTimeStampColumn:ContentsCn.wwwT6“<html>..”T5“<html>..”T3“<html>..”RowKeyTimeStampColumn:AnchorCn.wwwT9Anchor:CNNT5Anchor:my.look.caCNN.COMRowKeyTimeStampColumn:mimeCn.wwwT6text/htmlRowKeyTimeStampColumnContentsColumnAnchorColumn“mime”my.look.ca“n.www”T9CNNT8CNN.COMT6“<html>..“Text/htmlT5“<html>..“t3“<html>..“63逻辑择上的瓣“表积”被爱划分缸为若货干子至表(Ta防bl涉et)每个Ta掀bl搬et由多形个SS阿Ta火bl凳e文件忆组成SS井Ta盘bl含e文件稻存储页在GF撑S之上每个初子表毒存储宫了ta递bl舟e的一生部分么行元数周据:限起始陡行键伙、终径止行霉键如果灰子表闷体积容超过拦了阈屡值(叔如20恒0M),梅则进并行分义割物理圆视图64体系案结构65为每券个子镇表服雁务器吴分配个子表给,对保外提尺供服讯务与GF灯S垃圾讯回收四进行除交互晃,收零回废推弃的SS快Ta仙bl折e探测盘子表澡服务喇器的承故障鸟与恢霜复负载页均衡主节遵点的猾职责有效伐缓解巩单点遣故障66Bi溪gT晋ab健le小结67Go夕og夫le云计激算架猾构中GF全S、Ma象pR码ed孝uc侨e和Bi农gT化ab难le中是同否存训在集闯群节短点复完用的我情况哪?如何烈复用特?节点定复用神的好辩处有躺哪些殿?Go甜og加le云计扒算架检构的惭设计餐对你求有哪纱些启苦发?里有哪关些收常获?综合希讨论中移惯动大劫云平材台Bi煎g乖Cl稼ou陵dBC湿-P右DM摄分布遵式数番据挖替掘系垒统20吧07年3月,惑确定段了大猪云(B究ig封C效lo瓦ud抓)计划狠,即欣中国按移动爬研究往院为蠢打造侍中国个移动妹云计挡算基跳础设秆施而额实施经的关束键技犁术研兔究及惭原型极系统讨开发乐计划骗。20栗07年7月,州利用袖闲置症的15台PC服务扎器,踏基于秘开源帐软件书搭建栋了海何量数辉据处轰理试鼻验平专台,出并成术功运踪蝶行搜阁索引制擎软窗件。20喷08年10月,灰建立25偏6节点翁的大存规模千运算蜡实验麦室,却并运笔行数炭据挖姥掘工鞭具和钢相关忌应用克。20洋09年9月,Bi冒g喘Cl甘ou梢d柴0.右5版本臣在中举国移农动研闹究院正内部夏发布钟试用丘。20温09年12月,答试验倍平台爹进一舅步扩棋容,晃达到10策00台服哥务器加、50乔00个CP浸U、30付00局TB的存坐储规何模。“大膀云”亡研发财大事且记并行边数据顾挖掘跑工具(B痒C-狂PD点M)是一攀套高跟性能玩、低坏成本封、高悦可靠渴性、妹高可醋伸缩斧性的旋海量奸数据惯处理防、分辩析和烫挖掘室系统杂。该鸦工具搏提供香海量底数据镜并行ET钥L和并限行挖叨掘能骂力,例支持柄企业议的BI应用准和精锤准营油销;提供鬼业务菠逻辑苗复杂叼的SQ值L能力艘,支氧持海白量数届据的桌清洗脸、转额换、致关联长、汇隐总等铃操作挪,支营持生荐成企冈业报滥表、KP叠I、挖勤掘等卵应用;提供殿基于We捞b的Sa嚼aS服务絮模式娇,降魔低企爹业IT系统眉投资赴。大云蒸数据伐挖掘盛系统(B淘C-漆PD酬M)登录表后界权面工作停流画淘布(Kn嫩ow谎le授dg忙e挥Fl刑ow影L南ay贱ou铃t)jo州b监控亦框(J尼ob邪m络on费it味or创)数据自查看锈与管复理预览拜数据创建奇工作响流配置骑工作叛流运行疯工作窜流查看涝工作追流结辱果文本RO斩C图Li城ft图工作饿流调冲度情氧况BC坟-P健DM的数间据装凉载和吨导出数据筋加载崇是将努分布及式文棚件系芹统(DF妨S)上案的没酱有元盖数据货文件框的数餐据生豪成元淹数据讯文件漏,或清对数拜据进臂行断沾行、叫空行理等初城步处枪理,湿或作裤为工府作流杆运行遗的起匪始组给件。数据个导出插是将绝处理醒后的桐数据承文件妨转换廉成指小定的办格式寻或分迅隔符薪,数秧据仍净然保统存在DF脾S上。数据博加载得(导滴入)数据煤加载馅(导谢入)导入缺头文痒件头文蠢件举姻例st巡寿ar佳t_望ti忧me纳,d技at抹e,开始屯时间im妄si架,V滴AR抹CH悉AR浅(1诵0)习,I宋MS仁Ica雨ll布in址g,直VA报RC屯HA抵R(卡10天),用户腾号码us撤er摩_i话p,荡VA锐RC环HA泪R(窃10夏),用户IP地址AP绿N,方VA单RC忧HA哭R(驱10邪),访问氧方式IM送EI拉,V促AR紧CH志AR祸(1遭0)堵,终端验标识饭号ra纹t,斤in播t,营2G粗/3炕G网络样标识Ap怖p_母ty名pe极,i洋nt归,应用咏类型LA镰C,粗VA始RC洪HA出R(慨10兔),弱xmCe逢ll系_I垒D,炼VA丸RC躁HA讲R(余10丸),邻xmso逃ur忆ce愚_i帝p,户VA蚁RC班HA道R(曲10雕),源IP地址de滔st桑_i恩p,子VA堡RC佛HA句R(迁10禾),目的皆地址数据厕导出并行粒数据衡处理(E刮TL习)ET给L操作懒可以盒分为百普通ET右L和链叮式ET土L。普通ET耀L和链慨式ET居L分别戚又细窃分为请:清垮洗类遥、转水换类撒、集呢成类胳、计尊算类更、抽幕样类群、集上合类危、更血新类舟、及震其它创类8大类吧。类别组件名功能清洗类数据类型检查对输入文件逐条记录地检查每个字段的数据是否与元数据中的类型相符合外键约束升级主键表或升级外键表后的外键约束检查主键约束对数据表的主键约束检查,包括主键非空和主键唯一缺值处理按照指定的替换值填补数据文件中的缺值或Null值等空值域约束包括非空值约束、值域范围检查和自定义约束检查去重将完全重复的数据行丢弃转换类Casewhen将符合条件的数据按指定进行转换,类似SQL的casewhen计数区间化按计数将指定字段值区间化为N个区间,每个区间数据个数相等,并为该字段按不同区间设置特定值字段类型转换支持对多个字段进行字段名或字段类型的修改,提供多种数据类型字段之间的强制转换数值区间化按数值将指定字段值区间化为N个区间,每个区间数据取值范围相等,并为该字段按不同区间设置特定值归一化对指定字段按该字段的均值和标准偏差,进行zscore归一化属性交换将属性的两列互换关联规则数据生成将业务订购情况数据生成购物篮数据供关联规则算法使用PCA主成分分析将输入数据的属性由高维降到较低的维度集成类Delete组件删除符合一定表达式条件的记录Join组件可将多个表按指定的字段关联,包括主键join、维表join和普通join三个组件,针对不同关联情况使用不同组件Sort组件按用户指定排序关键字字段进行排序Where组件找出满足用户定义的表达式条件的记录。计算类计算生成列通过对现有多字段混合计算生成的新字段Groupby组件对数据按照用户指定的属性聚集、汇总统计计算每个字段的统计信息抽样类分层抽样供分类目标字段数据平衡使用采样按比例随机抽样数据集合类集合差根据用户指定的数据文件和集合运算表达式进行2个集合的差运算集合交并根据用户指定的数据文件和集合运算表达式进行多个集合间的交,并运算。更新类Update组件更新,类似数据库UpdateInsertupdate组件增量更新,类似数据库Insertupdate其他类数据集分割根据比例将数据分割为训练集和测试集两个数据清洗驳类-数据竞类型纪检查根据隆元数躺据中采各个胜字段邻的数寨据类忠型,婆对输乏入文挠件逐睁条记恋录地霜检查什每个劈燕字段初的数稍据是邀否与兵元数义据中部的类挺型相呼符合膏,支拨持多种拔日期峰类型。对侮发现犯不满禁足数劣据类丸型的脑记录念,应扒用异勺常数牲据处夺理规傅则。属并在较有效义性验守证后度提供岭一个伪验证祥报告重,包孩括丢皱弃了拘多少游数据崖、对廊数据厚进行班了什袍么处诸理等沫信息教。参数说明输入文件设置输入文件的地址及文件名输出文件设置输出文件的地址及文件名另存路径设置异常数据文件的地址和文件名numOfmap设置Map个数numOfreduce设置Reduce个数转换映类-c区as捐eW锣he锻n根据株用户引输入谎的条掩件,足将指电定字逝段的富值进坚行转帖换,侮类似SQ进L的ca种se纯w另he摸n。用套户指挨定转蛋换的缩慧字段夹与转阴换规屑则。衬支持誉对多刮字段民进行岩转换稠,支扁持对阅某个禽字段讯多个扔转换捡规则协,支皮持de圣fa塑ul块t规则份。可甘以配即置转纪换生桨成列敲的元胜数据峡信息叙。参数说明输入文件设置输入文件的地址及文件名输出文件设置输出文件的地址及文件名生成字段名设置要生成字段的名字字段类型设置要生成字段的类型条件表达式当条件表达式为真时,执行替换表达式替换表达式设置替换表达式numOfmap设置Map个数numOfreduce设置Reduce个数1并行驻分类牲算法Cl里as存si蜂fi纸er拒s4汇MR分类即功能顾应以习用户设提供朝的历齿史消忍费清没单作肆为训绳练数参据,沸这些慕数据肆中有粪一个克属性触作为榨分类属粉性,凡且每浓条记唱录已程标明叨分类仅属性债的值蒸。分赔类算番法应示提供帜两方殊面基饭本功听能:(1)学习纸分类姨模型捷:从醒训练队集数个据中炉发现尚潜在资的分散类模推型,扬并以说特定屯方式辽表达(2)预测惑:对虾用户踩新提雪供的昏数据叶集,筑依据深分类黑模型友预测哄出所墓属类摊别并行务分类伟算法使包括屠:Em妹pt众yC摇la填ss梳if邻ie部r4衣M、C4鱼5决策齿树、CB浆C分类无、CB陵R分类礼、K近邻可、朴骡素贝弹叶斯档、层才次C4桑5决策炸树、个线性挑回归旗分类架、神句经网谷络算幸法。BC私-P补DM挖掘房诚算法神经扇网络狼算法把整柴个神煎经网墓络的杀神经津元划框分成到不同卷层次亿,对览同层给次内胞的不缠同神贞经元徒进行沃并行乒参数好计算猴,并议通过农统一快调度筋和精照度控竭制对膛神经腐元进糠行快夜速的田并行然化训讽练。东训练兼完毕节后,廊对于帆每一顿个输侧入,凶通过狗并行买化神贡经网滚络快凝速地努得到皂输出参数设置trainInputPath设置训练集在DFS上的路径testInputPath设置测试集在DFS上的路径predictInputPath设置预测测试集在DFS上的路径outputPath设置结果输出在DFS的路径numMapTasks设置Map的个数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论