北邮大数据技术课程重点总结_第1页
北邮大数据技术课程重点总结_第2页
北邮大数据技术课程重点总结_第3页
北邮大数据技术课程重点总结_第4页
北邮大数据技术课程重点总结_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1大数据技术什么是数据挖掘,什么是机器学习:什么是机器学习关注的问题:计算机程序如何随着经验积累自动提高性能;研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能;通过输入和输出,来训练一个模型。堆2.斜大数纹据分开析系妹统层邻次结叶构:悲应用危层、宰算法随层、执系统映软件包层、牙根底滤设施央层往3.健传统痒的机粮器学例习流阔程滑预处犬理-粪?特扮征提鼻取-锐?特摄征选壁择-尽?再肝到推劈理-嘴?预饥测或串者识雄别。赔手工俭地选咸取特苍征是短一件邀非常饰费力逼、启吸发式侦〔需瑞要专旱业知姿识〕砖的方椒法,盘如果戴数据血被很饮好的酷表达塞成了陕特征腔,通肺常线点性模嘉型就弄能达行到满脖意的洒精度亏。合大数窜据分蛮析的登主要检思想哗方法系4.槐1三拖个思皆维上学的转顽变柏关注如全集赖〔不缠是随杂机样仓本而味是全货体数鸣据〕糠:面尺临大仆规模停数据晃时,犯依赖穗于采愿样分六析;公统计赤学习姨的目光的—枪—用妹尽可护能少居的数臭据来垃证实锹尽可旱能重兰大的劳发现搂;大慢数据采是指爱不用避随机逼分析纳这样谜的捷当径,叼而是碗采用傍大部磁分或些全体巧数据说。碎关注秀概率跃〔不僚是精剃确性盒而是骂概率秒〕:机大数部据的舞简单樱算法滴比小目数据购的复灯杂算掌法更苍有效亿关注能关系谈〔不零是因仇果关蔑系而画是相姐关关强系〕准:建胖立在泰相关截关系旧分析通法基团础上氏的预寒测是探大数楚据的居核心幸,相掏关关成系的骆核心奉是量吹化两都个数懂据值诵之间罩的数奶理关杂系,减关联均物是棋预测炮的关爆键。澡4.鱼2数奸据创帐新的亡思维劝方式桨可量句化是掏数据抱的核血心特悔征〔资将所绍有可缎能与呢不可抹能的亿信息背数据萍化〕免;枝挖掘杨数据室潜在堂的价里值是唤数据钳创新惩的核贞心讨;三受类最趟有价厅值的捕信息强:位律置信纤息、气信令矿信息鲜以及筋网管饰和日肯志。沙数据蜻混搭己为创垄造新科应用蝇提供站了重虑要支似持。客数据尺坟墓矛:提挎供数探据服瞎务,烛其他泄人都旱比我碗聪明载!项数据妄废气插:是利用户繁在线盖交互倚的副予产品粉,包型括了颠浏览船的页枯面,棋停留孝了多沟久,肤鼠标页光标耀停留劣的位舅置、友输入暗的信医息。薯4.掏3大棍数据挺分析寺的要革素坏大数驼据“亮价值波链〞硬构成功:数浆据、胳技术技与需顺求〔朝思维谎〕;匪数据完的价剂值在险于正爱确的形解读盒。没5.世数据迫化与释数字途化的纱区别阔数据损化:科将现表象转盛变为非可制娃表分无析的毒量化辱形式菠的过殃程;哭数字手化:涝将模皮拟数夺据转般换成散使用呈0、愤1表妨示的帅二进吊制码逝的过创程垒6.粪基于滚协同奇过滤依的推捉荐机个制障基于肝协同淹过滤套的推薯荐〔势这种葬机制冠是现询今应放用最漫为广恭泛的假设推荐宰机制究〕—匠—基鞠于模抽型的苏推荐未〔S鹊VM垄、聚桂类、扯潜在捐语义拣分析膀、贝蒸叶斯凳网络随、线拢性回衡归、虑逻辑疑回归皂〕南余弦型距离觉〔又集称余梅弦相暮似度君〕:目表示辫是否饥有相既同的畜倾向遭欧几升里得飞距离晓〔又晕称欧返几里梅得相榴似度扎〕:虫表示胆绝对岂的距秃离糖这种妻推荐贼方法只的优刻缺点枪:尘它不糊需要绕对物削品或仗者用曾户进满行严兽格的术建模予,而洒且不爪要求附物品下的描仓述是能机器撑可理亦解的岔;推饲荐是伙开放骡的,信可以毛共用怨他人毅的经的验,溉很好群的支苹持用臣户发饼现潜扯在的垮兴趣驴偏好竖。施数据眉稀疏踩性问剥题,边大量宅的用诸户只财是评仿价了冻一小柄局部轰的项喘目,洞而大虾多数仇的项遣目是扁没有漂进行仿评分伯;冷世启动避问题爷,新页物品纱和新录用户附依赖育于用姑户历筛史偏上好数各据的餐多少恢和准辨确性四,一恋些特愈殊品蓝味的及用户菠不能弓给予镰很好熄的推傅荐。越7.掩机器渣学习袄:构我建复术杂系窄统的女可能触方法匪/途匆径拒机器砍学习迅使用村场景唐的核团心三佛要素浑:存既在潜蛮在模朵式、万不容泉易列父出规敢那么并奔编程弊实现嫂、有终历史趣的数亿据御机器赤学习谷的基勒础算扇法之潮PL螺A算志法和燕Po坝ck首et父算法较〔贪伙心P祝LA驶〕咽感知矿器—粒—线舞性二亭维分欠类器截,都聚属于揭二分妥类算傅法照二者帐的区岔别:刻迭代恐过程姥有所抓不同疾,结纽束条秘件有锹所不剂同;孟证明僻了线脾性可拌分的仓情况邻下是蓬PL价A和欢Po飞ck况et龙可以觉收敛牌。匹机器斧为什迟么能屋学习铅学习今过程傍被分凶解为虚两个鼓问题否:煮能否慌确保版Eo醋ut饱(g耕)费与牌Ei萌n(夸g)按足假设够相陪似?暂能否紧使软Ei坏n(咬g)恭足得够小促?梨规模睡较大码的N谅,有犬限的得dV喜C,旨较低净的E屯in和条件尽下,财学习课是可批能的轮。拦切入傍点:挥利用点具体滑特征孝的,迎基于将有监洁督方牺式的厚,批冲量学盼习的盐分析作,进斯行二杆分类耻预测鸽。落VC纠维:挖噪声竿的种锤类:浙误差闭函数抛〔损向失函疯数〕编给出迁数据闪计算毯误差桃线性裂回归牲算法粒:简葛单并烂且有禽效的丝方法饿,典隐型公酬式乱线性椒回归田的误裕差函瘦数:祸使得飞各点瑞到目莫标线财/平端面的瞒平均巩距离弯最小愉!胜线性涂回归姜重点忧算法齿局部甩:舰线性叔分类妈与线树性回泻归的袜区别佩:诱过拟没合:吧原因芦:郊模型邮复杂近太高化,噪下声,铃数据撇量规他模有沈限货。编解决厘方案北:夺使用熟简单草的模限型,贯数据盏清洗枝〔整费形〕模,正馒那么化用,验死证。痒正那么科化甜竖分布绞式文瞎件系粱统:拥一种故通过软网络唱实现煌文件鼠在多由台主蔬机上束进行库分布把式存街储的崇文件愧系统泊;分卧布式金文件现系统件一般爬采用后C/汪S模笼式,被客户职端以卵特定复的通急信协揪议通披过网丢络与吓效劳温器建踢立连拥接,锻提出吉文件填访问心请求弓;客涛户端冠和服虾务器盐可以否通过私设置弦访问芝权限仍来限另制请方求方吧对底多层数朵据存惧储块瓶的访爬问。册计算友机集枪群结掌构:暗分布需式文之件系园统把炭文件亭分布朝存储是到多粒个计携算机免节点欣上,讽成千携上万盐的计捞算机回节点逢构成炮计算武机集欲群。鸟与之秋前使皱用多抖个处讯理器抵和专退用高愧级硬熔件的捕并行励化处乓理装互置不稀同的捏是,仍目前刷的分海布式吧文件给系统驰所采蜂用的支计算润机集孝群都再是由化普通供硬件僵构成佣的,拔因此雕大大佩降低钻了硬艰件上循的开他销。芦分布殊式文帐件系翅统的揉结构艺:狱分布羊式文汉件系邻统在待物理登结构贺上是甚由计咽算机园集群档中的插多个遍节点骄构成感,这结些节灵点分答为两肃类,衰一类鸡叫“恶主节班点〞筑(M普as闸te宾rN惑od决e)敬或者浊也被天称为耀“名开称结袋点〞释(N地am抱eN惜od粒e)抢,另捡一类倒叫“串从节欠点〞茧〔S余la绵ve堆N床od病e〕密或者傲也被施称为盒“数劳据节小点。叛HD堂FS君主要沟特性项:劫兼容次廉价乓的硬踏件设珠备、木支持辣大数坦据存档储、谷流数见据读堆写、丽简单健的文碍件模主型、塑强大犯的跨墓平台坊兼容赏性;拴局限给性:妻不适吗合低默延迟栏数据潮处理歪、无垮法高逐校存颂储大记量小峰文件节、不斧支持蛇多用骄户写煎入及筑任意克修改馆文件块:庭hd贵fs作的名傍称节生点小存储杂元数张据、印元数嗓据保悔存在卵内存剩中、号保存笼文件迁,b众lo规ck招,d闷at秀an昼od鼓e之领间的斥映射业关系红;副hd穗fs汁的数校据节事点萝存储显文件宰内容颜、文迟件内逆容保予存在额磁盘泛、维被护了图bl骄oc瘦k旺id即到d闻at旺an芽od恼e本里地文载件的炸映射醒关系充。春分布悟式数严据库惰概述俗:外四类挣典型屠的作比用于的大数牵据存卵储和糠管理收的分送布式培数据山库:啦并行捷数据房库、宰No荷SQ呜L数吓据管典理系渐统、部Ne寸wS泳QL筝数据啦管理形系统佣、云坊数据担管理浪系统还。榜并行痒数据悄库:危No草SQ么L数逗据管绸理系队统:发Ne树wS矿QL帜数据合管理腾系统冷:详云数溉据管漂理系劫统:芳No舱sq另l简扁介:怠数据浩模型棵灵活取、简剪洁;螺水平杜可扩扣展性臣强;险系统姓吞吐橡量高祝;牺关系还数据段库无裤法满唱足大扎数据畅表现剖:无膜法满凯足海附量数晚据的陡管理艺需求愿、无乎法满回足数肯据高策并发益的需渴求、明无法晴满足脸高可活拓展苏性和沫高可龙用性牌的需军求。已No维sq扣l与中关系毁数据湾库的私比拟傍:兔No负SQ桃L的沃四大搁类型隐:键辅值数诚据库现、麻列族萌数据齐库、爬文档警数据洞库、你图形概数据抽库圣No面SQ膨L的昏理论已根底淡〔C娇AP杠与A萝CI亲D、径BA敏SE名〕乓CA薄P:弯一个遣分布鲁式系旧统不须可能铺同时请满足担一致瑞性、援可用味性和伟分区峰容忍啊性这沉三个束需求亿。龟AC支ID买〔关临系数脚据库暑的事高务具介有的趟四个裁特性夫〕尽BA迅SE代No隆SQ阁L到换Ne袋wS刊QL算:它大数何据应笼用:赵百度厘大数狠据引军擎的冤构成欠:开陕放云太、数观据工炸厂、撕百度奥大脑五开放卖云:城数据侄工厂奶:卷百度页大脑绝:鸭阿里饰大数润据应恐用:央去I过OE遗大数厦据在正电信姥行业膊的应四用:朱分布仅式并爽行编原程框讨架M务ap芒Re袍du绸ce请Ma鸽pR地ed发uc寺e的枕体系限结构毯:C暖li牧en庸t、镜Jo摊bT晋ra前ck拔er岁、T厚as萄kT售ra咳ck减er排、T目as明k白Ma槐pR嫂ed希uc广e的满工作难流程球:蜡Sp韵li大t〔裁分片吵〕:辟Ma抢p端作的S渗hu炕ff牵le享过程置详解缠:时Re瓦du晨ce狂端的森sh材uf馆fl狗e详萌解:掌Ma反pR铸ed甘uc蝶e小暴结:朗Sp临ar键k特带点:横Ha哄do猛op红的局铃限性缸:崖Sp浴ar缩k生误态系溪统:砍RD依D:食RD藏D的搁优势指:勿RD烂D之坝间依股赖关夏系的打两种中类型序:湾St头ag鼓e划熔分:床Sp姿ra弓k小晌结:猜流数致据:窑流计天算处强理流保程:星数据笛实时碗采集犯〔保字证实疲时性矿、低圈延迟喇、可句靠稳洋定〕域、数陶据实饱时计立算、右实时炎查询嫂效劳众〔实汽时查巴询服屯务可息以不秋断更耻新结洪果,征并将婶用户鸽所需锤的结辛果实体时推宵送给钞用户词〕。厉流处苏理系挺统与削传统蠢数据溉处理颂系统碍的区并别:着开源定流计广算框叼架—灯—S得to凝rm策〔免谨费、爹开源阁的分歇布式弱实时强计算环系统联〕:绕St贺or嫁m的航工作品流程事:令流计同算小城结:感图计斥算系扶统—娱—P架re显ge寿l简坟介:尤BS旗P模斜型:志

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论