亿级大数据实时分析平台_第1页
亿级大数据实时分析平台_第2页
亿级大数据实时分析平台_第3页
亿级大数据实时分析平台_第4页
亿级大数据实时分析平台_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据的故事:价值为美大量,快速,多样,变化等采样的数据价值明显降低实时数据的价值为最大大数据外表光鲜亮丽,内则无可奈何大数据的变现之殇《大数据的8个小观点》第一页,共29页。小米的大数据技术框架数据采集数据存储数据管理数据分析算法可视化ScribeETLHDFSHBASEKafkaHueKerberosMapReduceSparkStromHiveImpala机器学习自然语言数据挖掘统计分析JavaScriptE-ChartsH5/AppZookeeperDruidESKUDU第二页,共29页。小米大数据应用广告营销点击预估人群画像营销DMP精准营销搜索和推荐互联网金融精细化运营防黄牛图片分析和处理第三页,共29页。小米大数据实时分析场景案例第四页,共29页。数据分析的几个步骤数据收集JSSDKServer2Server数据处理清洗去噪反虚假数据数据建模模型管理模型优化数据分析数据报告数据预警数据洞察数据可视化热力图切片聚合战略分析诊断型分析响应型分析商业报表竞品分析,趋势分析智能引擎,预测模型预测型分析行动建议第五页,共29页。大数据分析工具MOLAPDRUIDElasticSearchkylinPinotROLAPImpalaHiveSparkSQLMySQL开源方案商业方案第六页,共29页。如何选择数据分析工具第七页,共29页。小米数据统计分析平台-架构LVS/NGIXAnalyticsServerScribeLogHDFSKafkaStormMapReduceSparkHBaseMySQLESQueryServerRedisDRUIDFE-WEB运营洞察第八页,共29页。一些分析工具的技术和应用Pinot第九页,共29页。为什么青睐HBase?天⽣为了⼤数据改变Schema的时候平滑扩容⽅便成本考虑Facebook等公司做出了很好的⽰范⼀些重要的FeatureCheckAndPutIncrement原⼦性RowKeyTTL单RegionServer内的强⼀致⾼I/O我们有三位HBaseCommitter!第十页,共29页。Hbase在小米的改进第十一页,共29页。HBase在小米的改进第十二页,共29页。HBase在小米第十三页,共29页。如何从MySQL平滑迁移到HBASE?1. 双写HBase和mysql2. 迁移历史数据(使⽤用⽼老的时间戳)3. 双读HBase和mysql,验证数据⼀一致性4. 灰度返回HBase结果APPMySQLHBase第十四页,共29页。几种开源MOLAP分析工具的比较DRUIDPinotkylin使用场景实时处理分析实时处理分析OLAP分析引擎开发语言JAVAJAVAJAVA接口协议JSONJSONOLAP/JDBC发布时间201120152015SponsorMetaMarkets/YahooLinkedIneBay技术实时聚合实时聚合预处理,Cache第十五页,共29页。DRUID特点来自METAMarkets,应用在Yahoo,OneAPM,小米,阿里,Baidu为分析而设计为OLAP而生,它支持各种filter、aggregator和查询类型交互式查询低延迟数据,内部查询为毫秒级,高可用性集群设计,去中性化规模的扩大和缩小不会造成数据丢失。可伸缩现有的Druid部署每天处理数十亿事件和TB级数据。Druid被设计成PB级别。第十六页,共29页。DRUIDArchitecture:ht*Pinot,PowerDrill,Dremel第十七页,共29页。DRUID使用场景:广告实时统计分析架构图(非计费部分)FrontDoor点击/展现KafkaHDFSScribeDRUIDDataReplayDataViewer第十八页,共29页。什么是Pinot分布式的实时OLAP数据分析平台用于LinkedIn内部,50个场景,250*3节点“谁看了我的Profile”“广告创建,跟踪”“内部数据分析BI等”功能SQL-Like查询,不支持JOIN支持多种数据源Kafka,Hadoop自动数据过期等不支持UDF(开发中)第十九页,共29页。PinotComponentsArchitecture第二十页,共29页。ApacheKYLIN麒麟:eBay开源的分析引擎分布式分析引擎提供大部分SQL查询与BI工具集成,例如Tableau完整的工具集合管理界面任务监控增量更新第二十一页,共29页。结构图第二十二页,共29页。Kylin使用的场景:FastCubing场景一:API请求的分析:响应时间,错误类型等场景二:一些广告返回类型的分析查询延迟:秒级别支持EXCEL客户端的多维表第二十三页,共29页。ApacheKUDUHDFS:批处理,大数据高效,高延时HDFS:大吞吐,低延时(1msr/wSSD)HBASE:小吞吐,低延时来源于Cloudera场景:实时数据分析,数据报表,读写数据操作小米应用:服务质量监控,问题排查工具第二十四页,共29页。小米KUDU的实践KUDU之前的数据流ETL:高延时LOG无序计算需要等待完整数据,才开始计算简化ETL流程访问性能优良DataSourceKAFKAStormKUDUIMPALA查询第二十五页,共29页。ElasticSearch实时分布式搜索引擎和分析引擎全文检索,结构化搜索和分析核心引擎为Lucene,分布式产品一些应用:Netflix:2000节点,多集群Wiki百科:全文搜索并且高亮StackOverflow:全文索引GitHub:1300亿行代码高盛:每天处理5TB数据,分析股票行情小米的一些应用:搜索场景-将LOG进行索引,支持文本查询和计数-广告分析和查询https:第二十六页,共29页。数据可视化Meteorite:SaikuMicrosoft:PowerBIExcelBaidueChart第二十七页,共29页。Don’tbeevil:用户隐私保护1890年,沃伦和布兰代斯提出隐私权(TherighttoPrivacy)2012年1月,欧盟增加遗忘全力,(RighttobeForgotten)2006年4月14日,欧盟《GeneralDataProtectionRegulation》定义了数据控制者,处理者和数据主题(Subject)保护儿童数据禁止收集个人特别数据(政治观点,性取向等)数据可以转移到其他控制者,可遗忘设立数据保护官(DataProtectionOfficer, DPO)PII相关信息隐私数据属性标签公共信息兴趣,泛地域手机号,姓名等PII信息:个人标识信息DifferentialPrivacy:差分隐私方法Quasi-identifier:若干条

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论