版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
企业BigData指南
–方案架构与案例研讨陈育杰EricChen
eric_chen@
精诚集团Etu知意图资深事业发展总监企业大数据指南第1页精诚集团BigData事业精诚集团提供BigData处理方案独立品牌在台北与北京设有研发与专业服务团体我们关注不只是技术,更在意挖掘BigData对企业商业价值透过软硬件一体整合,大幅「简化」与「优化」企业处理BigData种种问题企业大数据指南第2页精诚集团BigData事业意图与关联充满BigData世界Etu帮您详细整合来展现企业大数据指南第3页大数据(BigData)时代降临BigDataPeopleDevicesSensors移动互联网Mobile
Internet物联网InternetofThings4新量级、新处理模式、新企业智能企业大数据指南第4页BigData要处理问题
Volume海量数据规模Variety多样数据类型ValueVelocity快速数据流转巨大数据价值企业大数据指南第5页6SocialMediaMachine/SensorDOC/MediaWebClickstreamAppsCallLogLog什么是半结构化/非结构化数据企业大数据指南第6页BigData带来挑战不一样“看”数据方式需要更高性价比数据计算与储存方式不一样数据管理策略超越企业现有IT数据处理能量7企业大数据指南第7页不一样“看”数据方式8可视:结构化资料15%未视:半/非结构化数据85%DB/DW主管们看战情数位仪表板,其实是残缺…企业大数据指南第8页10万GB10万TB需要更高性价比数据计算与储存方式9数据库数据仓库计算更加快
存放更省企业大数据指南第9页85%半/非结构化Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile
不一样数据管理策略当我们想要扩充时,才发觉:架构只能scale-up,scale-out不易处理时间过长,
time-to-value受限成本过高,
cost-efficiency受限15%结构化DB/DW遗憾残缺10企业大数据指南第10页天天几百GB、几TB资料,且连续成长中储存Storing在收数据同时做必要前置处理(pre-processing),并区分数据处理优先等级(prioritizing)计算Processing怎样有效防止因硬件毁坏所造成资料损毁管理Managing怎样从中挖掘出所关注事件pattern或behavior分析Analyzing超越企业现有IT数据处理能量11企业大数据指南第11页大数据储存与处理/运算大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存放横向扩容(Scale-out)架构企业大数据指南第12页什么是大数据处理(BigDataProcessing)WordcountHarryPorter
(哈利波特)432,442LordVoldemort
(佛地魔)134,209Dumbledore
(邓不利多)72,982SeverusSnape
(石内圤)28,252……...……………../category.screen?category_id=PLANTS&JSESSIONID=S1FF9ADFF2/gp/product/B005OCFGTO/ref=s9_simh_gw_p14_d0_g74_i5?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=1YN4ES7ZEV17ZRKA858X&pf_rd_t=101&pf_rd_p=4631&pf_rd_i=507846.tw/exep/prod/china/chinafile.php?item=CN10816425.tw/exep/prod/china/chinafile.php?item=CN10759096/feds-issue-warning-unconven-sperm-donor-140811851.htmlLogfile:1.5TB/dayHitcount812,490,299232,934,490198,283,00257,922,190……………...…………HitCountWordCount企业大数据指南第13页什么是大数据处理(BigDataProcessing)/category.screen?category_id=PLANTS&JSESSIONID=S1FF9ADFF2/gp/product/B005OCFGTO/ref=s9_simh_gw_p14_d0_g74_i5?pf_rd_m=ATVPDKIKX0DER&pf_rd_s=center-2&pf_rd_r=1YN4ES7ZEV17ZRKA858X&pf_rd_t=101&pf_rd_p=4631&pf_rd_i=507846.tw/exep/prod/china/chinafile.php?item=CN10816425.tw/exep/prod/china/chinafile.php?item=CN10759096/feds-issue-warning-unconven-sperm-donor-140811851.html/flower_store/cart.do?action=purchase&itemId=EST-13&JSESSIONID=SD7SL1FF9ADFF/a/1221/000094.htmhttp://24.tw/?m=index&f=view&p=24hour&s=nlife.tw/?mod=store&func=style_show&SR_NO=DEAO45/category.screen/flower_store/.tw/exep/a/1221.tw/exep24.tw/?m/feds.tw/?mod/gp…………0--[15/Nov/:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"/flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/0223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/0223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/0223CentOS/0-0.1.el4.centosFirefox/0"102544638-IPActionTimeServerURL###……….………..……………….……..…….……….………..……………….……..…….3rdpartypre-definedReportingFilterStringTruncationLogfile:1.5TB/day企业大数据指南第14页什么是大数据处理(BigDataProcessing)RDR_SEND_TIMERDR_TAGSUBSCRIBER_IDPACKAGE_IDSERVICE_IDPROTOCOL_IDSKIPPED_SESSIONSSERVER_IPSERVER_PORTACCESS_STRINGINFO_STRINGCLIENT_IPCLIENT_PORTINITIATING_SIDEREPORT_TIMEMILLISEC_DURATIONPROTOCOL_SIGNATURZONE_IDFLAVOR_IDStartdateStarttimeSessiontypeSourceIPSourcePortNATIPNATPortDestIPDestPortProtocalOutputIDStarttimeEndtimeSourceIPSourcePortDestIPDestPortProtocalUpstreamDownstreamURLJoin1.1TBper-day600GBper-day企业大数据指南第15页什么是大数据处理(BigDataProcessing)SequenceDe-Normalize0--[15/Nov/:00:07:45]"GET/flower_store/product.screen?product_id=FL-10"/flower_store/category.screen?category_id=PLANTS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/0223CentOS/0-0.1.el4.centosFirefox/0"160416674--[15/Nov/:00:07:58]"GET/flower_store/product.screen?product_id=K9-BD-01HTTP/1.1""/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/0223CentOS/0-0.1.el4.centosFirefox/0"18032431i7--[15/Nov/:00:08:26]"GET/flower_store/product.screen?product_id=FL-DSH-01HTTP/1"/flower_store/category.screen?category_id=FLOWERS&JSESSIONID=SD7SL1FF9ADFF2""Mozilla/5.0(X11;U;Linuxi686;en-US;rv:0)Gecko/0223CentOS/0-0.1.el4.centosFirefox/0"102544638-ABCDXYZOPQADACXEventSequenceDiagramRDBdataEvent范例被浏览网页每笔网络交易所经历每个程序或系统…….BigFlatFileforfulltextsearch企业大数据指南第16页什么是大数据处理(BigDataProcessing)SignatureMetaDataMetaDataTagValueTagValueAppAppAppAppMediaExtractionFileTransformation企业大数据指南第17页什么是大数据处理(BigDataProcessing)StringConvertCountFilterStringTruncateSortIndexingJoinSequenceExtractAggregateSocialMediaMachine&SensorDataMediaWebClickstreamMobileAppsCallLogSplunkBI/ReportingCustomizedSolutionsDatabase/DataWarehouse企业大数据指南第18页Etu知意图大数据处理方案大数据储存大数据处理数据分享数据检索数据分析数据展现分布式软件架构并行计算框架分布式存放横向扩容(Scale-out)架构大数据处理平台处理方案企业资料云
硬件与软件一体
/储存与运算合一BigData运算与储存,单一架构处理EtuAppliance企业大数据指南第19页20传统并行计算架构并行计算
+
分布式存放运算储存传统储存架构计算与存放一体,计算向数据靠拢,高效专用存放模式为程序员屏蔽通性、并发、同时与一致性等问题任务之间无依赖(share-nothing),含有高系统延展性(scale-out)Hadoop特征企业大数据指南第20页Hadoop不只是HadoopHIVEBigDataApplicationsPig!ZooKeeperSQLRAW21企业大数据指南第21页关系数据库vsHadoop关系数据库Hadoop资料量GB->TBTB->PB存取方式交互式与批次批次数据更新屡次读写一次写,屡次读数据结构固定schema无schema资料一致性高(ACID)低扩充性非线性线性企业大数据指南第22页连结关系数据库与Hadoop汇入与导出数据Sqoop查询与整合HiveJDBCDriver(Java)HiveODBCDriver(C++)HiveAdd-inforExcel(byMicrosoft)Thrift(C/C++,Python,Perl,PHP)企业大数据指南第23页Hive介绍由Facebook开发架构于Hadoop之上,设计用来管理结构化数据中间件以MapReduce为执行环境数据储存于HDFS上Metadata储存于RDMBS中Hive设计标准采取类SQL语法扩充性–Types,Functions,Formats,Scripts性能与平水扩展能力兼具企业大数据指南第24页Hive–SQLlikeHadoopDatabaseDriver(compiler,optimizer,executor)metastoreDataNodeDataNodeDataNodeDataNodeHadoopClusterM/RM/RM/RM/RWebUICLIJDBCODBCCreateM/RJob企业大数据指南第25页Sqoop–SQLtoHadoopJDBCJDBCJDBCMapMapMapHDFS/HIVE/HBaseSQLCreateMapTasks企业大数据指南第26页Sqoop支援RDMBSOracleNetezzaTeradataSQLServerMicrosoftPDWMySqlPostgreSQL企业大数据指南第27页传统数据处理流程营运信息新用户新订单新产品数据仓库用户浏览日志大部份删除ETL部份资料企业大数据指南第28页探索式数据处理流程新用户新订单新产品广告效益分析?促销活动分析?电子报效益分析?用户浏览日志营运信息数据仓库企业大数据指南第29页30StrictlyNDA-MicrosoftConfidentialDataWarehouseSensorsDevicesWebLogCrawlersERPCRMLOBAPPsConnectors非结构化数据源SSRSSSASBIPlatformFamiliarEndUserToolsPowerViewExcelwithPowerPivotEmbeddedBIPredictiveAnalytics结构化数据源Hadoop企业Hadoop应用策略企业大数据指南第30页应用一:参考RDBMS中数据表RDBMSCustomersWebLogsProductsHDFS企业大数据指南第31页应用二:脱机数据分析RDBMSCustomersProductsHDFSSalesHistory企业大数据指南第32页RDBMSHDFSSalesSalesSalesSalesODBC/JDBC应用三:
历史数据与在线数据交互利用企业大数据指南第33页应用四:
利用Hadoop进行数据汇总
RDBMSWebLogsHDFSWebLogSummary企业大数据指南第34页应用五:利用ODBC连结Excel&HiveExcelHiveAdd-in在线资料:MSSQLServer历史资料:Hive企业大数据指南第35页其它应用-EtuRecommender
建构在EtuAppliance上精准推荐系统EtuRecommenderRecommendationEngine商品/内容关联性分析客户行为相同性分析客户海量量浏览数据客户交易数据其它或第三方资料推荐清单企业大数据指南第36页其它应用-EtuRecommender
建构在EtuAppliance上精准推荐系统WebServerUserDBProductDBEtuRecommender商品浏览日志用户数据产品目录推荐结果API企业大数据指南第37页其它应用-EtuRecommender
建构在EtuAppliance上精准推荐系统EtuRecommender精准推荐应用系统个人化推荐清单个人化EDM个人化账单百货零售流通银行连锁媒体虚拟通路(在线)实体通路(线下)结账点击浏览搜寻交易购物车推荐清单利用不光只是在线服务企业大数据指南第38页客户应用案例需求上亿个影像图文件每个影像图文件大小约10~20K须集中管理需满足图档实时调阅与查询现实状况以SANStorage来储存与管理全部影像图文件每个影像文件以档案目录方式来管理以数据库来存放每个图像图文件之特征值(meta-data)与文件路径,供使用者查询与搜索SANStorageDB应用程序应用程序应用程序应用程序其它应用–海量小图档管理企业大数据指南第39页其它应用–海量小图档管理SANStorageDB应用程序应用程序应用程序应用程序大量查询与搜索造成SANStorage接口效能瓶颈,响应时间太久数据库对上亿条数据以上查询效能不佳无法支持全文搜索无法支撑大量关连性计算与分析传统Storage对储存巨量小档案并不适当每日新档案导入响应时间太慢企业大数据指南第40页KeyMetadataObjectFileIDFilename…….….….……….导入EtuAppliance利用支巨量资料高平行读写和存放之非关系数据库,来储存巨量小图像图檔及其特征值,一次打通全部效能瓶颈利用内建分布式文件系统作为提供其高可靠性底层存放支持图像文件及其特征值导入应用程序应用程序应用程序支持百亿笔资料之高平行查询其它应用–海量小图档管理企业大数据指南第41页高可靠性线性扩展(scale-out),轻易快速扩容总持有成本低高并发与高吞吐率,处理、查询百亿条数据没有问题支持并行计算框架,可满足巨量数据全文搜索与进阶数据分析需求巨量存放,提供PB级以上储存能立利用支持海量资料高平行读写和存放之非关系形数据库,来储存巨量小图像文件及其特征值,一次打通全部效能瓶颈利用内建分布式文件系统作提供其高可靠性底层存放支持SANStorageDB应用程序应用程序应用程序其它应用–海量小图档管理企业大数据指南第42页Hadoop平台竞争要素HadoopDisruptionVectorsSource:GigaOMPro,整合布署存取企业大数据指南第43页延展:公有云等级运算架构可靠:电信等级系统质量效能:企业等级创新绩效EtuAppliance介绍
BigDataEnd-to-EndSolutioninaBox储存与运算一体,简化与优化优势机种:10分钟内可布署100+节点资料撷取能力1U胜过8UBigData运算处理最适化企业大数据指南第44页
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 展望美好未来树立远大理想-小学主题班会课件
- 检验技师考试《微生物检验》试题及答案
- 2026年乡村医生抗菌药物合理使用培训考试题(含答案)
- 2026年银行业专业人员中级职业资格考试(专业实务银行管理)自测试题库及答案(浙江温州)
- 机械制图断面图题库答案
- 2026年全国房地产经纪人之业务操作考试快速提分卷(附答案)
- 2026年攀枝花银行业专业人员中级职业资格考试(专业实务银行管理)自测试题库及答案
- 2026年山东省乳山市高一数学上册期末考试模拟测试卷附完整答案(夺冠)
- 服务质量管理题库及答案
- 模拟题库英语听说答案
- 《拒绝毒品》生物教学课件
- 2025年上海事业编护理考试题及答案
- 2026年全国青少年禁毒知识竞赛题库含答案
- 物业防疫工作培训
- 2025年龙岗排水有限公司笔试及答案
- 2025中国玫瑰痤疮诊疗指南课件
- GB/T 46793.1-2025突发事件应急预案编制导则第1部分:通则
- 学校档案管理培训课件
- 2025年福建省漳州市云霄县辅警招聘考试题库附答案解析
- GB/T 46401-2025养老机构认知障碍老年人照护指南
- 紫外线灯检测方法
评论
0/150
提交评论