




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
自下而上的数据仓库构建方法童小军(XiaoJunTong),1,思考数据统计系统的需求/本源寻找一种简易统计分析思路尝试一种简单简简易统计的简单实现和应用,童小军(XiaoJunTong),2006来北京从事搜索引擎研发工作思考搜索的智能?20072008在FeedSky从事博客搜索研发(Web2.0)2008至今北京暴风网际搜索研发主管20102012对外经济贸易大学UIBE国际商学院企业管理研究生在读微博:,2,暴风搜索数据平台发展几个阶段,2008rsync,log文件,java分析,jsp程序2009BI,数据仓库,syslog-ng,perl/python20104w+r=3h,闭环反馈,数据决策,报表驱动2011管理会计,内部成本/收益核算PV/$,ISO9001,PMIOPM3,3,思考数据统计需求和本源?,需求/本源?,思考数据统计,分析的需求/本源?,使用列举类推法思考,思考需求/本源举例:组织结构,5,思考需求/本源举例:质量优化,6,思考需求/本源举例:工业控制,7,思考组织项目管理成熟度模型,OPM3模型第1维成熟度的4个梯级分别是:标准化的(Standardizing)可测量的(Measuring)可控制的(Controlling)持续改进的(ContinuouslyImproving),8,思考需求/本源简易的智能结构,9,需求/本源=智能/结构,商业智能BI性能指标:反馈周期?决策有效性?反馈成本?数据统计/分析是自动控制系统和自学习,自调整系统的核心组成部分。,数据构建方法什么是自下而上?,需求-展现-分析逻辑-数据结构变化可能-越到底层越少修改成本-越到底层越高,10,数据构建思路,抽象分析-总结归纳-数据结构-各类逻辑-业务需求保留全部可能性-总结需求的组成基本变量-总结固定逻辑和结构-设计满足各类需求的系统,构建策略自下而上,以不变应万变,12,=自下而上构建=,Log构建方法四个构建策略,1.数据公式:4w+r=2h2.实时汇总:js-nginx+perl-syslog-ng-python/perl-db3.存储格式:一日一表4.统计方法:2sql方法5.图表展现:模板引擎,13,1.Log数据公式:4w+r=2h,14,4W(who,when,where,what)+R(result)=3H(why?how?win?)log统计:who=(uid,uname)用户维度when=time,last_time,log_time时间维度where=(url/from_url,version,host,uip,system)空间维度what=(click/searchkeyword,orderfiled)场景维度result=(time,count,iscached)结果维度=3H(whyhowwin)为何?怎么办?如何赢?,2.实时汇总:js+nginx+syslog-ng+perl,15,流程:js-nginx+perl-syslog-ng-python/perl-dbJSflash:收集用户前端的感受nginx+嵌入perl模块:并发和并能syslog-ng:logsource(s_local);filter(f_cache);destination(d_cache_file);destination(d_cache_py);db:mysql:MyISAM列式数据库:infobright(够用就行),3.存储格式:一日一表,1.一日一个表结构,每日凌晨压缩2.表结构MysqlMyISAM3.少量索引4.压缩工具:myisampack压缩40%-50%自读5.举例:search_log_20101011click_log_20101011,16,4.统计方法:2sql方法,2sql方法大部分满足分析需求+程序(小部分)数据仓库-sql-数据集市-sql-展现结果满足大部分的分析需求sqltask分析工具原理。log库-统计库配置可以在sql客户端直接调试,DEMO:#desc:搜索行为次数,实际无结果,实际无结果率相对,绝对搜索无结果次数/搜索行为次数#source::3306:user_action#market::3306:user_analysis#search_resultmode:varchar(255),count:int(11),qj_rate:float,rate:float,day:int(8),update_time:bigint(20)selectresult_typeasmode,count(search_log_id)ascount,count(search_log_id)*100/(selectcount(search_log_id)fromlog_search_#daywhere1andresult_count=0)asrate,count(search_log_id)*100/(selectcount(search_log_id)fromlog_search_#daywhere1andsearch_begin=1)asqj_rate,#dayasday,UNIX_TIMESTAMP(now()*1000asupdate_timefromlog_search_#daywhere1andresult_count=0andsearch_begin=1groupbymodeorderbycountdesc;,4.图表展现:模板引擎,1.定义数据源2.定义查询语句和变化字段3.定义展现配置,DEMO:#desc:搜索行为次数,实际无结果,实际无结果率相对,绝对搜索无结果次数/搜索行为次数#source::3306:user_action#input:#start_day#end_day#X:dayY:countType:line#搜索行为mode:类型,count:搜索,qj_rate:绝对无结果,rate:比例,day:天,update_time:更新时间selectmode,count,qj_rate,rate,day,update_timefromsearch_resultwhere1andday=#start_daydayphp-logn-rsync-log.tar.gz-分析程序分析逻辑-数据库-数据展现java第二阶段:业务知识和行业同步js-nginx+perl-syslog-ng-search_log入库程序-数据仓库-sqlsql_task程序-数据集市-sql展现python邮件/.net桌面,数据集市db-python-data.file-gnuplot+绘图配置-img+data-mailgnuplot帮助:,python报表邮件实现,方案:sql+配置=数据+曲线集成环境:桌面工具+方案存储+统计展现,分析桌面平台的基本构思,修改决策-研发测试-上线-数据单一决策,周期长,影响整体稳定性修改决策-研发测试-分流系统-正式环境-数据支持多路决策,周期端,影响小,心理成本低-小版本1-数据-小版本2-数据,数据系统和快速决策小版本放量数据平台,思考那些指标影响了一个数据系统的性能?以上思路在那些方面改善了这些指标。反馈周期?决策有效性?反馈成本?,什么是成功的数据系统?,总结,我们可以以什么应对变化?,24,=以不变应万变=以闭环反馈应万变=以4w+r=3h应万变=,题外话,题外话:个人的一个发现关于海内外互联网alexa排名总结.Alexa排名显示:中国本土互联网繁荣。Alexa排名比例:500强:12.6%200强:12.5%100强:13%位美国后。中国本土应用遍地开花。业务涵盖搜索门户IM电子商务视频分享微博等领域。而其他国家用户多访问美
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论