[计算机]运营商商业智能计算架构设计_第1页
[计算机]运营商商业智能计算架构设计_第2页
[计算机]运营商商业智能计算架构设计_第3页
[计算机]运营商商业智能计算架构设计_第4页
[计算机]运营商商业智能计算架构设计_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

运营商商业智能计算架构设计,中山大学海量数据与云计算研究中心 吕威,提纲,Part 1 商业智能计算架构设计商业智能计算例子运营商商业智能计算架构设计开源数据分析软件Weka介绍Part 2 大规模商业智能计算架构设计(云挖掘Hadoop) Map-Reduce方法Classification (k-NN) 的MapReduce化Part 3 安全商业智能计算架构设计微分流形在安全云智能计算中的应用(Matlab),Part 1智能计算架构设计,定义、概念,商业智能架构实例,开源软件,智能计算例子,运营商智能计算架构,Weka介绍,商业智能Business Intelligence,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP(联机分析处理)和数据挖掘等技术的综合运用。,Lots of data is being collected and warehoused Web data, e-commercepurchases at department/grocery storesBank/Credit Card transactionsComputers have become cheaper and more powerfulCompetitive Pressure is Strong Provide better, customized services for an edge (e.g. in Customer Relationship Management),Commercial Viewpoint,Mining Large Data Sets - Motivation,There is often information “hidden” in the data that is not readily evidentHuman analysts may take weeks to discover useful informationMuch of the data is never analyzed at all,The Data Gap,Total new disk (TB) since 1995,Number of analysts,数据仓库,数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库之父William H. Inmon提出的定义数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。,数据集市,外部数据,用自顶向下的方法构建数据仓库,数据集市,建造企业数据仓库建设中心数据模型一次性的完成数据的重构工作最小化数据冗余度和不一致性存储详细的历史数据从企业数据仓库中建造数据集市得到大部分的集成数据直接依赖于数据仓库的可用性,操作数据,用自底向上的方法构建数据仓库,数据集市,建立部门数据集市限制在一个主题区域快速投资收益 区域自治 设计的可伸缩性强对相关部门的应用容易复制 对每个数据集市需要数据重构存在一定的冗余及不一直性逐步扩展到企业数据仓库 (EDW)把建造EDW作为一个长期的目标,操作数据 (局部),数据集市,企业数据仓库,联机分析处理 (OLAP),联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是维这个概念。,联机分析处理 (OLAP),OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。 钻取是改变维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。,联机分析处理 (OLAP),切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。 旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。,OLAP的分析方法(一)切片、切块,OLAP的分析方法(二)钻取,按时间维向下钻取,按时间维向上钻取,60,OLAP的分析方法(三)旋转,OLTP、ROLAP与MOLAP模式,ROLAP的星型模式(Star Schema),事实表:用来存储事实的度量值和各个维的码值。维 表:用来存放维的元数据(维的层次、成员类别等描述信息)。,Budget,MOLAP的多维立方体(Multicube),数据组织形式,RDB数据组织 - MDDB数据组织 - 关系表中综合数据的存放 多维数据库中综合数据的存放,What is Data Mining?,Many DefinitionsNon-trivial extraction of implicit, previously unknown and potentially useful information from dataExploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns,What is (not) Data Mining?,What is Data Mining? Certain names are more prevalent in certain US locations (OBrien, ORurke, OReilly in Boston area) Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, A,),What is not Data Mining? Look up phone number in phone directory Query a Web search engine for information about “Amazon”,Draws ideas from machine learning/AI, pattern recognition, statistics, and database systemsTraditional Techniquesmay be unsuitable due to Enormity of dataHigh dimensionality of dataHeterogeneous, distributed nature of data,Origins of Data Mining,Machine Learning/Pattern Recognition,Statistics/AI,Data Mining,Database systems,Data Mining Tasks,Description MethodsFind human-interpretable patterns that describe the data.,Prediction Methods Use some variables to predict unknown or future values of other variables.,Data Mining Tasks,Data Mining Tasks.,Data Mining,Clustering Descriptive,Classification Predictive,Association Rule Discovery Descriptive,Sequential Pattern Discovery Descriptive,Regression Predictive,Deviation Detection Predictive,商业智能例子,1,超市分析交易数据,安排货架上货物摆布,以提高销售 额,3,保险公司分析以前的客户记录,决定哪些客户的潜在花费是昂贵的,2,信用卡公司分析信用卡历史数据,判断哪些人有风险,哪些人没有,商业智能例子,4,汽车公司分析不同地方人的购买模型,有针对性地发送给客户喜欢的汽车手册,6,税务局分析不同团体的交所得税的记录,发现异常模型和趋势,5,广告公司分析人们购买模式,估计他们的收入和孩子数目,作为潜在的市场信息,Part 1智能计算架构设计,定义、概念,商业智能架构实例,开源软件,智能计算例子,运营商智能计算架构,Weka介绍,运营商智能计算架构设计,怎么搭建整个架构呢?,数据仓库,奇异点分析,分类模块,OLAP,关联规则模块,预测模块。,数据仓库的建立,1)选择合适的主题(所要解决问题的领域) 2)明确定义事实表 3)确定和确认维 4)选择事实表 5)计算并存储fact表中的衍生数据段 6)转换维表 7)数据库数据采集 8)根据需求刷新维表 9)确定查询优先级和查询模式。,任务确定,领域任务确定,领域任务确定,领域任务细化1,优化交往圈。包括交往圈聚类、重复客户认定等。交往圈可作为一个群体,对其进行相应的精确营销。这个具体可以用分析通话的重复次数、使用聚类算法等方法来实现。如果有客户的话务信息,整个交往圈聚类分析可以实现。其中一个交往圈子中的关键人物的选择可以通过类似pagerank算法来实现(探索)。,领域任务细化1,客户流失预警。主动流失的客户对企业影响最大,所以提前预测较为可能流失的客户可以使得企业进行相关的业务调整来挽留客户。这个也是通过对话务的分析来进行预警,很多运营商做过相关的项目,所以有一些经验可以借鉴,但需使用数据挖掘算法实现。,领域任务细化1,校园市场调研。通过对高校这样一个大群体进行调查,可以分析学生群体的特点以及需求,使得市场部制定出更合理的优惠措施,而在校园做这样的调查较为合适。此工作可以通过在学校内部派发问卷赠送小礼品的方式或者是在学校论坛发布调差报告的形式实现,需要较多人力。,领域任务细化1,新话费套餐沙盘推演。这种模型可以把一种新的话费套餐的数据输入从而得出相关客户信息。这种模型的建立需要大量的数据作为支撑,运营商做出如此巨大的话费变动情况较少,所以历史数据比较少,这种情况下面即使算法效率再高也很难做出相对准确的结果(探索)。,客户流失分析 稳定客户 潜在流失客户客户社群发现 联系紧密的小团体 潜在客户社群客户多重身份识别 换号 多个号码,领域任务细化2,客户价值发现 PageRank算法 PersonRank算法竞争对手分析 竞争对手新增用户 竞争对手大客户分析 竞争对手跟本网业务分析,领域任务细化2,大客户分析 大客户特征分析 大客户流量分析 大客户价值分析因特网服务规律发现潜在的租用虚拟专用网络服务的顾客发现增加电话线路租用需求的客户通话时段的规律,领域任务细化2,漫游用户分析 漫游用户分布分析按市场细分的客户(如个人客户、政府部门、企业客户)通话规律国际长途的通话模式,领域任务细化2,架构过程,市场部、运营部,市场部、运营部,学习模型的实现,数据仓库建立,数据清洗,反馈,结果分析,挖掘算法的实现、改进,数据表合并、新属性生成、不等长数据的滑动,数据事实表的确定,流失预警算法框架,聚类出已知流失用户特征,训练集,分类算法,需要分类的用户数据,训练集,用户流失集,流失用户的类型,决策支持,结果分析,开源数据分析软件Weka介绍,开源全面规范WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http:/www.cs.waikato.ac.nz/ml/weka得到,开源数据分析软件Weka介绍,WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。,学生做商业智能计算项目过程,深入学习,实际项目,开源软件代码,理论学习,2011.9-,2011.6-2011.8,2011.3-2011.5,2010.9-2011.2,提纲,Part 1 商业智能计算架构设计商业智能计算例子运营商商业智能计算架构设计开源数据分析软件Weka介绍Part 2 大规模商业智能计算架构设计(云挖掘Hadoop) Map-Reduce方法Classification (k-NN) 的MapReduce化Part 3 安全商业智能计算架构设计微分流形在安全云智能计算中的应用(Matlab),大规模商业智能计算架构,运营商客户量海量数据,运营商需求多且细,数据挖掘算法效率问题,云化 MapReduce方法,云计算网络发展的必然结果,云计算简化实现机制,Part 2 大规模智能计算(云挖掘Hadoop),Map-Reduce方法Classification (k-NN)算法的MapReduce化,Whats Mapreduce,Parallel/Distributed Computing Programming Model,Input split,shuffle,output,Shuffle Implementation,Partition and Sort Group,Partition function: hash(key)%reducer numberGroup function: sort by key,Hadoop MapReduce Architecture,Master/Worker ModelLoad-balancing by polling mechanism,Nearest Neighbor Classifiers,Basic idea:If it walks like a duck, quacks like a duck, then its probably a duck,Nearest-Neighbor Classifiers,Requires three thingsThe set of stored recordsDistance Metric to compute distance between recordsThe value of k, the number of nearest neighbors to retrieveTo classify an unknown record:Compute distance to other training recordsIdentify k nearest neighbors Use class labels of nearest neighbors to determine the class label of unknown record (e.g., by taking majority vote),Definition of Nearest Neighbor,K-nearest neighbors of a record x are data points that have the k smallest distance to x,MapReduce:kNN,Input,Map,Reduce,Output,MapReduce化算法提高效率,单个节点并非跑不出结果:大数据集上需要一天、一周才能出结果。有时候有较高实时要求的任务一小时出结果都太慢,利用多个节点进行MapReduce云化,可以利用空置设备同步运行,提高速度,对有较高实时性要求的算法有好处,提纲,Part 1 商业智能计算架构设计商业智能计算例子运营商商业智能计算架构设计开源数据分析软件Weka介绍Part 2 大规模商业智能计算架构设计(云挖掘Hadoop) Map-Reduce方法Classification (k-NN) 的MapReduce化Part 3 安全商业智能计算架构设计微分流形在安全云智能计算中的应用(Matlab),数据分析带来的隐私保护问题,也可挖掘分析出感兴趣的私人信息。云挖掘中更加涉及到客户端把隐私数据交付给云端进行挖掘,客户对此会产生疑虑。,数据挖掘可以挖掘潜在规律、辅助决策、检测异常模式、恐怖活动和欺诈行为,隐私保护,安全云挖掘,在客户端向云端传送隐私数据时,可先进行随机化变换、加密,既不泄露隐私,又能保证挖掘结果的大致准确隐私保护数据挖掘,安全云挖掘,Privacy-preserving Data Mining,Data conversion,cryptology,A Random Rotation Perturbation Approach to Privacy Data ClassificationDeriving Private Information from Randomized Data,Privacy-Preserving Data miningA Framework for High Accuracy Privacy-Preserving Mining,Hide sensitive individual data values from the outside world,A valid and effcient decision model based on the distorted data can be constructed,设 M 是一个Hausdorff 拓扑空间, 若对每一点 都有P 的一个开领域 U 和 的一个开子集同胚, 则称 M 为 n 维拓扑流形, 简称为 n 维流形.,微分流形:保持拓扑特性,几种流形学习算法,1,局部线性嵌入(LLE)S. T. Roweis a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论