版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 纸牌屋是“大数 据”时代下的产物, 其制作公司Netflix公 司通过对3000万付费 用户的收视习惯、剧 情评论、演员喜好等 数据精准分析定制内 容,将全部13集内容 一次全部推出而大获 成功。 浅蓝 深蓝 透明海洋 Too much Volume (I have too much data) Too much Velocity (Its coming at me too fast) Too much Variety (Its coming at me from too many places in too many formats) 数据爆炸:互联网催生大量数据 “COPYRIGHT R
2、ESERVED”,“一键分享一键分享” 1995年,Windows 95,MB 2004,Google上市,GB 2014,大数据,TB,PB 字节(B)、千字节(KB)、兆字节(MB)、吉字节(GB)、太字节(TB)、拍字节 (PB)、艾字节(EB)、泽它字节(ZB,又称皆字节)、尧它字节(YB)表示、千亿 亿亿字节(BB) 封面故事: 利用海量数据的最新策略 研究人员怎样才能应对现代 方法所产生的大量数据流? 不是随机样本,而是全体数据 不是精确性,而是混杂性 不是因果关系,而是相关关系 1. Analytic Visualizations(可视化分析) 2. Data Mining Al
3、gorithms(数据挖掘算法) 3. Predictive Analytic Capabilities(预测性分析能力) 4. Semantic Engines(语义引擎) 5. Data Quality and Master Data Management(数 据质量和数据管理) 学习方式 1 1、监督式;、监督式; 2 2、非监督式;、非监督式; 3 3、半监督式;、半监督式; 4 4、强化;、强化; 算法类似性 1 1、回归算法;、回归算法; 2 2、基于实例的算法;、基于实例的算法; 3 3、正则化方法;、正则化方法; 4 4、决策树学习;、决策树学习; 5 5、贝叶斯方法;、贝叶斯
4、方法; 6 6、基于核的算法;、基于核的算法; 7 7、聚类算法;、聚类算法; 8 8、关联规则学习;、关联规则学习; 9 9、人工神经网络、人工神经网络 输入数据,被称作“训 练数据”,并进行标识。 在建模时,将预测结果 和实际结果进行比较, 不断调整,直到预期的 准确率。 应用:分类、回归 算法:逻辑回归、反向 传递神经网络等 数据不被标识,学习模 型是为了推断出数据的 内部结构。 应用场景:企业数据, 如关联规则学习、聚类 数据部分被标识,部分不被 标识。 模型先学习数据的内部结构, 再用于预测 应用场景:图像识别,回归 和分类 算法:对标识数据进行建模, 然后对未标识数据进行预测。 数
5、据: 直接作为模型的反馈 模型: 必须对数据做出直接反应 应用场景: 动态系统和机器人控制 学习方式学习方式 1 1、监督式、监督式; 2 2、非监督式、非监督式; 3 3、半监督式、半监督式; 4 4、强化;、强化; 算法类似性算法类似性 1 1、回归算法、回归算法; 2 2、基于实例的算法、基于实例的算法; 3 3、正则化方法、正则化方法; 4 4、决策树学习、决策树学习; 5 5、贝叶斯方法、贝叶斯方法; 6 6、基于核的算法、基于核的算法; 7 7、聚类算法、聚类算法; 8 8、关联规则学习、关联规则学习; 9 9、人工神经网络、人工神经网络 物理意义: 试图采用对误差的衡量 来描述变
6、量之间的相关关系 步骤步骤 确定变量确定变量 建立预测模型建立预测模型 进行相关分析进行相关分析 计算预测误差计算预测误差 确定预测值确定预测值 SIMSIM手机的用户满意度与相手机的用户满意度与相 关变量的线性回归分析关变量的线性回归分析 因变量:因变量:“用户满意度用户满意度” 自变量:自变量:“质量质量”、“形象形象” 和和“价格价格” 回归方程:回归方程: 用户满意度用户满意度=0.008=0.008形象形象 +0.645+0.645质量质量+0.221+0.221价格价格 指标指标显著性水平显著性水平意义意义 R20.89 “质量”和“形 象”解释了 89%的“用户 满意度”的变 化
7、程度 F248.530.001 回归方程的线 性关系显著 T(形象)(形象)0.001.000 “形象”变量对 回归方程几乎 没有贡献 T(质量)(质量)13.930.001 “质量”对回归 方程有很大贡 献 T(价格)(价格)5.000.001 “价格”对回归 方程有很大贡 献 指标指标显著性水平显著性水平意义意义 R0.89 “质量”和“形 象”解释了 89%的“用户 满意度”的变 化程度 F374.690.001 回归方程的线 性关系显著 T(质量)(质量)15.150.001 “质量”对回归 方程有很大贡 献 T(价格)(价格)5.060.001 “价格”对回归 方程有很大贡 献 SI
8、MSIM手机的用户满意度与相关手机的用户满意度与相关 变量的线性回归分析变量的线性回归分析 因变量:因变量:“用户满意度用户满意度” 自变量:自变量:“质量质量”、“形象形象” 和和“价格价格” 回归方程:回归方程: 用户满意度用户满意度=0.008=0.008形象形象+ + 0.6450.645质量质量+0.221+0.221价格价格 EMV(建大厂)=(0.4)*($100,000)+(0.6)*(- $90,000)=-$14,000 EMV (中型厂)=(0.4) *($ 60,000)+(0.6)* (- $10,000)=+$18,000 EMV( 建小厂)=(0.4)* ($40
9、,000)+(0.6)*(- $5,000)=+$13,000 EMV (不建厂)=$0 如果建一个大厂大厂且市场较好就可实 现$100,000的利润。如果市场不好 则会导致$90,000的损失。 但是,如果市场较好,建中型厂中型厂 将会获得$ 60,000,小型厂小型厂将会 获得$40,000,市场不好则建中型 厂将会损失$10,000,小型厂将会损 失$5,000。 当然,还有一个选择就是什么也什么也 不干不干。最近的市场研究表明市场好 的概率是0.4,也就是说市场不好的 概率是0.6。 根据根据EMV标准标准 公司公司应该建一个中型应该建一个中型厂厂 () ii xf x 1 () N
10、ijj j ca H x 12 ( )( )( ) N x tx txt A spatial complex dynamical network with time-varying (switching) topology Consensus Correct consensus (True learning) Control Manipulation Misinformation POWER OF BIG DATA OF THE DATA Wisdom of crowds BY THE DATA What u need to change FOR THE DATA Quality matter
11、s most 工商数据分析应用案例简介 活跃度分析包括资本活跃度CRI(Capital Relative index)和主体数量活跃度QRI(Quantity Relative index)。 活跃度指数是衡量市场环境的体检表,也是实体经济的晴雨表,是一项重要的经济先行指标。活跃度指数与企业生 存环境和市场投资环境密切相关,在市场环境转好时,投资踊跃,资本活跃度指数升高;反之,指数下降,表示投资人不 愿向经济体注入资金,反映市场环境趋于恶化。 案例一 市场主体活跃度模型 分析案例市场主体活跃度模型 活跃度指数与很多市场经济指标有相当密切的关系。 CRI与财政收入呈现明显的相关关系。 CRI与存
12、款准备金率、CPI等也有明显相关关系。 案例一 市场主体活跃度模型 案例分享企业生命周期 企业生命周期是反映某一国家或地区 中市场环境优劣的重要指标,一般来 讲,长寿企业对于区域市场经济秩序 的稳定有一定积极作用,相对的非长 寿企业对经济秩序的平稳有相应的负 面影响。对不同维度中的企业分析其 生命周期,可以客观反映区域细分市 场的经济秩序,从而协助决策者准确 把握影响区域市场经济秩序的主要因 素。 案例二 市场主体退出路径 案例分享企业生命周期 常规 统计 一般趋 势分析 生存规 律挖掘 基于规 律的知 识发现 企业生命周期的分析层次 基于工商登记数 据分析企业生命周期,一 般有两种常见的分析
13、层次: 常规统计、一般趋势分析。 通过对数据的深度分析, 还可以挖掘出区域企业的 生存规律,并可以根据生 存规律进一步总结出直观 的,可用于实际监管工作 的“知识” 。 善于发现数据背后的规律与价值 案例二 市场主体退出路径 42 Chapter #7 案例分享企业生命周期 常 规 统 计 一一 般般 趋趋 势势 分分 析析 案例二 市场主体退出路径 Chapter #7 案例分享企业生命周期 生 存 规 律 挖 掘 基 于 规 律 的 知 识 发 现 死亡高风险时间段-政 府监管介入的最佳时机 案例二 市场主体退出路径 不同产业,不同区域,不同规模市场主体存活率的研究有助于判别市场生 态环境
14、发生了哪些变化。产业生命周期模型对于政府产业扶持政策的出台也有 着较强的参考意义。 案例二 市场主体退出路径 u 用2000-2007年的数据预测2001-2007年成立企业在2008年末的存活数。 u 预测2001-2007年成立企业在2008年末的存活总数为363322,实际存活个数为 36 4927,误差为-0.44%。 开业年开业年开业数开业数存活率存活率预测存活个数预测存活个数实际存活个数实际存活个数误差个数误差个数误差误差 2001200170,50670,5060.41910.419129,55029,55028,80928,8097417412.57%2.57% 2002200
15、274,11174,1110.46270.462734,29334,29333,59333,5937007002.08%2.08% 2003200385,30685,3060.51000.510043,50843,50842,64142,6418678672.03%2.03% 2004200499,48599,4850.56950.569556,66056,66055,41355,4131,2471,2472.25%2.25% 2005200596,35696,3560.64340.643461,99761,99763,94163,941-1,944-1,944-3.04%-3.04% 200
16、6200681,69881,6980.74930.749361,21561,21563,28863,288-2,073-2,073-3.28%-3.28% 2007200785,35385,3530.89160.891676,09876,09877,24277,242-1,144-1,144-1.48%-1.48% 案例二 市场主体退出路径 预测验证 “偏好” (Preference)一词源自经济学术语,反映用户对某种物品或劳务的喜爱或不喜爱程度,这种喜爱或不喜 爱与物品或劳务的价格及用户收入无关。偏好模型主要用于分析不同类型群体之间的结构差异。 投资偏好等于1时,表明没有显著差异。当投资偏好
17、1时,表明该群体有着显著的比较优势。 案例三 区域产业偏好分析模型 案例五 波士顿矩阵分析洞察产业变迁 A类(优势行业) B类(支柱行业) C类(潜力行业) D类(弱势行业): 案例五 波士顿矩阵分析洞察产业变迁 北京市2008、2009年重点行业产业迁移情 况。 如,2009年租赁和 商务服务业优势地位近 一步增强; 科学研究、技术服 务行业由支柱行业向优 势行业转化; 制造业则逐步从支 柱行业向弱势行业转化。 案例五 智波士顿矩阵分析洞察产业变迁 案例五 智波士顿矩阵分析洞察产业变迁 利润率 % 可视化案 例 GIS of Beijing Administration for Indust
18、ry and Commerce 地理分析系统-市场主体密度分析使分析更加直观化 根据市场主体GIS信息进行密度分析。 叠加其他面数据信息,可直观看出 主体的区域分布热点。 密度分析:根据输入的点要素的分布, 计算整个区域的数据分布情况,从而 生成一个连续的表面。 GIS for SAIC GIS of Beijing Administration for Industry and Commerce 地理分析系统-市场主体密度分析使分析更加直观化 GIS for SAIC GIS of Beijing Administration for Industry and Commerce 地理分析系统
19、-市场主体密度分析使分析更加直观化 GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体密度分析叠加网格数据,点数据 GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析 根据市场主体GIS信息进行3D分析。 按照其属性值进行3维拉伸,直观展 现主体的区域分布差异。 3D分析:根据输入的点要素的分布, 计算整个区域的数据分布高程情况, 从而生成不同高度的3D图形。 GIS for SAIC GIS o
20、f Beijing Administration for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(区县) GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(工商所) GIS for SAIC GIS of Beijing Administration for Industry and Commerce 市场主体3D分析-外资 2008-2010 新增企业数量(网格) GIS for SAI
21、C GIS of Beijing Administration for Industry and Commerce 市场主体3D分析 外资 2008-2010 新增企业注册资本美国 2008-2010 新增企业注册资本 银行业分布地形图果蔬业分布图 GIS for SAIC 案例九族谱探寻算法 分析案例族谱图 案例九 族谱探寻算法 分析案例族谱图 沈阳化工集团有限公司 案例九 族谱探寻算法 Thank you! Too much Volume (I have too much data) Too much Velocity (Its coming at me too fast) Too muc
22、h Variety (Its coming at me from too many places in too many formats) 学习方式 1 1、监督式;、监督式; 2 2、非监督式;、非监督式; 3 3、半监督式;、半监督式; 4 4、强化;、强化; 算法类似性 1 1、回归算法;、回归算法; 2 2、基于实例的算法;、基于实例的算法; 3 3、正则化方法;、正则化方法; 4 4、决策树学习;、决策树学习; 5 5、贝叶斯方法;、贝叶斯方法; 6 6、基于核的算法;、基于核的算法; 7 7、聚类算法;、聚类算法; 8 8、关联规则学习;、关联规则学习; 9 9、人工神经网络、人工神经网络 学习方式学习方式 1 1、监督式、监督式; 2 2、非监督式、非监督式; 3 3、半监督式、半监督式; 4 4、强化;、强化; 算法类似性算法类似性 1 1、回归算法、回归算法; 2 2、基于实例的算法、基于实例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理专业解剖学教学资源
- 口腔卫生:口腔喷水的使用
- 护理实验实验培训
- 动脉粥样硬化家庭支持系统
- 护理工作效果评估
- 护理专业的护理职业健康
- 旅游行业旅游公司战略发展规划与实施
- 快速消费品牌销售经理岗位全攻略
- 基于绿色发展的新能源车供能网络建设策略研究
- 基于云计算的远程运维管理服务分析
- 《水力学》课件(共十一章)
- 2025至2030海洋生态行业项目调研及市场前景预测评估报告
- 《教师数字素养》标准解读
- 婴幼儿中医讲座课件
- 耕地代耕代种协议书
- Unit1 understanding ideas 教学设计 2024-2025学年外研版英语七年级下册
- 2025年四川省对口招生(农林牧渔类)《植物生产与环境》考试复习题库(含答案)
- 2024年江苏中职职教高考文化统考语文试卷真题(含答案详解)
- 2024年长江工程职业技术学院高职单招语文历年参考题库含答案解析
- 《合并报表编制》课件
- 临床静脉导管维护专家共识
评论
0/150
提交评论