版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据:商业逻辑和数据逻辑复旦大学管理学院zhan/in/zccheng:25011227,思源楼718 TA:http:结合互联网思维和数据思维后的四个维度定量思维一切皆可测跨界思维一切或可联操作思维一切要可行实验思维一切应可试大数据从哪里来是什么洞察到哪里去上兵伐谋,其次伐交,其次伐兵,其下攻城;攻城之法为不得已如何理解Flickr的社交价值?丰富的信息:,内容,人物,用户,社交,点评,时间,地点时间,地点和社交:线下同时出现的用户是(线上)朋友吗?时间,地点(GPS,可以有的数据:IP),社交网络法则,共同出现k次时是朋友的概率等于:是朋根据友的(平均)概率朋友共同出现k次的概率/共同出
2、现k次的(平均)概率- 朋友的概率P(F):1/(m-1),m是人数- 朋友共同出现的概率P(C_k|F): p_1k, p_1是朋友共同出现的概率- 共同出现的概率P(C_k): 是朋友出现的概率+陌生人出现的概率,p_2是陌生人共同出现的概率,P(F)是陌生人的概率,即(m-2)/(m-1)如果以时间间隔为2天来说,共同出现次数为3结果:即便采用很小的共同出现信息也可以得到准确的朋友推断类似的。Flickr的价值?协同过滤In:定位于“+”的社交应用数据分析技术实践统计回归机器学习道法自然天人合一演绎:从一般规律推到具体现象归纳:从具体现象推到一般规律presenion materials
3、 from Professrahervan, Curtin University of Technology进入数据分析技术介绍之前。你觉得京东的商业模式好,还是淘宝的商业模式好?也许只是CEO做得不一样也许只是竞争者做得不一样参考车品觉:大数据问对问题是成功的一半扬子晚报网消息到取点款或办个转存竟要排长队,忍受等待半个小时甚至个把钟头时间的煎熬,很多人对此都颇为不满,但又无可奈何。不过,这种难以忍受的事终于有望“无须再忍”了。昨天获悉,中国业已制订中国业文明规范服务工作指引,将于近期下发各征求意见,并计划在本月实施。指引要求,各要加大解决客户排长队问题的工作力度。据4月14日报头版:市人民已
4、经出面解决16家“排长龙”问题,由市金融工委和金融网点排队时间长召集,16家的主要“”均做出承诺改进,并提出了许多切实可行的解决措施。市金融工委决定不定期进行处罚。地,若继续出现“排长龙”问题,将对问对问题是成功的一半从客户价值考虑如何让客户减少等候时间- 加人/加自动取款机从企业价值考虑- 错峰/多- 引导需求如何保证服务质量下降低服务成本或服务价值是改善现场服务,还是提前了解客户需求?VIP/客户推销?大数据分析在干嘛?通过数据还原用户特征服务的信息销售的信息行为需求交易的信息的信息研发/产品的信息竞争者的信息还原数据的背景,问题可能就是问题:我关心是否消费还是消费多少?凭借自身的商业素养
5、判定数据特征问题:是否用户具有不同特征,需要分组分析?问题:能否根据投入时间多少作为花费产生的某个激发条件呢?比如:混合模型(Tobit M),在某个变量不同情况下,另一个变量会表现不一样朋友数量/亲密度和社区投入度/消费的关系问题:直线还是曲线关系?比如:测量二次项关系(a) Friend Number and Task Persistence(b)eraction Extent and Task Persistence(a) Friend Number and Spend(b)eraction Extent and SpendOLS热榜差异化问题:是否每段的表现都有不同比如:分位数回归影响
6、?还原数据背景,活用数据联系国际贸易中如何了解海外市场(新)需求数据?或者:观察国外C2C/B2C对应品类的价格、交易及其变化 (适合需求稳定,产品已有市场的情况)除此之外,还可以。还原数据背景,活用数据联系观察国外B2C(某品类)的及其变化(季节、假日、常规)观察这些词在搜索词中的变化趋势用这些词搜索国内C2C/B2C/B2B如阿里指数)的对应产品(又比参考车品觉:大数据结合后的四个维度定量思维一切皆可测跨界思维一切或可联操作思维一切要可行实验思维一切应可试数据分析技术介绍统计回归Logistic回归分位数回归Tobit回归(mix-m回归)机器学习聚类(群与群之间差别很明显,而同一个群之间
7、的数据尽量相似,k-mean)分类 (C4.5)关联分析 (购物篮)挖掘 (Pager)统计回归重点不在数学推导上,而在对数据特征和趋势的判断还原数据背后的管理问题,进一步澄清自己的问题,问对问题活用数据及其联系剩下的,交给团队/统计常用工具Excel的数据分析模块(基本的回归和分组比较)嵌入ExcelSXlSTool http:/htt/en/download.htmlSpss,Sa,Eview, R,SAS,ackages机器学习机器看世界万物皆有序人以类聚,物以群分聚类 (k-mean, clustering)万物皆有灵分类 (C4.5, classification)万物皆有缘关联分析
8、 (购物篮)挖掘 (Pager)机器学习寻找一种对自然/人工可执行的机器理解方法且/或、现象或活动可重新组织已有的知识结构使之不断改善自身的性能主要使用归纳、综合而不是演绎因此主要用于推理(Inference)(Prediction)不确定性环境下的决策机器学习的应用27演绎:从一般规律推到具体现象归纳:从具体现象推到一般规律presenion materials from Professrahervan, Curtin University of Technology自然语言处理/语音识别现在语音识别器或翻译器几乎都是建立在某种具有学习能力的设备上使用的越多,则它越聪明文本/语音的内容/情感
9、分析、武对象识别31测颜值But we keep your pattern机器人控制汽车自动驾驶系统33文本挖掘34Fujitsu CGM35生物信息学36机器学习机器学习是研究开发 一种具有如下能力的理论和计算机系统表示分类,聚类和识别不确定条件下推理对外界环境的反应可以在显示的模型或数学框架下,根据数据和自身经验,复杂的真实世界信息可以:被形式(formally)刻画和分析加入人的先验具有在数据与领域间的泛化和适应能力自动或操作类解释和感知聚类(Cluster):万物皆有序发现不同的客户群,刻画不同的消费群体的特征推导植物和动物的种类和蛋白质的分类气候带的划分文档的归类本质假设空间是什么样
10、的采用什么样的方式去描述他如何计算基于维度的用户聚类:万物皆有序的世界需要一个坐标需要对象描述需要一只神之手划分(K-mean)聚类层次聚类会不会?又或者?不同的思路相比更擅长聚成空间的K-mean, 层次方法密度聚类:关注邻近区域的密度(数量),而不在意空间,因此适合不同形状模型聚类:自行定义规则工作思路特征选择必须适当地选择特征,尽可能多的包含分析任务关心的信息,如客户的属性。相似性度量量化两个物体在空间的“相似”度,比如欧氏距离3.判定后选取合适的聚类算法4. 结果验证如重复分类,分学习组/测试组等实例:电信用户聚类地域建档时间信息费工作日呼叫次数SMS次数国内长途信息长度时间空间呼转类
11、型费用类型语音呼叫次数人以群分通话时长漫游话费国际长途繁忙时段呼叫次数分钟数非语音呼叫次数费用非繁忙时段呼叫次数非IP呼叫时间动态漫游号IMSI号码49WAP次数IP呼叫次数短消息话单类型基本通话金额滞纳金应收增值服务使用呼入/呼出比例工作日呼叫时间应收金额缴款方式国际呼叫SMS次数电信客户根据自身所具有的特征自动聚为一些行为特点相似的群体高5673三(IP呼叫次数)21低高48高二(国内呼叫次数)一(繁忙时段呼叫次数)各类客户人数及收入贡献一览优质普通弱势人数百分比28.51%15.08%56.41%收入贡献百分比59.61%14.89%25.91%客户群优质普通弱势#1、#2、#4、#6、
12、#9、 #12、#14、#16#8、#11、#15#3、#5、#7、#10、 #13组别人数103,66454,816205,071收入贡献RMB29,659,162.05RMB7,204,282.92RMB12,897,830.1对细分客户组进行特征描述第二组:呼叫组优质组人数:15,441人数百分比:1.6%女性比例:38.2%月人均话费:759元与全体客户话费均值之比:3.0平均在网时间:43.2月本组特征描述本组客户共15441人,占客户总数的1.6%,组内每月人均话费759元。1.2.与其他客户相比,本组客户的显著特征体现在呼叫的通话行为较多呼叫次数8.7次,而 呼叫次数只有0.2次
13、。(7)。每次呼叫时间达1.8分钟,每次呼叫时间1.6分钟,全体客户平均由此,本组客户的呼叫费用(53.7元)比全体客户平均呼叫费用(1.3元)高出40多倍,呼叫需求相当大。1-52针对性的业务推广与客户服务建议本组市场建议1.业务推广建议a)彩信业务统计分析发现本组客户彩信使用人数比例明显大于其他16个客户分组数据业务估计本组客户中有相当部分人群是商务b)2.客户服务建议a)b)c)免费天气预报与航空公司里程积点互换空港VIP休息室1-53研究整个客户结构的动态变化情况优质组、普通组、弱势组人数百分比变化趋势100%90%80%70%60%50%40%30%20%10%0%54.45%弱势6
14、5.86%16.31%普通13.24%29.24%优势20.90%57月份810月份研究各分组客户人数的变化,指导策略制定响业余活跃组情深语长组消极等待组等待接听组新生潜力组热衷转移组寂寞无声组频繁出差组IP业务繁忙组贵中求惠组休眠组夜间积极组本地繁忙组繁忙 大客户组组组该组的流失需要密切注意1-552000015000可能流失或可能流失或11483可能受100005667转换品牌转换品牌季节影50001703541109020390-5000-2994-3418-3814-3927-5116-10000-5449-6473-15000-10257-10762-13902-20000#1#2#
15、3#4#5#6#7#8#9#10#11#12#13#14#15#16用户行为细分、流失模型等可以具体到每个用户7用户离网模型工作原理简介用户数据话单数据帐单数据套餐与产品数据用户信息数据流失模型基于离网模型的用户挽留未来12个月用户具有高离网概率的用户用户流失模型变量与参数示例部分规则如果 在网时间PeopleR领英人人点评同城电信有不同属性,带来的价值不一有多重属性,如何引入评估?网络的价值如何评估Source: pris lab网络分析常用指标关系类指标强度可用性喜爱信用/信任互惠/合作结构类指标Degree (度)Size (规模)Density (密度)Structural Holes
16、 (绝缘器/结构洞)Cliques (帮派)竞争依赖共同xxBetness (中继站/连接两端)Closeness (秘道/最短路径)节点互动特征高影响用户指标-纯连接特性(Pager, Hubs and Authorities)-混合节点特性(Quality-Structure etc)Index,Topicr,SNDocR高用户指标- 流行病指标(Susceptible-Infected-Recovered (SIR), SIRS,SEIS,SEIR, MSIR,MSEIR,MSEIRS)网络影响指标 (betnness, closeness, cluster, cliques,产品接受/
17、扩散指标(diffucentrality, bridge)index,outbreak/contagion rate, homophily-peer ratio)- 熵指标(random entropy, temporal entropy index)应用:新朋友交往阀值社区互动特征社区活跃度指标-随机特性(random graph, exponential randomgraph,Markovgraph)-半随机特性(randomratio,networkcloseness)社群度及变迁指标- 网络结构(network convergance, density, scale-free, ti
18、e strength, network overlapness, separationdegree)- 网络动态(network resince, transitivity orclustering, refresh rate, network growth rate, complex network dynamics)- 网络层次(multi-level relationship,heterogeneous network)应用:社区热点中国互联网产业中的小世界通过标准普尔的Capital IQ数据库,的SDC Platinum数据库,以及道琼斯的Factiva数据库,并根据和标准普尔定义的
19、互联网服务产业分类,收集整理了66959家互联网公司在2004-2013年的布进入筛选出了192家宣信息。并根据公司并之后建立的国外企业,以及相对应的140中国互联网企业。:2004-2008与谷歌的的敌人多于,朋友则差不多/竞争技术拥有技术敌人/竞争市场Baidu的市场朋友2004年开始的演化2005:各自经营Newly developed in 2005Accumulated till 20052006:合纵连横Newly development in 200Accumulated till 20062008:竞合稳定Newly development in 2008Accumulated
20、 till 2008易贝对淘宝:2003 - 2007各自招兵买马主要是市场之争/竞争技术/合作市场把4家网络放在一起当相互依存竞争的对手相互交融,合作的潜力在不同市场市场差异明显技术重合度高进入中国互联网市场的MNC和本土企业的网络Relationship with local partnersWithout filtering foreign partnersMNC更有中心,本土企业更抱团(不明)MNC firms networkChifirms networkUsing employee as firm size and IQ primary code as firms industry
21、 of 138 firms寻找朋友的朋友,还是敌人的敌人?敌人的朋友也可以是朋友敌人的敌人是朋友Blue: Competition; Black: Cooperation中国企业如何走出去?腾讯和谷歌和微软140购物篮算法:今天你吃啥啦?MBA (market basketysis)90年代沃尔玛超市的管理分析销售数据时发现了一个难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理的注意,经过后续发现,这种现象出现在年轻的父亲身上。在某些情况下,母亲在家中照看婴儿,而父亲前去超市尿布。父亲在尿布的同时,往往会顺便
22、为自己啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次而不是一件,从而获得了很好的商品销售收入。两件商品、Mining assotion rules betn sets of items in large databases, Rakesh Agrawal, TomaszImieliski, Arun N.
23、 Swami, Sigmod Record , vol. 22, no. 2, pp. 207-216, 1993超市购物行为消费者1: 啤酒,尿布, 巧克力, 奶酪消费者2: 牛奶, 巧克力,沐浴露消费者3: 啤酒, 红酒, 伏特加消费者4: 啤酒, 奶酪, 尿布, 巧克力消费者5: 冰淇淋, 尿布, 啤酒消费者6: 。01234sum of beersum of dirsum of chocolatesum of cheesesum of milksum of shoosum of winesum of vodkasum of icecream事物之间的关系购物篮啤酒尿布巧克力奶酪牛奶沐浴
24、露红酒伏特加冰淇淋11111000002001011000310000011041111000005110000001|beerdir chocolecheesemilkshoowinevodka icecream+beer |1.0000dir |0.61241.0000chocolate | -0.40820.16671.0000cheese |0.40820.66670.66671.0000milk | -1.0000 -0.61240.4082 -0.40821.0000shoo | -1.0000 -0.61240.4082 -0.40821.00001.0000wine |0.25
25、00 -0.6124 -0.6124 -0.4082 -0.2500 -0.25001.0000vodka | icecream |0.2500 -0.6124 -0.6124 -0.4082 -0.2500 -0.25001.00001.00000.25000.4082 -0.6124 -0.4082 -0.2500 -0.2500 -0.2500 -0.25001.0000共同出现这种关系很重要,但是否足够呢?147事物之间的关系:支持程度 (Support)支持程度:两者共同出现次数占总销售次数的比例尿布 啤酒的支持程度:3/5即:60%的交易中他们共同出现了购物篮啤酒尿布巧克力奶酪牛奶
26、沐浴露红酒伏特加冰淇淋11111000002001011000310000011041111000005110000001共同出现的比例很重要,但是否足够呢?笑话:一位长寿的老人在他130岁时对他的朋友说:希望朋友明年能继续参加他104岁的生日宴会。总有不识趣的人跳出来:你怎么确认明年你还活着?“因为很少有人在103岁死掉”149事物之间的关系:自信心()是啤酒促进尿布的销量,还是尿布促进啤酒的销量?在所有尿布的在所有尿布的里,100%出现啤酒,里,75%出现尿布自信度:两者共同出现次数占前者出现次数的比例尿布 啤酒的自信心 : 3/3啤酒 尿布的自信心 : 3/4尿布 啤酒比 啤酒 尿布更让
27、人信服购物篮啤酒尿布巧克力奶酪牛奶沐浴露红酒伏特加冰淇淋11111000002001011000310000011041111000005110000001事物之间的关系:转化效率(Lift)谁给谁带来的销售增加多?转换效率 = 自信心 / 后者在总销售的比例比如 尿布 啤酒尿布 啤酒的自信心 = 3/3啤酒的出现比例:4/5Lift = 3/3 / 4/5 = 1.25比如 尿布 巧克力尿布 巧克力的自信心 = 2/3巧克力的出现比例:3/5Lift = 2/3 / 3/5 = 1.11消费者买了尿布再买啤酒的概率大于再买巧克力购物篮啤酒尿布巧克力奶酪牛奶沐浴露红酒伏特加冰淇淋11111000002001011000310000011041111000005110000001这种特征和用户本身有关么?用户特征收入有无按揭情况10050HighMYesYes10135-50MidFNoNo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2.1区域发展的自然环境基础课件高中地理人教版选择性必修2
- 2026年医学基础-解剖学题库(得分题)附参考答案详解(培优B卷)
- 2026年心理治疗通关模拟卷带答案详解(轻巧夺冠)
- 2026年混凝土技术人员每日一练试卷带答案详解(轻巧夺冠)
- 2026年公用设备工程师之专业基础知识(暖通空调+动力)试题(得分题)附答案详解(基础题)
- 2026年注册岩土工程师题库检测试题附参考答案详解(培优A卷)
- 【低空经济】低空经济与智慧高速融合发展方案
- 2026年原创课件幼儿园
- 2026年幼儿园微课程交流
- 2026年幼儿园护齿知识
- 2025房屋买卖合同范本(下载)
- 2025年哈尔滨工业大学管理服务岗位招聘考试笔试试题(含答案)
- (2025年标准)山地开路协议书
- 2025年陕西高中学业水平合格性考试化学试卷真题(含答案)
- DB23∕T 3082-2022 黑龙江省城镇道路设计规程
- 江苏棋牌室管理暂行办法
- 聚合工艺作业培训课件
- 酒店安全设施维护规定
- 2024年中国烟草总公司江西省公司考试真题试卷及答案
- 单位见习人员管理制度
- T/GXAS 830-2024经桡动脉穿刺介入诊疗患者术肢管理规范
评论
0/150
提交评论