




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、标准实用文案数据建模那点事儿雪姬2015-12-21 9:57:48干货教程评论作者:陈丹奕今天要说内容是建模。为啥我作为一个数学能力并不强的人要在这献丑讲建模的事呢?其实我的目的很简单,就是为了告诉大家一个事实:数据分析中的建模,并没有想象中那么高深莫测,人人都有机会做出自己的模型。第一部分:数据建模理论和逻辑一、从数据分析的定义开始维基百科对数据分析的定义如下:An alysis of datais a process of in spect ing, clea ning, tran sform ing, and modeli ngdata with the goal of discove
2、ring useful information, suggesting conclusions, and support ing decisi on making. Data an alysis has multiple facets and approaches, en compass ing diverse tech niq ues un der a variety of n ames, in differe nt bus in ess, scie nee, and social scie nee doma ins.(来源:Data an alysis )简单翻译:数据分析是一个包含数据检
3、验、数据清洗、数据重构,以及数据建模的过程,目 的在于发现有用的信息,有建设性的结论,辅助决策的制定。数据分析有多种形式和方法, 涵盖了多种技术,应用于商业、科学、社会学等多个不同的领域。和上篇文章中我画的图对比一下:需求层数据层廿析层輸岀层棋型加战|_ rT-1-报吉撰写我在上篇文章中为了让初学者更容易走通全流程,简化了数据清洗的过程, 实际上数据清洗绝非一次完成,“检验-清洗-检验”的过程可能会重复数次乃至数十次。而建模呢?再次引用维基上对数据建模的定义:Data modeling is a process used to define and analyze data requireme
4、nts needed to support the business processes within the scope of corresponding information systems in organizations. Therefore, the process of data modeling involves professional data modelers working closely with business stakeholders, as well as potential users of the information system.(来源: Data
5、modeling )简单翻译:数据建模是一个用于定义和分析在组织的信息系统的范围内 支持商业流程 所需的 数据要求的过程。 因此, 数据建模的过程需要专业建模师与商业人员和信息系统潜在用户的 紧密合作。 这段话的定义更偏向信息系统和商业数据建模, 我之所以在此引用这段话, 是为 了明确接下来的讨论内容主要方向是商业数据分析和建模,至于科学研究方向的数据建模, 不在这篇文章的讨论范围以内。请注意上边这段话中的一个核心: 支持商业流程。 商业数据建模, 乃至商业数据分析, 其最 终目的都是要支持某种商业流程, 要么优化原有流程, 提高各部分效率; 要么重构原有流程, 减少步骤;要么告诉决策者,哪些
6、流程改造方向是错误的,以避免走错路。 最终的目标,一 定是提升效率。但在不同的情况下,提升效率的方式也是不同的,因此在每个模型建立时, 都需要确定其解决的具体目标问题。再往前走一步,数学主要是统计学,在建模的过程中又扮演什么样的角色呢?继续引用 维基:Mathematical formulas or models called algorithms may be applied to the data to identify relationships among the variables, such as correlation or causation. In general terms
7、, models may be developed to evaluate a particular variable in thedata based on other variable(s) in the data, with some residual error depending onmodel accuracy (i.e., Data = Model + Error) (来源: Data modeling )简单翻译: 数学公式或模型称为算法, 可应用于数据以确定变量之间的关系, 如相关性或因 果关系。 在一般情况下, 模型开发出来后用于评估一个特定的变量与数据中其他其他变量的 关
8、系,根据模型的准确性不同,这些关系中会包含残差(即,数据 =模型 +错误) 这段描述很明确, 统计学在数据建模的过程中, 主要用于帮助我们找出变量之间的关系, 并 对这种关系进行定量的描述, 输出可用于数据集的算法。 一个好的数据模型, 需要通过多次 的测试和优化迭代来完成。综上,给出一个我认为的“数据建模”定义:数据集+商业目标+算法+优化迭代 = 数据建模。定义中的每一部分都必不可少。二、数据模型的建立过程照例,先上流程图:文档目様制定与战擔处理竝处理模型搭辻结果箱出诙出规则上图的流程颜色对应数据分析全流程,为了方便大家阅读,我把全流程图再贴一次:需求层数据层分析层输岀层棋型加饯报吉掛写接
9、下来,我重点解读明黄色(浅黄?)部分的内容:? 选择变量与重构变量在进行建模之前,首先要考虑的是使用哪些变量来建立模型,需要从业务逻辑和数据逻辑两 个方面来考虑:业务逻辑: 变量基于收集到的数据, 而数据在收集时,会产生与业务层面相关的逻辑, 比如 在汽车参数中,一旦我们定义了“家用轿车”这个类别,那么无论什么品牌什么车型, “轮 胎数量(不计备胎)”这个变量就有99%以上几率为4当然在接下来的建模中,我们不会选择这个变量。这一类情况是业务知识来告诉我们哪些变量可以选择,哪些不能选择。数据逻辑:通常从数据的完整性、集中度、是否与其他变量强相关(甚至有因果关系)等角 度来考虑,比如某个变量在业务
10、上很有价值,但缺失率达到 90% ,或者一个非布尔值变量 却集中于两个值,那么这个时候我们就要考虑,加入这个变量是否对后续分析有价值。我个人认为, 在选择变量时, 业务逻辑应该优先于数据逻辑, 盖因业务逻辑是从实际情况中 自然产生, 而建模的结果也要反馈到实际中去, 因此选择变量时, 业务逻辑重要程度相对更 高。而在变量本身不适合直接拿来建模时,例如调查问卷中的满意度,是汉字的“不满意”“一般”“满意”,那么需要将其重构成“ 1 ”(对应不满意)“ 2 ”(对应一般)“ 3 ”(对应 满意)的数字形式,便于后续建模使用。除这种重构方式之外,将变量进行单独计算(如取均值)和组合计算(如A*B )
11、也是常用的重构方法。其他的重构方法还有很多种,在此不一一阐述。? 选择算法我们在建模时, 目标是解决商业问题, 而不是为了建模而建模, 故此我们需要选择适合的算 法。常用建模算法包括相关、聚类、分类(决策树)、时间序列、回归、神经网络等。以对消费者的建模为例,举一些场景下的常用算法对应:划分消费者群体:聚类,分类;购物篮分析:相关,聚类;购买额预测:回归,时间序列;满意度调查:回归,聚类,分类;确定算法后,要再看一下变量是否满足算法要求,如果不满足,回到选择 / 重构变量,再来 一遍吧。如果满足,进入下一步。? 设定参数算法选定后,需要用数据分析工具进行建模。 针对不同的模型,需要调整参数,例
12、如聚类模 型中的 K-means 算法,需要给出希望聚成的类别数量,更进一步需要给出的起始的聚类中 心和迭代次数上限。这些参数在后续测试中会经过多次调整, 很少有一次测试成功的情况, 因此请做好心理准备。? 加载算法与测试结果算法跑完之后,要根据算法的输出结果来确定该算法是否能够解决问题,比如 K-means 的 结果不好, 那么考虑换成系统聚类算法来解决。 或者回归模型输出的结果不满足需求, 考虑 用时间序列来做。如果不需要换算法, 那么就测试一下算法输出的结果是否有提升空间, 比如聚类算法中指定 聚类结果包含 4 类人群,但发现其中的两类特征很接近,或者某一类人群没有明显特征, 那么可以调
13、整参数后再试。在不断的调整参数, 优化模型过程中,模型的解释能力和实用性会不断的提升。 当你认为模型已经能够满足目标需求了,那就可以输出结果了。 一个报告,一些规则,一段代码,都可 能成为模型的输出。 在输出之后,还有最后一步: 接收业务人员的反馈,看看模型是否解决 了他们的问题,如果没有,回到第一步,再来一次吧少年以上,就是建模的一般过程。如果你有些地方觉得比较生涩,难以理解,也没有关系。下一篇专栏中,我将向你们介绍一个具体的数据模型,我会对建模的过程一步步进行拆解,力求简明易懂。第二部分:数据建模的应用我写了个建模的流程, 有过建模经验的人自然懂, 没有经验的各位也不要着急, 这次我以一个
14、真实模型为例,给大家详细讲述建模的各个步骤。照例,先上流程图:需求层数据层分析层输出层諭出规吧抿告琪写大家可以看到,这个图是由我之前文章中的两张图拼合而来,而我今天讲的这个真实模型, 将把图中所有的流程都走一遍,保证一个步骤都不漏。Step 0 :项目背景话说这个项目跟我加入百度有直接关系2013年的最后一天,我结束了在三亚的假期, 准备坐飞机回家,这时候接到一个知乎私信, 问我对百度的一个数据科学家(其实就是数据分析师啦)职位是否感兴趣,我立刻回信,定了元旦假期以后去面试。两轮面试过后,面试官一一也是我加入百度后的直属Leader -打电话给我,说他们对我的经历很满意,但是需要我给他们一份能
15、体现建模能力的报告。按说这也不是一件难事,但我翻了翻电脑后发现一个问题:我从上家公司离职时,为了装13 , 一份跟建模相关的报告文件都没带最后双方商定,我有一个星期时间来做一份报告,这份报告决定了我是否能加入百度。那么,是时候展示我的技术了!我的回合,抽卡!Step 1 :目标确定看看报告的要求:数据最好是通过抓取得来,需要用到至少一种(除描述统计以外)的建模技术,最好有数据可视化的展示看来是道开放题,那么自然要选择一个我比较熟悉的领域,因此我选择了二手主机游 戏交易论坛用户行为分析为啥选这个呢?你们看了我那么多的 Mario 图,自然知道我会选主机游戏领域,但为什么 是二手?这要说到我待在国
16、企的最后半年, 那时候我一个月忙三天, 剩下基本没事干, 因此 泡在论坛上倒卖了一段时间的二手游戏咳咳总之,目标就确定了: 分析某二手主机游戏交易论坛上的帖子,从中得出其用户行 为的描述,为用户进行分类,输出洞察报告。Step 2 :数据获取简单来说, 就是用 python 写了个定向爬虫, 抓了某个著名游戏论坛的二手区所有的发帖信 息,包括帖子内容、发帖人信息等,基本上就是长这个样子:9 w41l卍*n jAfli Viillira*w*M*#!*KV-1 34国臥】卜丹irAtsai i u131 a上mi L0Mii-n-t-昨逝雪ttTO 1 14iWmaIdXXI ! 14血山卫Lw
17、*a11avl 1 3 4*my 3MWfc J44 1 :.4an】*1:K-K nidE XEL1MiWl-lbi3nwt* iMU I 94MU I H垮11Jffl-l.-34iM31-I NwllMU L U科:1* Ail1C1tt黑4 A.塑劃导蚪i# QswL-i u1naVEitwE1$jru-iifM3J-rk1Wrftam i uMfll L-tluMua.tMIIMAMW *齐K-i M*?ESJftl ! !49J弘詐ieit 0JWI 14E.UWE1 fiMV 1 Waw 帕建JCEI 1 W血界:1S KUTI -14M3: 9i-171f JWI Id4W1*
18、紳*】:】J*ftWl11:Hid 1 14*t雷 * . 讦 id. J jlBB tillMj. 存 :w:EMJ Rinll3組 WmiihWtWVM imSfl A-MW Mi4.Sb-.MW & 册卜 KJmWtt*Mrjlwwvf UH -ffil-MU “hwuU 仲iw1, M gnK MMbM1 *rtWEn4CGneFp i 和吟uHcnwiii a=-n-=-He辛mi亠w片 討 ii- 比t杆匚= &-WBJMW刃 IPlLI述皿車 r*u=*4叱;门利乂罰 MMHUHMlw# 1 ” m Aum|!袖:; Wpd 7粹冷SMrmA*s hlc W -Wa *adhf
19、*斗51#Wf $ 5f AEBWHf*HfiWA 片祜产1寸亨?门事叶曹trj匚CTFl E fliPli Jl-J-L-ffi?!# -LLp IMS! IIKBRmWl 锄*H4fa B 3A巾耳 k4FBG帕事RFi巧 km ?37MW| I二 uii f 存冲肚.ms pe耳耳旳a晒曲中剧懐111鼻 归umrgh尸.m替 mum(打码方式比较简单粗暴,请凑合看吧)Step 3 :数据清洗这个模型中的数据清洗,主要是洗掉帖子中的无效信息,包括以下两类:i、论坛由于其特殊性,很多人成交后会把帖子改成 已出等标题,这一类数据需要删除:2、有一部分人用直接贴图的方式放求购信息,这部分体现为只
20、抓到图片链接,需要删除。数据清洗结束了么?其实并没有,后边会再进行一轮清洗不过到时再说。Step 4 :数据整理用上面的那些帖子数据其实是跑不出啥结果的,我们需要把数据整理成可以进一步分析的格式。首先,我们给每条帖子打标签,标签分为三类:行为类型(买OR卖OR换),目标厂商(微软OR索尼OR任天堂),目标对象(主机 OR游戏软件)。打标签模式是”符合关键词一打相应标签的方法,关键词表样例如下:con sole ndmeconsoleactualnamtconsole productconsoleciassXB 0X360XB 0X360主机灘牧电玩主机K260XG 0X260徽鞭电玩主机XBO
21、XXBOX徽软电玩主机WIIWil任天當主机NDSNDS小NNDE任天堂小三3DS任天堂PS3P LAVSTAT1ON3索尼由玩主机呻PLAYSTAT1ON4銮尼电玩主机3DS3DS柱天堂主机二 3PLAYSTAHON?索尼翫主机PSPPLAVSTATLONPORTAfiLE力唸注P LAYSTAH ONPORTAB LE室尼电玩PSVPLAYSTAHONVITA秦尼电玩那个标签后来我在实际操作时没有使用)打完标签之后,会发现有很多帖子没有打上标签,原因有两种:一是关键词没有涵盖所有的产品表述(比如三公主这种昵称),二是有一部分人发的帖子跟买卖游戏无关这让人怎么玩第二次数据清洗开始,把这部分帖
22、子也洗掉吧。其次,我们用发帖用户作为视角,输出一份用户的统计表格,里边包含每个用户的发帖数、求购次数、出售次数、交换次数、每一类主机/游戏的行为次数等等,作为后续搭建用户分析模型之用。表格大概长这个样子:uidpaittouinE p-D5tihdlF 獰口虻巧 pdifdiAnrg lignrdngif lastkifidirigrdngF lasEposlrAhge uErprovince1140i?15上翩I11eQ11詳谒11訓Q制11上时g1btt1tIo103824T47ft341mM-10012(02020Ifl1i R$a11102J11上沏F10013A13200辭2IRXl
23、LW10014307110031f Sfrity1001577J53JD363114Die!1II0nIrscr10a;4i-i3b44申p311l亭s100247022Q110024$77Q湖12厂西tHFF越區lBHSStS11fl015J51MQ593110a翻14 WRDV10026115202n1821DIU722O10100aIS11油曲110a3$24科103.280 B7119331j rs*1003114QM1之后这个表的列数会越来越多,因为数据重构的工作都在此表中进行。整理之后,我们准备进行描述统计。Step 5 & 6:描述统计&洞察结论描述统计在这个项目中的意义在于,
24、描述这一社区的二手游戏及主机市场的基本情况,为后续用户模型的建立提供基础信息。具体如何进行统计就不说了,直接放成品图,分别是从各主机市场份额、用户相互转化情况、 地域分布情况进行的洞察。W _家独大交易热度对比累尼主机60台微软主机3台任天堂主机40台三大主机用户的流动各主机的求购者中,均有一部分由直他主机 的前拥有者(卖掉原有主机的人)转化而来MicrosoftStep 7 & 8 :选择变量 &选择算法因为我要研究的是这些用户与二手交易相关的行为,因此初步选择变量为发帖数量、微软主机拥有台数、索尼主机拥有台数、任天堂主机拥有台数。K-mea ns 算法。算法上面,我们的目标是将用户分群,因此选择聚类,方法选择最简单的Step 9 & 10:设定参数 &加载算法K-means算法除了输入变量以外,还需要设定聚类数,我们先拍脑袋聚个五类吧!(别笑,实际操作中很多初始参数都是靠拍脑袋得来的,要通过结果来逐步优化)看看结果:每个霖葵中的索阿数番类111135.000218.0003331 00044.00051 .000有效11489.000缺失000接近了,完全没有区分度啊!第一类别的用户数跟总体已经很Step 7 & 8 & 9 & 1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年机关事业单位工人招聘《机动车驾驶员》技师考试题库及答案
- 2024年公路水运检测师桥隧模拟题及答案
- 2019年1月国开电大法律事务专科《行政法与行政诉讼法》期末纸质考试试题及答案
- 2025 年小升初成都市初一新生分班考试数学试卷(带答案解析)-(人教版)
- 江苏省2025年会计从业资格《会计基础》模拟试题
- 2025起重机械检验员年终总结400字
- 社区网格长安全知识培训课件
- 泸州市合江中学高2024级高一上学期期末考试地理试题(试卷)
- 工厂托盘出售合同范本
- 农机管路维修合同范本
- T/CEPPEA 5023-2023风光储充一体化充电站设计规范
- 2025届黄冈教育共同体高三4月联合考试语文试卷含答案
- 电影投资意向协议书
- 股东退股结算协议书
- 门安装合同协议书
- 昆明市禄劝彝族苗族自治县2025届小升初复习数学模拟试卷含解析
- 麻醉专业知识理论培训试题题库及答案
- 统编版(2025年春季)七年级下册《道德与法治》期末复习知识点提纲填空练习版(含答案)
- 从数据到智慧AI在中小学心理健康教育中的应用研究
- 会务服务考试试题及答案
- 中国超级电容器隔膜纸行业市场竞争态势及发展趋向研判报告
评论
0/150
提交评论