版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据建模的那个时间点雪姬2015-12-21 93336973336948干散货教程意见(2)作者:诊断今天应该说内容是建模。为什么我是数学能力不强的人,在这里讲建模的故事呢?我的目标很简单。数据分析中的建模是不能像想象的那样预测的,告诉你每个人都可以创建自己的模型。第一部分:数据建模理论与逻辑首先,从数据分析的定义开始Wikipedia将数据分析定义如下:analysis of data is a process of inspecting,cleaning,transforming,and modeling data with the goal of discvering useful i
2、nformation(来源:Data analysis)简单翻译:数据分析是包括数据检查、数据清理、数据重组和数据建模的过程,目的是发现有用的信息、建设性的结论和决策支持。数据分析有多种形式和方法,适用于商业、科学、社会学等多个领域。请跟上一篇文章中我画的画比较一下:我在上一篇文章中简化了数据清洗过程,使初学者可以更轻松地进行整个过程。事实上,数据清理不是一次完成的,“检查-清理-检查”过程可能会重复几次,甚至数十次。建模呢?再次引用Wikipedia中的数据建模定义。data modeling is a process used to define and analyze data requ
3、irements need to support the business processes within the scope of corresponding infotherefore,The process of Data modeling invoices professional Data modelers working closed with business stake holders,as well as potential(来源:数据建模)简单翻译:数据建模是定义和分析支持组织的整个信息系统中的业务流程所需的数据要求的过程。因此,数据建模过程需要专业建模人员与业务人员和信
4、息系统潜在用户紧密合作。这段话的定义更偏向于信息系统和业务数据建模,这里我引用这句话的原因是为了明确下一次讨论的主要方向是业务数据分析和建模,科学研究方向的数据建模不在本文的讨论范围内。请注意支持业务流程,这是上述段落的核心内容之一。业务数据建模和业务数据分析的最终目的是支持业务流程或优化原始流程并提高某些效率。重新配置原始进程并减少步骤。为了避开错误的道路,必须通知政策制定者哪些过程变化是错误的。最终目标是提高效率。但是,提高效率的方法也徐璐不同,因此需要确定创建每个模型时解决的具体目标问题。进一步,数学主要是统计学,在建模过程中扮演什么角色?继续引用维基:mathematical form
5、ulas or models called algorithms may be applied to the data to identify relationships among the variables,Such as correlationin general terms,Models may be developed to evaluate a particular variable in the Data based on other variable(s)in the Data,With简单翻译:数学公式或模型称为算法,可以应用于数据以确定变量之间的关系,如相关性或因果关系。通
6、常,开发模型后,根据模型的精度,用于评估包含残差(即数据=模型错误)的数据中的其他变量与特定变量的关系此说明主要用于统计数据建模过程中确定变量之间的关系,定量说明这些关系,并输出可用于数据集的算法。需要通过多次测试和优化迭代完成的良好数据模型。总之,数据建模定义之一是数据集业务目标算法优化迭代=数据建模。定义的每个部分都是必需的。二、数据模型构建过程像以前一样,首先是流程图:上图中的流程颜色反映了数据分析的整个过程,请重新粘贴整个流程图,以便所有人都能轻松阅读。接下来,我要浅黄色(浅黄色?)部分的内容:选择变量和重构变量建模前需要考虑的第一点是用于创建模型的变量,必须从业务逻辑和数据逻辑两个方
7、面考虑。业务逻辑:变量基于收集的数据,在收集数据时创建与业务方面相关的逻辑。例如,如果在汽车参数中定义了类别“家用汽车”,则任何品牌的“轮胎数量(备用轮胎)”变量的可能性都大于99%。当然,在以下建模中不选择此变量。这种情况是商业知识,它告诉你可以选择哪些变量,不能选择哪些变量。数据逻辑:一般来说,从数据的完整性、集中性、与其他变量的强烈关联(甚至因果关系)等角度来看,如果变量在业务上有价值,但损失率达到90%,或者非布尔变量集中在两个值上,则必须考虑添加此变量是否值得后续分析。我个人认为,在选择变量时,业务逻辑应该优先于数据逻辑。业务逻辑在实际情况下自然发生,建模的结果也必须反馈到实际情况,
8、因此在选择变量时,业务逻辑的重要性比较高。如果变量本身不直接适合建模,如问卷满意度,则应重构汉字的“不满意”、“一般”、“满意”等“1”(适用于投诉)“2”(适用于一般)“3”(适用于满意度)的数字形式,以便在后续建模中使用除了此重构方法外,单独计算(如平均)变量和执行组合计算(如A*B)是典型的重构方法。还有很多其他重构方法。这里不一一说明。选择算法建模时,目标不是建模,而是解决业务问题,因此,必须选择合适的算法。典型的建模算法包括相关、群集、分类(决策树)、时间序列、回归和神经网络。以消费者的建模为例,在一些方案中,以典型的算法响应为例。消费者组划分:聚类,分类;购物篮分析:相关、聚类;购
9、买预测:回归、时间序列;满意度调查:回归、聚类、分类;等一下。一旦确定了算法,请重新查看变量是否满足算法要求;如果不满足,请返回到变量选择/重建,然后重试。满意后,继续下一步。设定参数选择算法后,必须使用数据分析工具建模。需要为多个模型调整参数(例如群集模型的K-means算法),需要分组的类别数、要提供的额外群集中心和迭代次数的最大值。这些参数在后续测试中多次调整,测试很少成功,因此请做好心理准备。加载算法和测试结果算法运行后,必须根据算法的输出来判断算法是否能解决问题。例如,如果K-means的结果不好,请考虑改用系统群集算法解决。或者,如果回归模型输出的结果不符合需要,请考虑按时间序列。
10、如果不需要算法,群集算法指定给定群集结果包含四种类型的群组,但其中两种特征非常接近,或者一类人没有明显的特征,则可以调整参数,然后重试。在不断调整参数,优化模型的过程中,模型的分析能力和实用性不断提高。如果您认为模型已经可以满足目标要求,则可以输出结果。报告、规则、代码片段等可以是模型的输出。输出后有最后一步。得到业务代表的反馈,并确定模型是否解决了问题。否则,回到第一步,再次告诉男孩.以上是建模的常规过程。如果有更生动、更难理解或觉得无关的地方。以下各列将建模过程逐步分解,介绍了简明易懂的具体数据模型。第二部分:数据建模的应用我写了建模过程,有建模经验的人当然知道,没有经验的人也不要着急。这
11、次,我将以物理模型为例,详细说明建模的各个阶段。像以前一样,首先是流程图:你看,这张图是我今天说的实际模型,在我前面的句子中加起来的。我会一步一步地进行绘画的全部过程。Step 0:项目背景说这个项目与我加入百度有直接关系.2013年的最后一天,我在三亚度假,准备回家。那时我收到私人信件,问百度是否对一位数据科学家(事实上,数据分析师)的职位感兴趣。我马上回信,决定春节长假后去面试。第二次面试后,面试官也在我加入百度后,直属Leader打电话给我,说对我的经历感到满意,但是需要给我一份反映建模能力的报告。做起来不难,但翻了电脑,发现了一个问题。我从上公司出发的时候,为了安装13,没有带任何与建
12、模相关的报告类.最终双方同意写一份报告,说我可以加入百度一周。好了,是展示我技能的时候了!我的轮子,抽卡!Step 1:确定目标查看报告要求:统计信息至少需要一种建模技术(技术统计信息除外),最好通过数据可视化获得好像是开盘问题,当然要选择我更了解的领域,所以我选择了.二手主机游戏交易论坛用户行为分析为什么选择这个?你们看了我那么多,当然以为我会选主机游戏领域,但为什么是中手?这是我在国营企业度过的过去半年,那时一个月忙3天,基本上无事可做,在论坛上泡了一段时间,倒卖了二手游戏.咳嗽.总之,目标是分析二手主机游戏交易论坛帖子,获得用户行为的说明,对用户进行分类,并输出洞察力报告。Step 2:
13、收集数据简而言之,用python写了定向爬虫,在一个著名游戏论坛的二手地区,帖子内容、发布者信息等所有发布信息基本上都是这样的。(标记方式比较简单粗暴,凑合着看吧.)Step 3:数据清洗该模型的数据清洗主要冲洗帖子中的错误信息,包括以下两类:1、论坛由于其特殊性,如果交易成功,往往会将帖子改为已出等标题,这些数据需要删除。第二,部分是直接映射,加入购买信息,这表示只需抓住图片链接,删除。数据清洗完成了吗?不,我会再从后面清理.但到时候再说。Step 4:清理数据上面的文章实际上没有出什么结果,我们应该把资料整理成可以进一步分析的形式。首先标记每个帖子,标记分为三类:行为类型(购买或销售或替换
14、)、目标供应商(Microsoft OR Sony OR Nintendo)和目标对象(主机或游戏软件)。标记模式为“匹配关键字”。如何指定相应的标记”,“关键字”(keywords)表格的示例如下:(主机场标记以后在实际运行期间不使用)原因有两个,如果贴标签,就有很多没有标签的帖子。一是关键词不涵盖所有产品表现(如三位公主的昵称),二是一些人发送与游戏营销无关的帖子.这是人们怎么玩的.从第二次数据清洗开始,把这部分帖子也洗了吧。第二,从用户的角度输出用户统计表格,包括每个用户的发布数、申请数、销售数、交换数、每种类型的主机/游戏操作数等。表格大概是这样的:之后,此表中的列数将越来越多。这是因
15、为数据重组活动是在此表中执行的。整理后,我们准备做技术统计。步骤5 6:解释统计洞察结论在这个项目中,统计说明的意义是说明这个社区的二手游戏和主机市场的基本情况,并为后续用户模型的构建提供基本信息。不用说如何进行具体的统计,直接放入成品图表是对各主机的市场份额、用户的相互转换情况和地理分布的洞察。Step 7 8:选择变量选择算法因为我们正在研究与此用户的二手交易相关的行为,所以初始选择变量是帖子数、Microsoft主机拥有者队、Sony主机拥有者队、Nintendo主机拥有者队。在算法上,我们的目标是将用户分组,因此通过最简单的K-means算法选择群集。Step 9 10:设定参数载入演算法K-means算法不仅要输入变量,还要设置群集数,我们先把头集合到五类!(不要笑,实际操作的很多初始参数是拍头获得的,要通过结果逐步优化。)查看结果:第一类用户数已经很接近一般了,完全没有区分!Step 7 8 9 10 11 11:变量选择算法选择参数加载算
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 零售业物资调配经理面试策略
- 基于环境教育的幼儿户外活动策划与实施
- 基于虚拟技术的微LED显示屏体验报告
- 客户关系深度开发策略
- 列车长的日常行为规范与管理要求
- 旅游行业活动策划面试全攻略
- 9-Decenoic-acid-9-Decenoic-acid-生命科学试剂-MCE
- 2026山东日照市教育局直属学校招聘第一批急需紧缺教师29人备考题库及参考答案详解【培优】
- 2026四川成都市都江堰市事业单位赴外考核招聘10人备考题库含答案详解【考试直接用】
- 2026天津市渤海国资人力资源开发服务有限公司招聘项目制工作人员1人备考题库含答案详解(完整版)
- 社区篮球训练活动方案
- 喷锌施工方案
- 冶炼车间岗前安全培训课件
- 现代监狱智能信息系统设计方案
- 高三入住酒店安全培训课件
- 管路阀门标识管理办法
- 《新媒体营销》项目4 新媒体内容创作
- 静脉治疗护理技术操作标准2024测试题及参考答案
- 2024年江苏航运语数英真题(含答案)
- 2025年重庆市选调生考试(申论)历年参考题库含答案详解(5套)
- 2025年酸洗工考试题库
评论
0/150
提交评论