版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据挖掘技术之DM经典模型(下)数据分析微信公众号datadw——关注你想了解的,分享你需要的。接着上篇大数据挖掘技术之DM经典模型(上)文章,接下来我们将探讨朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型。4、朴素贝叶斯模型元格中训练样本的数量会迅速减少。如果维度为2,且每一维有10个不同的变量,那么就需要100个单元格,而当有3个维度时,就需要1000个单元格,4个维度就是10000.颈。当试图预测某一个概率值时,朴素贝叶斯模型就提供这一办法。基本思想:变量划分在不同的范围中。B的条件下A的概率以及给定A的条件下B的概率。B的条件下A发生的概率,等于给定A的条件下B发生的概率乘以A和B发生的概率的比例。如果A代表停止续签,B代表使用黑莓手机,然后给定使用黑莓手机的条停止续签的概率与总体使用黑莓手机的概率之比。4.1、概率、几率和释然·概0到1之间的一个数字,表示一个特定结果发生的可能性。一种估计结果概率的方法是计算样本数据中出现结果次数的百分比。·几率:某一特定结果发生于不发生的概率比。如果一个事件发生的概率是0.2,那么不发生的概率是0.8。那么其发生的几率就是1/4。几率的取值是0到无穷。·似然:两个相关的条件概率比。即给定B发生的情况下,某一特定结果A发生的概率和给定B不发生的情况下A发生的概率之比。4.2、朴素贝叶斯计算12户停止的似然。3、在整个州市场停止续签的似然。之所以定义为“朴素”朴素贝叶斯模型最吸引人的点:对于待评分的观测,如果缺失某些输入值,而公司对这种停止续签的用户更感兴趣。4.3、朴素与表查询模型的比较概率很低的属性就不会出现。以支持一个可信的估计模型时,表查询模型也许会做的更好。5、线性回归Excel——量,回归方程描述了两者之间的一种算术关系。“最佳的”关系是指最大限度地减少了从数据点到拟合曲线的垂直距离的平方和。5.1最佳拟合曲线较不同的客户组时,这种散点图尤其有用。来的曲线更像是一个双曲线。根据X轴,时间的递增。Y轴,日访问量的增加。势。如果曲线更精确的化,我们甚至可以模拟出曲线的函数表达式。垂直距离的平方最下的那条曲线,散点图显示了每个点到曲线之间的距离。方,在没有计算机的年代,计算欧式距离非常困难。当时,高斯提出这一观点,数很容易计算。见,更多的是曲线拟合。5.2拟合的优点多条曲线,哪条才是最佳的。这里引入“残差”,就是度量预测值与实际值之差。还有一个标准方法,成为,用来衡量描述曲线对观测数据的拟合程度。(1)残差如图,身高与体重模型的残差。图中我们也可以看到在曲线上与在曲线下的样本点是不一样的。是由于一些人为记录的原因造成的。在统计学中,残差在回归方程中要考虑误差项。最佳拟合曲线的方程是:Y=aX+b但该曲线,不是完整的模型。统计人员会将模型方程表示为:ε代表误差项,因为X并不能完美的展示Y。误差项表示模型无法解释的Y的部分。Y=aX+b+ε(2)R(R这里代表是R的平方)R的取值始终在0~1100~1关系越下。R要比较最佳拟合曲线与y1减去两个误差的比值可以计算出RR度量了最佳拟合曲线优于均值作为估计的程度。R度量了数据的稳定性。同一数据集中不同的样本是否会生成相似的模型。当R值较低时,不同的样本可能会表现出非常不同的行为。或者,在此基础上,再加入少量观察值可能会极大地改变模型的系数。当R值较高时,再加入少量观察值就不会有上述的改变。5.3全局效应部模式。组,年龄的影响变化又会不同。值范围的变量作为输入参数。但是,回归方程本身不会发现局部模式。6、多元回归引入线性回归的那个例子使用了单一的输入——持续期——来解释日访问量随时间的变化。当一个回归模型有多个输入时,就称其为多元回归。6.1、等式Y=a+a1x1+a2x2+a3x3+…..+anxn。展。——曲即可以由系数决定自变量贡献的大小和方向。6.2、目标变量的范围一个回归方程可以产生任何值。如果对X没有限制,那么Y也是没有限制Y=aX+bX的回归方程产生的Y值映射到目标变量的一个适合的范围。当目标遵循某一已知射到目标的一个适当的范围。围映射到0~1的区间,该区间等价于概率估计。6.3、使用多元回归的其他注意事项回归模型中有多个输入变量时,会产生一些在单一输入中不存在的问题。理想情况下,所有输入之间应该线性无关。被模型显示地包含的输入之间可能存在相互。添加一个新输入将会改变所有原输入的系值取值。(1)线性无关影响。(2)交互淋的吸引力可能依赖于价格和天气——寒冷的时候,只有真正物美价廉才可能会吸引人民购买。同。这就是交互的例子。这些新变量是标准化交互中涉及变量值的产物。(3)添加变量可以改变模型中的原有变量的取值变量系数的正负值。6.4、多元回归的变量选择“领域知识”域知识对一时模型的预测可以提供一个很好的指标指向。件通常可以帮助使用者选择出模型所需的最好变量。使用的方法:(1)前向选择n个输n得分最高的模型所对应的变量作为前向选择模型中的第一个变量。选择最佳模型的一种方法是选择R值最低的模型。另一种方法是使用统计检验中F-检验的方法。最好的模型是在验证集上的误差最小的模型。这看上去更像是数据挖掘,因为它使用了验证集,并没有对输入或目标值做出任何假设。量与第一步已选定的变量组合以创建包含有两个输入变量的n-1最大的选择变量个数,或者继续增加变量不能在继续提高模型的某个阈值。(2)逐步选择合作用而不再是有效变量。(3)后向消去后向消去选择变量的方法首先使用所有的n个输入变量创建了一个多元回满足某些停止条件,比如到达理想变量的最小数目。7、逻辑回归分析性是它可以向两端无限延伸。除与X轴平行的直线外,回归模型没有最大值和量。模型。7.1建模二元输出分配到其中的一个类。这就是一个分类任务。然而,该任务可以重述为“某个记录属于其中一个类的概率是多少?”,因为概率是数字,这个问题就转化为一项评估任务。(1)使用线性回归评估概率前面几个星期,客户不愿意付款的可能性非常大。目标值为011这就是直线的性质:显然存在弊端,没有最大值或最小值。(2)将回归直线弯成曲线0~1之间的函数。这就是逻辑函数。7.2、逻辑函数回归转换成逻辑回归也使用了这类技巧。P与1-P之间将概率P转换为几率。几率和概率表示同一件事0~10生成一个从负无穷到正无穷的函数。——这正式线性回归的优势。把几率的对数值作为目标变量而建立回归方程。“弯曲”方法,通过最大似然法拟合模型。最大似然法拟合模型分过程中,给定一组参数值模型,模型为某些输入产生最佳的估计值。给定一个待定的参数值和一组观察值,这一函数返回该参数值正确的概率。率和参数的似然之间存在一个有用的关系——决于使用特定的参数模型。最大化似然值,并可以保证找到最大点。总结:概率统计的思想是所有数据挖掘技术的基础。给定一个理想目标统计描述,距
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年同城冷链运输服务协议
- 2026天津河北区部分事业单位招聘25人考试重点试题及答案解析
- 2026中国金融出版社有限公司校园招聘4人备考笔试题库及答案解析
- 2026广东佛山市顺德职业技术大学诚聘海内外高层次人才招聘100人(第一批)模拟笔试试题及答案解析
- 2025江苏连云港市消防救援支队第四批政府专职消防员招聘40人笔试重点题库及答案解析
- 2025年碳中和园区碳汇项目合作协议
- 2025天津市西青经开区投资促进有限公司面向全国招聘招商管理人员4人考试核心试题及答案解析
- 2025贵州万山宏鑫环保科技有限责任公司临聘人员招聘8人考试重点试题及答案解析
- 2025四川长虹新材料科技有限公司招聘产品工程师岗位1人备考考试题库及答案解析
- 甘肃能源化工投资集团有限公司2026届校园招聘183人笔试重点题库及答案解析
- 棉花合伙种植合同协议书
- 通信基站施工进度施工工期保证措施
- 钻孔桩安全技术
- 2025年《社区警务工作规范(试行)》复习测试卷附答案
- 2025秋初中数学九年级上册(沪科版 安徽专用)上课课件 21.4 第3课时 用二次函数解决抛物线形运动问题
- 2021年12月大学英语四级考试真题及答案(第1套)
- JG/T 387-2012环氧涂层预应力钢绞线
- 注塑模具备用件管理制度
- 2024年南昌大学第二附属医院招聘笔试真题
- 工业机械之光
- 清华大学《工程伦理》网课习题及期末考试答案
评论
0/150
提交评论