




免费预览已结束,剩余3页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
重点包括两块,一块是统计分析方法论:描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等;一块是营销管理常用分析方法论:SWOT、4P、PEST、SMART、5W2H、User behavior等。一、统计分析方法论:1.描述统计(Descriptive statistics):描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 (1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。 (2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下: 平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。 中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。 众数:是指在数据中发生频率最高的数据值。 如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。 (3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。 (4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,数据的正态性离群值检验,已知标准差Nair检验,未知标准差时,有Grubbs检验,Dixon检验,偏度-峰度法等。其中常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。(5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。 2.假设检验:是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u检验法、t检验法、2检验法(卡方检验)、F检验法,秩和检验等。3.相关分析:相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析。相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。4.方差分析(Analysis of Variance,简称ANOVA):又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。5.回归分析:回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。6.聚类分析:聚类主要解决的是在“物以类聚、人以群分”,比如以收入分群,高富帅VS矮丑穷;比如按职场分群,职场精英VS职场小白等等。聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。常用的算法k-means、分层、FCM等。7.判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。注意事项:a. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;b. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);c. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。8.主成分与因子分析:主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,将变量表示成为各因子的线性组合,从而把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)。9.时间序列分析:经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。10.决策树(Decision Tree):是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度,使用算法ID3, C4.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年河北石家庄海关技术中心公开招聘劳务派遣类工作人员2名模拟试卷及完整答案详解
- 2025年度第6期广西南宁昇智人力资源服务有限公司招聘1人(青秀区工商业联合会)模拟试卷附答案详解(黄金题型)
- 2025年度青岛市园林和林业局所属事业单位青岛市园林和林业综合服务中心公开考前自测高频考点模拟试题及答案详解参考
- 羽毛球教练员合同8篇
- 2025广东依顿电子科技股份有限公司招聘硬件工程师等岗位人员考前自测高频考点模拟试题及完整答案详解1套
- 2025福建福州市马尾区文化体育和旅游局下属单位福州市马尾区文化馆招聘编外聘用人员1人考前自测高频考点模拟试题及答案详解(必刷)
- 2025劳动合同法深度解析:合同工工伤保险福利
- 2025届春季厦门银行校园招聘考前自测高频考点模拟试题附答案详解(考试直接用)
- 2025年上半年恒丰银行毕业生招聘考前自测高频考点模拟试题及1套完整答案详解
- 2025湖南怀化市溆浦县卫健局公开招聘乡镇卫生院编外专技人员20人考前自测高频考点模拟试题附答案详解
- 2025届春季厦门银行校园招聘考前自测高频考点模拟试题附答案详解(考试直接用)
- 江苏省宿迁市沭阳县第一次城乡联考2026届九年级上学期9月月考语文试卷(含答案)
- 2025年安全员考试题库(附参考答案)
- 颅脑外伤创伤课件
- 车间落地品管理办法
- 生活委员课件
- 民事赔偿赔协议书
- 成人术中非计划低体温预防与护理-中华护理学会团体标准
- 格尔木瑞诚气体有限责任公司搬迁升级改造项目报告书
- 2025春江苏开放大学教师发展与职业道德过程性作业二参考答案
- 防蛇安全小常识中班
评论
0/150
提交评论