信息分析方法_第1页
信息分析方法_第2页
信息分析方法_第3页
信息分析方法_第4页
信息分析方法_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息分析方法赵俊杰Telmail:junjie@徐峰Telmail:xufeng@中国科学技术信息研究所2023/2/11主要内容定量分析方法

简单线性分析方法——回归分析法多元统计分析方法——因子分析法聚类分析法定量与定性相结合的方法

层次分析法及应用系统动力学分析方法2023/2/12--回归分析方法2023/2/13编号R&D经费投入(亿元)SCI论文数(篇)19911150.8663019922209.8622419933256.2961719944309.81041119955349.11313419966404.81445919977481.91688319988551.11983819999678.924476200010895.7304992001111042.5356852002121287.6407582003131539.649788200414184357377中国1991-2004年R&D投入及SCI论文数案例2023/2/14案例2023/2/15回归分析方法回归分析方法是对变量之间统计关系进行分析的一种数理统计方法。

作用:便于观察变量间的关系,了解变量所反映的一些实际问题。用于简单的预测,可以利用回归分析建立进行预测的回归模型:但要注意在统计检验的基础上保证预测的可靠性方法:对数据进行数学表达-回归方程确定各参数统计检验2023/2/16线性回归:一元线性回归:

Y=a+bX多元线性回归:Y'=c0+c1X1+c2X2+...+cmXm非线性回归多项式:Y=b0+b1X+b2X2+...+bkXk幂函数:Y=aXb指数函数:Y=abx

主要的回归方程类型2023/2/17最常用的回归方程建立方法

——最小二乘法:思路设拟合函数为

Y'=f(X1,X2,...,Xm),Xi(i=1,2,...,m,指自变量)对于各观测点k=1,2,...,n,有估计值:Y'k=f(Xik)观测值:Yk(k=1,2,...,n)各观测值与实际函数值之间存在误差(Y‘k-Yk),使观测值与估计值之差的平方和——目标函数为极小

min∑(Y'k-Yk)2由此可计算出中各参数。2023/2/18对一元线性回归函数,有:

2023/2/19回归检验可能存在的问题:数据量太小,拟合度、相关系数很高,但不具备统计上的显著相关性。原始数据的点过分集中在一个小区域,可能建立起不同形式的回归方程来对应同一组数据,它们与原始数据的拟合程度都比较接近,从而产生了不确定的情况。所以,仅根据相关分析中的拟合程度或简单相关系数的绝对值大小来判断是不充分的。可能还需要对回归方程进行更严格的统计检验。对于线性回归,可以根据相关分析来判断因变量与各自变量间成直线关系的密切程度,因而也是判断曲线拟合优劣度的一个标准。2023/2/110小结回归分析方法是分析变量间线性关系的一种方法在做回归分析时,应先将数据做成便于观察的图(如散点图),然后根据对数据图表的观察选择适当的回归模型做分析对回归模型做相应的检验,可以根据检验来判断所先模型的适当与否

2023/2/111Excel软件的数据分析功能2023/2/112——因子分析法2023/2/1132003中国竞争情报应用战略高级培训研讨会昆明林登(Linden)对奥林匹克十项全能比赛得分作的因子分析。十项全能项目为:100米跑(x1)、跳远(x2)、铅球(x3)、跳高(x4)、400米跑(x5)、110米跨栏(x6)、铁饼(x7)、撑杆跳高(x8)、标枪(x9)、1500米跑(x10)。四个因子:短跑速度、爆发性臂力、爆发性腿力

和耐力。案例2023/2/114因子分析简介因子:用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间是不相关的,代表各类信息的综合指标称为因子。因子分析:用少数几个公共因子来描述许多指标或因素之间的联系,以较少的几个因子反映原始资料的大部分信息的统计学方法。特点:因子变量的数量远少于原始指标变量的数量,方便分析研究;因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息;因子变量之间不存在相关关系,对变量的分析比较方便;因子变量具有命名解释性,即该变量是对某些原始变量信息的综合反映。2023/2/115数学模型2023/2/116几个概念因子载荷aij:因子之间完全不相关时,为第i个原有变量和第j个因子变量的相关系数,即xi在第j个公共因子变量上的相对重要性。aij绝对值越大,则公共因子Fj和原始变量xi关系越强。变量共同度(公因子方差、公共方差):反映全部公共因子变量对原有变量xi的总方差解释说明比例。公共因子Fj的方差贡献:反映了该因子对所有原始变量总方差的解释能力,其值越高,说明因子重要程度越高。2023/2/117因子分析的计算方法因子分析通常根据样本变量的相关矩阵或协方差矩阵来计算根据相关矩阵或协方差矩阵,计算其特征值,根据特征值的大小(或正负)来选取因子基本原因,矩阵计算出来的不同的特征值对应的特征向量是不相关的,也就是说,计算出来的各因子之间是不相关的。2023/2/118因子分析的基本步骤确定待分析的原有若干变量是否适合于因子分析:相关分析,计算变量间的相关系数矩阵;构造因子变量:主成分分析法、主轴因子法、极大似然法、最小二乘法等;利用旋转使得因子变量更具有可解释性;计算因子变量的得分:每一样本数据在不同因子上的具体数值。2023/2/119因子个数的确定特征值准则:取特征值大于等于1的主成分作为初始因子。根据因子的累计方差贡献率来确定。2023/2/120因子分析的检验SPSS中提供了两种重要的检验KMO样本精度检验,用于判断变量间的相关性,以及其相关性是否适于进行因子分析,Bartlett球型检验,用于判断变量矩阵是不是单位矩阵2023/2/121小结因子分析是一种十分常用的多元统计方法,由于对影响研究对象的变量进行了降维处理,有助于我们对研究对象的理解因子分析通常是对多变量,大样本量进行的一种统计分析,对于变量和样本量均有一定的要求,通常变量与样本量的比例不应少于1:5,这样才可能会有比较好的效果因子的可解释性是因子分析得到广泛应用的重要原因2023/2/122——聚类分析方法2023/2/1232003中国竞争情报应用战略高级培训研讨会昆明聚类分析:思考“物以类聚,人以群分”,现实世界中存在大量的分类问题:学生成绩分等级;国家经济发展状况的分类(人均国民收入、人均工农业产值、人均消费水平等统计指标);人体健康水平的分类;学科门类;……2023/2/124聚类分析

(ClausterAnalysis)数值分类法的一种,在社会应用中称类型学。RobertTryon于1939年提出的一种心理学研究方法。目的:用数量关系对事物进行分类。对于可以用某些数量描述的事物,采用样本间的距离来将性质接近的事物归为一类,从而达到对事物的分析和评价。聚类分析作分类时各类群乃至类群数事先未知,而是根据数据的特征确定的,又称为无师可循的分类。一般分为逐步聚类、系统聚类和其它方法。2023/2/125

X1X2X3X4X5X6X7X8北京2959.19730.79749.41513.34467.871141.82478.42457.64天津2459.77

河北1495.63

山西1406.33

内蒙古1303.97

辽宁1730.84

吉林1561.86

黑龙江1410.11

上海3712.31

江苏2207.58

浙江2629.16

安徽1844.78

福建2709.46

消费性支出数据(单位:元)数据来源:2000年《中国统计年鉴》数据示例2023/2/126

1.系统聚类法

在开始时不选重心,而是令各样本自成一类;

计算各样本间的距离或相似度,使距离最近的,或相似度最大的两个样本并成一类;

计算合并后的各类间的距离或相似度,使距离最小的或相似度最大的两类并成一类。

重复进行两个最近类的合并,每次减少一类,直至所有的样本合并为一类,或直到满意的分类为止。判据:距离最小或相似度最大。2023/2/127样本之间的距离-明氏距离Q为样本所在空间的维度。当各变量单位不同或测量范围相差很大时,要对变量进行标准化处理。√2023/2/128样本之间的距离-兰氏距离兰氏距离与各变量的单位无关。对大的异常值不敏感,故适用于高度偏斜的数据。明氏距离和兰氏距离都没有考虑变量之间的相关性,因此,这两种距离更适合于变量之间互不相关的情形。2023/2/129样本之间的距离-马氏距离马氏距离考虑了各变量之间的相关性,且与各变量的单位无关。S难以确定,S不应随聚类过程而变化。实际聚类分析中,马氏距离不理想。2023/2/130相似系数:表示样本之间的相似度

相关系数:夹角余弦2023/2/131类间距离的计算最大距离法又称完全连接法,是以两类间最远的样本间的距离为类间距离;最小距离法又称单连接法,是以两类间最近的样本间距离为类间距离;中间距离法以两类间最大和最小距离之中值为类间距离;类平均法以两类样本间距离的平均值为类间距离;重心法类与类之间的距离定义为它们的重心(均值)之间的欧氏距离。离差平方和法类中各样本到类重心的欧氏距离平方之和称为(类内)离差平方和。反映了各类内样本的分散程度。两个较近的类合并后所增加的离差平方和最小。(与样本数有较大的关系)2023/2/1322023/2/133聚类结果的输出树状图还表征出类与类之间的相对接近或距离程度。

1627581034943212023/2/134刷状图从上而下或从左而右,可分别反映出不同类的情况。2023/2/1352逐步(动态)聚类法基本思路:在计算之前,先选取选择一批凝聚点或给出一个初始的分类,让样本按某种原则向凝聚点凝聚(距离最近、或相似度最大),对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。2023/2/136k均值法(1)选择k个样本作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。(2)对除凝聚点之外的所有样品逐个归类,将每个样本归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。(3)重复步骤(2),直至所有的样品都不能再分配为止。2023/2/137选凝聚点初始分类修改分类最终分类分类合理否?NoYes2023/2/138需要特别注意变量的选择(应具有代表性,重要性、变量决定类群特征)数据的预处理(标准化处理)各种方法的比较

系统聚类:容易把握各对象间的关联,任意分类,分类客观,不受其他因素影响;但计算量大。逐步聚类:经验、计算量少;但分类效果不稳定、数据间关联程度把握欠缺。类的个数给定一个阈值:要求类间距离大于阈值。观测样本散点图:两个或三个变量,多个变量综合成两个或三个变量,通过散点图确定类的个数。使用统计量。2023/2/139小结聚类分析法是按样本(或变量)的数据特征,把相似的样本倾向于分在同一类中,把不相似的样本倾向于分在不同类中。距离和相似系数反映了样本之间的相似程度。相似程度越高,一般两个样本间的距离就越小或相似系数就越大,反之亦然。系统聚类是一种常用的聚类方法,常用的有最短距离法、最长距离法、中间距离法、类平均法、重心法和离差平方和法。在许多应用中,类平均法和离差平方和法效果相对较好。逐步聚类(动态聚类)法是用于大数据集的一种聚类方法。2023/2/140SPSS软件简介

SPSS软件是国际上最早的统计分析软件,1984年首先推出了世界上第一个统计分析软件微机版。迄今SPSS软件已有30余年的成长历史。全球约有25万家产品用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件进行特定学科的统计分析了。美中不足的是,SPSS输出结果虽然漂亮,但不能为WORD等常用文字处理软件直接打开,只能用拷贝、粘贴的方式加以交互。2023/2/141定性+定量的方法2023/2/142——层次分析法(TheAnalyticHierarchyProcess,AHP)2023/2/143层次分析法简介20世纪70年代由美国著名运筹学家、匹兹堡大学教授T.L.Saaty提出。一种多目标决策方法。对主观判断进行定量描述。主要用于优先方案的选择和评价体系的确定。与德尔菲法相结合,可以得出较满意的结果。2023/2/144将一个复杂的问题分解成若干层次,建立起有序的梯阶层次结构(即层次结构模型),每一层次中的元素具有大致相等的地位,且与上一层次和下一层次有着一定的联系。并使人的经验和判断能够用数量形式加以表达和处理。即对因素的重要性进行两两比较,把两两比较的结果作为判断矩阵的元素,构造判断矩阵,通过求解该矩阵的最大特征根及对应的特征向量,获得其相对重要性的排序结果。

对比较和判断结果进行严格的逻辑分析和统计检验,保证了众多的判断元素及判断矩阵在综合过程中的思维一致性。1方法的思路和基本原理2023/2/145目标概念化构造层次结构模型建立判断矩阵单层排序计算相对权重单层一致性检验是否通过总排序计算合成权重总判断一致性检验是否通过评估总结果系统分析1-9标度特征向量法2层次分析法的实施程序

2023/2/146Saaty认为,每个层次的元素的数量最好不超过9个。(1)建立层次结构模型目标层准则层方案层2023/2/147(2)建立判断矩阵akB1B2…BnB1B2...Bnb11b21...b11b12b22...bn2………b1nb2n...bnn2023/2/148判断矩阵构建方法:1-9标度法标度含义1表示两个因素相比,具有同样重要性3表示两个因素相比,一个因素比另一个因素稍微重要5表示两个因素相比,一个因素比另一个因素明显重要7表示两个因素相比,一个因素比另一个因素特别重要9表示两个因素相比,一个因素比另一个因素极端重要2,4,6,8

上述两个相邻判断的中值倒数因素i与j比较得判断bij,则因素j与i比较的判断的bji=1/bij2023/2/149一致性检验

一致性指标CI:CI=(λmax-n)/(n-1)

平均随机一致性指标RI:

随机一致性比率CR:CR=CI/RI<0.10阶数3456789RI值0.580.901.121.241.321.411.45主要用于判断逻辑性错误,如

A>B,B>C,C>AA>>B,B>>C,A>C一致性检验

实际目的2023/2/150ExpertChoice(EC)软件简介ExpertChoice软件是以层次分析法(AHP)为基础的客观决策支持工具,判断的层次标准都表现在软件的hierarchicalstructure上,决策者可融合自身问题的层次并做出重要的判断。在ExpertChoice决策过程结束之后,决策者可借助于简单明了的结果,理解决策是如何产生的。网址:/2023/2/151ExpertChoice应用领域资源分配(ResourceAllocation)

资源选择(SourceSelection)

人力资源管理(HumanResourceManagement)

员工表现评估(EmployeePerformanceEvaluation)

薪资决策(SalaryDecisions)

制定市场策略(FormulatingMarketingStrategy)

决策分析(SelectingAlternatives)

预测支出(PredictingLikelyOutcomes)

分析规划(AnalyticalPlanning)

促进团体决策(FacilitatingGroupDecisionMaking)

收益/成本分析(Benefit/CostAnalysis)

工程设计评估(EngineeringDesignEvaluations)

生产作业管理(ProductionandOperationsManagement)

策略分析及评估(PolicyFormulationandEvaluation)

评估获益和合并(EvaluatingAcquisitionsandMergers)

供货商评估(SupplierEvaluation)

信用分析(CreditAnalysis)

顾客反应(CustomerFeedback)

IT投资管理(ITPortfolioManagement)

产品定价(ProductPricingDecisions)

创新管理(InnovationManagement)2023/2/152软件ExpertChoice(EC)2023/2/153——系统动力学法及

Vensim软件简介2023/2/1542003中国竞争情报应用战略高级培训研讨会昆明系统动力学方法简介系统动力学方法是一种以反馈控制理论为基础,以计算机仿真技术为手段,通常用以研究复杂的社会经济系统的定量方法。自50年代中美国麻省理工学院的福雷斯特(JayW.Forrester)教授于1956创立以来,它已成功地应用于企业、城市、地区、国家甚至世界规模的许多战略与决策等分析中,被誉为“战略与决策实验室”。2023/2/155系统动力学基本概念(1)系统:一个由相互区别、相互作用的各部分有机地联结在一起,为同一目的而完成某种功能的集合体。(2)反馈:系统内同一单元或同一子块其输出与输入间的关系称为“反馈”。对整个系统而言,反馈则是指系统输出与来自外部环境的输入的关系。

正反馈:能产生自身运动的加强过程,在此过程中运动或动作所引起的后果将回授使原来的趋势得到加强。负反馈:能自动寻求给定目标,未达到目标时将不断作出响应。

(3)反馈回路:由一系列的因果与相互作用链组成的闭合回路。分为正反馈回路和负反馈回路。

2023/2/156正反馈回路

具有正反馈特性的回路称为正反馈回路。特性:非稳定、非平衡、增长、自增强

正反馈回路举例:人口增长同人口基数的关系

+++2023/2/157负反馈回路

具有负反馈特性的回路称为负反馈回路。力图缩小系统状态相对于目标状态的偏离。为稳定回路、平衡回路或自校正回路。例:空调的恒温部分。+-—期望温度温度继电器冷却器加热器室温2023/2/158社会小系统-存款与收入举例2023/2/159系统动力学认为:反馈回路是构成系统的基本结构。一个复杂系统则是由这些相互作用的反馈回路组成的。一个反馈回路就是由状态、速率、信息三个基本部分组成的基本结构。一个复杂系统则按一定的系统结构由若干相互作用的反馈回路所组成;反馈回路的交叉、相互作用形成了系统的总功能。系统的基本结构2023/2/160系统的变量状态变量(L):描述系统在任一特定时刻的状态,是随时间而变化的累积量,是物质、能量与信息的存储环节。构造方程时用“状态变量方程”表示。速率变量(R):表示状态变量变化的快慢。用“速率方程”表示:描述控制作用的政策表达式,即速率方程公式表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论