Chapter 4 信息分析方法

上传人：世*** IP属地：贵州上传时间：2020-07-10 格式：PPT 页数：240 大小：2.38MB 积分：30 举报 版权申诉

已阅读5页，还剩235页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、第四章,信息分析方法,2,目标: 掌握信息分析的常用方法，包括方法的产生、演变和发展，方法的机理、性质以及结构和特点，方法在不同类型信息分析中的应用形式、应用效能和问题，不同方法的组合应用及其应用效果。,3,本章主要内容,相关分析方法预测分析方法评估分析法其他分析方法本章思考题,4,4.1 相关分析方法,广义相关分析相关现象和相关关系广泛存在于自然界和人类社会之中，是事物之间联系的一种基本类型。所谓广义相关分析，是以相关为基础和核心，研究各种形式的相关关系。广义相关分析技术，是泛指以相关关系为对象的一切分析和方法技术。广义相关分析具有广泛的用途，是分析和解决各种问题的基本工具。,

2、5,相关关系的基本概念 1、三类基本的关系世界万物之间，我们所研究的对象或概念之间，存在着种种的联系和区别。（1）因果关系：所谓因果关系，是指具有相互依赖、相互联系的关系中最严格的一种关系。因果关系必须同时满足以下条件：作为“因”的一方与作为“果”的一方之间存在必然的联系；因与果在时间上是先后相继的；因与果之间大多存在固定的定量关系。,6,（2）相关关系指现象或概念之间确实存在着联系，但其关联是不严格固定的或数量关系是不完全确定的一种相互依存关系。特征是：相关关系的各方往往同时伴随出现；它们之间的变化也存在相应的大致的规律性，这种规律性一般在统计的意义上才能成立。相关关系是普

3、遍存在的、最常见的一类基本关系。相关关系是信息分析的主要对象。（3）虚无关系所谓虚无关系，是指现象或概念之间不存在联系，或者虽然表面上有联系，但实际上并无真正的关联。,7,2、相关关系的分类（1）按相关因素的多少区分分为单相关和复相关。（2）按相关的程度区分零相关、低相关、显著相关、高度相关、完全相关。（3）按相关关系的数学模型的不同来描述分为直线（线性）相关和曲线（非线性）相关两大类。直线相关又可分为正相关和负相关；曲线相关又可分为抛物线相关、指数曲线相关、双曲线相关等多种形态。其中，线性相关是最基本的。,8,9,4.1.1内容分析法,首先来看一个例子：小学语文课文内容的社

4、会心理思考小学语文教材内容分析结果表根据分析得出：小学语文课文除了存在选取外国作品和描写外国人少，写实多写虚少，当代作品较少等不足之外，主要的社会心理偏差有以下三个方面：一、性别偏见男性化：可以从课文中心人物性别角色，课本插图的人物性别，以及课文中性别角色形象所代表的个性几方面来看。,10,二、伟人化语文课文人物过多的革命领袖化，对小学生心理的影响主要有两方面：一是对政治领袖的不恰当崇拜；二是使小学生产生对现实的失落感。三、成人化首先是人物角色的成人化倾向。其次是小学语文课文前后对小学生提出的一些要求过高。,11,1、内容分析（Content Analysis）法简介,内容分析是一

5、种在常规阅读文献的途径之外，系统、客观的对文献内容进行分析的专门方法。尽管内容分析法作为专门的科研方法的历史还不长，但是对传播内容的研究却古已有之，可以说是源远流长。（1）内容分析法最大的特点：就是定量与定性相结合,它提供了信息量化的新方式,推进了定性分析的系统化。（2）在实际应用中，内容分析法存在着以下的局限：首先，对分析对象的要求比较严格，需要一定数量、相同类型的文献，以保证能够抽出具有单义特征、达到足够统计量的分析单元作为内容分析的对象；其次，存在分析深度和工作量的“两难”处境。,12,（3）内容分析法的定义： 50年代以来，随着理论研究的开展，产生了许多关于内容分析的定义。在这

6、里，采用被学界广泛引用的贝雷尔森的经典定义，因为他简明扼要地揭示了内容分析的研究对象、研究方法及其特征。 1952年，美国传播学家伯纳德贝雷尔森将内容分析法定义为“一种对具有明确特性的传播内容进行的客观、系统和定量的描述的研究技术。” 具体来说，内容分析的研究对象是“具有明确特性的传播内容”。分析方法的特征是“客观”、“系统”和“定量”，结果表述的特征是“描述性的”。,13,2、内容分析法的形成与发展,（1）内容分析研究的必要性当今的决策者面临着两个难题：其一，要想在不断变化的环境中有效的管理各类组织，需对社会环境中的相关趋势进行持续监测和评价，但传统的社会环境监测方法进展很慢，调查结果又往

7、往滞后一段时间，不能及时满足需要；其二，在日益信息化的社会中，决策者需要依赖更加准确可靠的信息作出决定，但是从浩如烟海的数据中提取有用的信息变得越来越困难。,14,因此，阿尔万德尼（Alvan Tenney）提出“需要的是连续分析大量期刊。这样通过对数据的研究，可能会发现媒体关注的焦点和公众行为之间的实际关系。数据记录本身构成一系列对社会气候的观察，其准确程度可与国家气象局的统计数字相媲美。” 技术的进步使这类信息研究成为可能。,15,（2）内容分析法的发展阶段实践探索期二战期间，在著名传播学家保罗拉扎斯菲尔德和哈罗德拉斯韦尔的倡导下，美国情报部门决定从公开的文献情报中发掘所要的信息。

8、理论研究期战后，美国政府组织传播学、政治学、图书馆学、社会学等领域的专家学者与军事情报机构一道对内容分析方法进行多学科的研究。,16, 基本成形期：60S初，内容分析方法开始在美国情报部门推广，不久，进入大学传播学、政治学和社会学课堂。60S末，西方图书馆学情报学将内容分析引入自己的方法论体系。70S，这一方法在北美、西欧的社会科学各学科中开始应用，且在社会学和比较政治学中成效显著。发展完善期：80S以来，不断吸收当代科学发展的养料，用系统论、信息论、符号学、语义学、统计学等新兴学科的成果充实自己，在社会发展和国际政治等领域中业绩显赫。,17,3、内容分析法的理论基础,（1）逻辑推理，目前

9、基本的推理有以下三种：趋势推理：分析表征某一特征的信息的数量、重要性、强度等指标在不同时序里的变化和差异。共变推理：根据表征两个以上事件的信息同时出现的状况进行推断，得出相关性结论。因果推理：从表示特定事件的文字符号的变化来推断事件的发展变化。,18,（2）比较方法趋势比较：强调同一事件在不同时期的变化，从表征事件的有关信息的时序变化中把握事件的发展规律。不同内容群比较：即针对一个主题，比较来自不同信息源的内容，从而得出结论。内容内比较：对同一文献中不同主题的比较，旨在揭示他们的相关性和内在联系，说明同一信息源对不同事件的反应。有标准的内容比较：即以一定的标准作尺度，对

10、同类的文献进行相应的内容比较。在具体运用中，要综合运用多种推理和比较方式。,19,4、内容分析法的一般步骤,20,（1）提出研究问题或假设将研究目标加以清楚明白的陈述；研究工作要以研究主题为指导。（2）确定研究范围就是要详细说明所分析内容的界限，对研究对象给出明确的操作性定义。操作性定义必须包括两个方面：指定主题领域与确定时间段。（3）抽样在不可能研究整个文献信息的总体时，就需要采用抽样方法。第一阶段，对内容的原始资料进行抽样；第二阶段，选择分析样本的迄止时间；第三阶段，选择内容。,21,（4）选择分析单元分析单元是指实际计算的对象，为内容分析中最重要、同时也是最小的元素。分析单

11、元的选定主要取决于为了实现研究目标需要哪些信息。（5）建立分析的类目内容分析的核心问题在于建立媒体内容的类目体系。设立的类目必须与研究目标紧密相关；设立的类目应具有相应的功能，即内容分析研究应能说明信息传播过程中的一些问题；类目体系应方便管理，主要是指类目数量应有一定的限制。一个有效的类目体系中，所有的类目都应具互斥性、完备性和信度。,22,（6）建立量化系统内容分析中的量化方法一般采用类目、等距和等比三种尺度。在类目尺度中，研究者只需简单地分析单元在每个类目中出现的频率；等距尺度可以构造量表，供研究者探讨人物和现象的特性；等比尺度适用于一些空间和时间的问题。（7）进行内容编码

12、将分析单元置于内容类目称作编码。进行内容编码时应做好如下几项工作：训练编码员，改进编码计划；进行实验性研究，检查编码员间的信度；使用标准化表格，简化编码工作。,23,（8）分析数据资料这一阶段的工作包括三个部分：描述统计结果；推断统计分析；相关分析和因果分析。（9）解释结论（10）信度和效度检验信度是对文献编码一致性、分类准确性和方法稳定性的检验。效度是指结论与事实的相符程度，以及理论研究结果的适用性。包括概念效度，即类目的定义是否准确反映实际情况；实验效度，即是否有更多的外部依据来证实内容分析的结论；以及现象效度，即研究人员是否真正理解了研究内容所表达的意思及方式。,2

13、4,5、内容分析法的主要类型,（1）贾尼斯的分类实用内容分析对某些主题词或特定的词汇进行统计分析，并依据其字体、版面位置、排名顺序等赋予不同的权重，推断其出现的原因和可能的后果。语义内容分析针对文字的语义内容分析，统计不局限于字面形式。符号媒介分析不考虑语义，也不引入权重，只从字面上统计特定的符号（如某些主题词）出现的频率，从而进行分析。,25,（2）按内容分析采用的分析单元来区分词频分析 1）主题词词频分析。使用主题词作为分析单元，以所统计的主题词出现频次为基础进行分析和推断。 2）指示词词频分析。所谓指示词，是相对主题词而言的，是文献当中能反映特定概念的实义词，依据具体的分析

14、对象和分析目标而选定。通过对指示词分布的词频统计，可以分析这些概念在文献当中的受重视程度。篇幅分析是以具有独立意义的内容篇幅作为分析单元，根据对有关内容的比重结构及数量变化等进行分析和推测。,26,6、内容分析的相关软件,（1）内容分析软件工具的基本功能文本输入和管理分析：不仅指文本分析，即关于词语或文本的字串的信息，还有编码分析，即关于使用的类目或已编码文本段的查询和检索信息。词典、类目体系和编码：结果输出：保存文本、保存编码，以及保存以不同方式使用的类目体系或词典。,27,（2）内容分析法软件分类定量内容分析软件定量内容分析软件的特点主要是：通过构建词典型类目体系对文本资料

15、进行量化处理，对统计数据进行分析，并以相应的数字、图形或图表的方式直观展现研究结论。定量分析软件的统计项目主要有词频、词类、上下文关键词、簇分析和藕合词。关键要求内容单元简练明确，无须编码、判断，人为工作仅仅是解释结果。,28,1）CATPAC （http：/） 2）Diction5.0 （） 3）DIMAP （） 4）SPSS公司的TextSmart（http :/ 5）VBPro （http: / 6）WordStat v3.01 （,29, 定性内容分析软件定性内容分析软件的主要特征是：强调研究对象类型的多样性；主要功能在于概念抽取及概念间关系的构建，以反映文本内容的内在特征为目标。

16、这类软件一般较为复杂，且价格不便宜，学习掌握其使用方法也需要一定的时间。 1）ATLAS/ti 2）The Ethnograph v4.0 3）Kwalitan 4.0 4）NUDIST http:/www.qsr-,30,7、内容分析法的应用实例,SPRU科研选题的词频分析与计量研究,31,4.1.2 引文分析法,1、引文分析的相关概念在科学文献（包括自然科学和人文社会科学）的体系结构中，每篇文献都不是孤立存在，而是相互联系的。参考文献或引用书目被称为被引用文献（cited paper），而引用了参考文献的那篇文献则称为引用文献（citing paper）。所谓引用分析就是用数学和逻辑

17、学方法对期刊、论文、专著等研究对象的引用和被引用现象和规律进行分析，以揭示它们所蕴含的研究对象所具有的特征或对象之间关系的一种方法。,32,2、引文分析的基本假设假设之一，文献间形式上存在的联系表明，文献间在内容上必然存在某种联系；假设之二，若引用形式一样，则文献间内容联系的程度一样，对于每种内容间的联系均可定义相应的计量单位；假设之三，上述联系均具有简单的可加性。上述三条假设使我们实现了文献内容间的联系到形式间的数量联系的转换。,33,3、引文的引证结构引文链（citation link）引文链是由引用关系形成的文献之间的一种链状关系。例如：DCBA 。引文网络（cita

18、tion network）文献群体及由其相互引用关系形成的结构称为引文网络。,34,35,当然，根据上述三个假设，我们可以很方便地把上图的引文网络用矩阵形势表示出来：,36,4、引文分析的测度指标引文率：是衡量研究对象吸收情报能力的一个相对指标，根据研究对象不同可分为期刊引文率、著者引文率、学科引文率、机构引文率、国家引文率等。例如：期刊引文率该刊中参考文献总数期刊载文量；,37, 影响因子：某期刊第k年的影响因子第k年对该期刊在第k1年和第k2年发表文献的引用数量该期刊第k1年和第k2年发表的文献数量；自引率：就是对主体本身范围内文献引用的次数与主体引用的文献总数的比值。主体的

19、自引次数主体引用的文献总数,38, 即时指标：是测度期刊被引用速度的指标，该年度对该刊当年发表文献的引用次数当年该刊发表的文献总数；耦合强度：当两篇文章同时引用一篇或多篇相同的文献时，这种现象称为引文耦合，这两篇文献就具有耦合关系。引文耦合的文献之间总存在着这样或那样的联系，其联系的程度（共同引用的文献数）称为耦合强度；共引文强度：当两篇（或多篇）论文同时被别的论文引用时，则称这两篇论文具有“共引文”关系，引用它们的论文的多少，称为共引文强度。,39,5、引文分析的主要类型（1）将引文款目作为独立计量单位的引文分析：这类研究是以引文款目中任一著录事项或某些著录事项间的组合作为计量单位进行

20、的统计；（2）将款目之间的联系作为计量单位的引文分析：引文耦合与共引文分析文献的聚类分析,40,6、引文分析的工具引文分析的工具主要有科学引文索引、社会科学引文索引、艺术与人文科学引文索引、期刊引证报告等，对于中文文献，还可以考虑使用中国科学引文索引和中国社会科学引文索引。但其中最有权威、使用最广泛的还是科学引文索引。,41,7、引文分析的局限首先，对文献的引用动机呈现多样性，使得引用文献与被引文献之间的联系变得十分复杂。其次，为了方便量化研究，引文分析对参考文献不加区别的等价看待，从而忽略了文献之间重要性的不同。最后，引文数据本身的准确性也往往难以保证。不过，引文分析仍然不

21、失为一种重要的方法，如应用得当，还是可以发挥有效的作用。,42,8、引文分析方法的应用主要有以下几个方面：利用引用数据研究文献结构和科学结构；利用引用数据研究文献的动态规律和用户行为特征和需求特点；利用引用数据研究科学发展史；利用引用数据评价人才、机构和成果；测定某一学科的影响和某一国家某些学科的重要性；研究学科信息源分布、评价和选择期刊和文献等。除了上述列举的应用之外，许多国家还用引文分析来确定科研资助政策和重点研究领域等等。,43,引文分析的实例,从Scientometrics期刊的自引看科学计量学的学科特点 1、Scientometrics期刊介绍科学计量学杂志（Scientome

22、trics）1978年在匈牙利正式创办。截至2004年底，每年三卷（Volume），每卷三期（Issue），全年出版九期，自2005年起改为每年四卷，每卷三期，全年出版十二期。Scientometrics的问世，标志着科学计量学的成熟。,44,2、研究方法自引分析可以在很多层次上进行，比如作者自引、期刊自引以及学科自引等等。此处讨论的是期刊自引。数据来源是期刊自1994年至2004这十一年发表在Scientometrics上的1055篇论文的引文信息，总共包括了18646篇参考文献，其中引用Scientometrics自身的参考文献3054篇。,45,3、研究结果有自引行为的占总数的74

23、.95%，即意味着这十一年Scientometrics刊载的论文当中，平均四篇论文就有三篇至少引用了一次Scientometrics刊载过的论文。这是一个相当高的比例，也从一个侧面说明了Scientometrics期刊是科学计量学领域当中非常重要的研究舞台和信息来源，其地位无可取代。,46,各年度的基础统计数据：,47,论文数与平均引文长度的关系：平均引文长度指的是某一年的引文总数除以论文数的比值，或篇均参考文献数。,48,论文数与自引数之间的关系：自引数指的是Scientometrics引用期刊自身的次数,49,自引率的变化：指的是自引数在引文数当中所占的比例,50,就单篇论文自引率而言

24、，其分布相当不平衡,51,Scientometrics与其他期刊的自引情况进行比较,52,结论由以上讨论可以看出，在Scientometrics载文的全部参考文献中，约六分之一属于自引；所有论文中，约四分之三至少含有一篇自引文献；在约三分之一的论文当中，参考文献的至少五分之一属于自引；Scientometrics的自引率（16.38%）在JCR收录的全部期刊( 自引率平均值为12.41%) 当中处于相对较高的位置。所有这些说明，在科学计量学研究领域内，尚无其他期刊与其学术地位相似。同时这也说明，以其为代表的科学计量学相对其他学科而言，其学科独立性较高，对其他学科的研究成果和研究方法的借鉴和

25、利用还是比较缺乏。从学科发展的角度讲，该学科与其他学科的合作和联系还亟待加强。,53,4.1.3 因子分析,1、因子分析的数理统计背景因子分析是一种主要用于数据化简和降维的多元统计分析方法。它将相关性较强的几个变量归在同一个类中，每一类赋予新的名称，成为一个因子，反映事物的一个方面，或者说一个维度。这样，少数的几个因子就能够代表数据的基本结构，反映信息的本质特征。更可以进一步从原始观测量的信息推出因子的值，然后用这些因子代替原来的变量进行其他统计分析。,54,如果： 1X=（x1,x2,xp）T,是可观测的随机向量，且均值向量E（X）0，协方差阵cov（X）,且协方差阵与相关矩阵R相等； 2

26、F（F1,F2,Fm）T，mp，是不可测的向量，其均值向量E（F）0，协方差矩阵cov（F）I，即向量F的各分量是相互独立的； 3. =（1,2,p）T与F相互独立，且E（）0，协方差阵是对角阵，说明各分量之间也是相互独立的。,55,则模型 x1=a11F1+a12F2+a1mFm+1 x2=a21F1+a22F2+a2mFm+2 xp=ap1F1+ap2F2+apmFm+p 称为因子模型。,56,模型中的F1,F2,Fm，被称作公共因子（也称主因子），它们是在各个原观测变量的表达式中都出现的因子，是相互独立的不可观测的理论变量。公共因子的含义，必须结合具体问题的实际意义而定。 1,2,p被称

27、作特殊因子，是向量X的分量Xi（i1，2，n）所特有的因子，各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中的矩阵A（aij）的元素aij被称作因子载荷，aij的绝对值越大，表明Xi与Fj的相依程度越大。,57,2、因子分析的过程问题的定义（problem of formulation）计算并检验协方差（相关）矩阵：巴特利特球体检验 KMO测度选择因子分析的方法（method of factor analysis）主成分分析法是一种值得推荐的方法，同时也是应用比较广泛的一类方法。,58, 确定因子数目（number of factors）除了经验判断外，特征值法

28、是选用较多的判断方法；因子碎石图（scree plot）提供了因子数目和特征值大小的图形表示。可以用于直观的判定因子数目。因子旋转（rotation of factors）因子旋转的目的是使某些变量在某个因子上的负载较高，而在其它因子上的负载则显著的低，事实上依据因子对变量进行更好的“聚类”。,59, 因子解释（interpretation of factors）因子得分（factor scores）模型的适合度（model fitness）因子分析的最后，应该对构建的模型是否适合问题本身有一个认识，这就涉及到模型的适合度的判断。这种判断常常基于残差矩阵而进行。,60,因子分析法的实

29、例,用因子分析法对西部地区的人口素质进行分析评价从主观症状因子分析的结果看中医辨证的数学逻辑附469例RA多中心临床病例分析,61,4.1.4 聚类分析,1、聚类分析的原理聚类分析（cluster analysis）是根据事物本身的特性研究个体分类的方法，是多元分析与当代分类学结合的产物，又称为群分析、点群分析或簇类分析。基本的思想是：认为研究的样本或指标（变量）之间存在着程度不同的相似性（亲疏关系）。于是根据样本的多个观测指标，将其置于多维空间，按照它们空间关系的亲疏程度进行分类。关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位。,62,2、聚类分析的类型按照分类对

30、象的不同可分为： Q型聚类分析和R型聚类分析，前者是样品归并，后者是变量归并；按照实施聚类的方法分为：系统聚类法、动态聚类法等，系统聚类分析也称为分层聚类法，动态聚类法也称快速聚类法，或K-均值聚类法。在聚类过程中，所需要的计算量非常大,63,因子分析和聚类分析的实例之一,对世界职业足球优秀前锋专项技术指标的统计分析选择了五大洲26个国家的45名前锋运动员，根据8项和前锋素质有关的指标评分进行分析。指标是：突破过人能力x1，门前机会把握能力x2，头球能力x3，无球跑位能力x4，速度x5，传球能力x6，强壮程度x7，团队协作精神x8。通过对458的多元数据进行因子分析和聚类分析，希望

31、找出影响前锋运动员素质的关键因子；并对前锋运动员的类型进行分类，分析其特点和风格，判断他们适合什么样打法的队伍。,64,首先根据458的原始数据阵算出样本相关系数矩阵如下：,65,从相关系数矩阵可以看出，x3和x7，x6和x8以及x1和x4具有较强的相关性，有理由认为可以进行因子分析。应用主成分法，并经过因子旋转得到如下结果：,66,67,对这三个因子的解释：因子1在变量x3，即头球能力和变量x7，即强壮程度上都有较大的正载荷，同时在变量x5，即速度上有一定的负载荷，所以这一因子可看作对运动员身体素质的衡量，称其为身体强壮因子；同理，因子2可看作对前锋运动员足球技能水平的衡量，称其为技能因

32、子；因子3称为配合意识因子。由以上的分析可看出，要想成为一名超级前锋，“身体、技术、意识”一个都不能少。,68,下面表中显示的是这45名前锋运动员的有关以上三个因子的因子得分情况（部分），据此，可以进行下一步的聚类工作。,69,70,对多元数据的聚类分析及结果解释：运用SPSS软件包来实现这一聚类过程。得到如下的树图：,71,从图中可以看出，这45名前锋分为8类：,72,因子分析和聚类分析的实例之二,因子分析与聚类分析在消费者研究中的应用因子分析与聚类分析可以为产品的市场细分以及市场定位提供技术指导。在现代消费者行为与心理研究中，评价消费者生活方式的方法有许多，比较广泛应用的细分系统如价

33、值及生活方式系统等。下面主要介绍如何通过因子分析和聚类分析方法来对消费者进行分类：,73,一、研究的基本方法样本的分布根据人口比例分布在A城市的14个城区。本例中选定的对象为：15岁以上具有独立购买能力的消费者。样本的抽取采用随机方法。研究消费者的生活方式，通常采用心理描述测试法。调查中采用7分评价法，1分表示“非常同意”，7分表示“非常不同意”。经事先的小样本测试筛选，最终的测试语句为：,74,A 我喜欢购买新潮的东西 B 在其他人眼中我是很时髦的 C 我用穿着来表达个人性格 D 我对自己的成就有很大期望 E 生命的意义是接受挑战和冒险 F 我会参加/自学英语和电脑课程来接受未来挑战

34、G 我习惯依计划行事 H 我喜欢品味独特的生活 I 放假时我喜欢放纵自己，什么事都不做 J 无所事事会使我感到不安,75,K 我的生活节奏很紧凑 M 优柔寡断不是我的处事方式 N 经济上的保障对我来说是最重要的 O 我选择安定和有保障的工作 P 我宁愿少休息多工作，以多挣些钱 Q 我很容易与陌生人结交 R 我活跃于社交活动 S 我对朋友有很大影响力 T 我很注意有规律的饮食习惯 U 我定期检查存款余额，以免入不敷出,76,二、消费者分类的分析方法 1.通过因子分析，将测试语句进行分组； 2.利用因子分析的结果，对样本进行聚类分析； 3.根据分类结果对各类消费者背景进行交叉分析。,77,三、因子

35、分析方法,78,四、聚类分析方法,79,五、研究结果的应用分析 1. 各类型消费者的特征例如：时尚型：这类消费者约占样本量的约21%，主要背景特征为：年龄相对较轻，平均年龄在35岁左右，最主要在25-44岁之间，教育程度相对较高，一般具有高中以上的文化程度，虽然平均家庭月收入较好，平均在2200元左右，但同时也是分散程度最高的，表明喜爱时尚并不是高收入者的专利。与其他类型相比，这一类型中的三资企业员工的比例最大，未婚的比例较大，约占1/4，女性的比例为55%，高于男性。,80,2. 消费者购物与生活方式研究表明：消费者的生活方式与消费者的购物方式有着很高的相关程度。购物半径、愿意花费在购

36、物上的最长时间、购物交通费。,81,因子分析和聚类分析的实例之三,基于三维测量的模特体型研究,82,4.2 预测分析方法,科学“占卜” 不是神话未来有多美？成功的预测分析可以带来巨大的回报。以国外某金融机构为例，一个预测客户信用风险的模型在6个月内为该机构节省2百万美元，而预测分析系统的部署成本约为40万美元。,83,在应用方面，预测分析也表现出了惊人的行业渗透能力。除了在金融、电信等重点行业外，预测分析正在尝试着幻化出更多的应用形式。目前预测分析在零售行业的表现相当活跃，另外，海关、卫生、公安等机构也是预测分析的热点应用区域。技术的创新让预测分析的结果不断地向准确的目标靠近，强大的

37、数据体系和具有多元化知识结构的分析人才是成功实施预测分析项目的两个必要条件。,84,4.2.1 时间序列法,即对事物本身随时间变化规律的研究一、概述 1、时间序列数据的概念所谓时间序列数据，就是把研究事物的特征值统计数据按其发生时间的先后顺序排列起来所形成的数列，这种数列能够反映事物发展变化的动态，因此也称为动态数列。,85,为了保证时间序列分析的准确性，时间序列数据的编制应该遵循以下一些原则：（1）时间序列中的各项数据所代表的时期长短（或间隔时间）应该一致且连续；（2）时间序列中的各项数据所代表的总体范围应该一致；（3）时间序列中的各项数据所代表的质的内容应该前后一致；（4）统计

38、指标数据的计算方法和计量单位应该一致。,86,2、倾向变动分析预测方法的体系时间序列数据随时间推移而变动包括四种类型： 1 ）倾向变动趋势变动 2 ）周期变动 3 ）季节变动 4 ）不规则变动随机变动主要介绍倾向变动分析预测的一系列方法。倾向变动分析预测的方法体系如图：,87,88,二、多项式曲线法当可用时间t的k次多项式曲线较好地拟合散点时，我们就可以用时间t的k次多项式来描述时间序列数据，并据以推测研究对象的未来状况。 1、一次曲线 y =a+bt 其中系数a，b可根据最小二乘法求得,89,经过转换，可改写成：,90,当时间点t1,t2,tN为连续且等间隔时，若把原点取在时间序列的中

39、间，即在数据项数为奇数（N2n+1）时，取ti的系列为：-n,-(n-1),-2,-1, 0,1,2, (n-1) ,n；在数据项为偶数（N2n）时，取ti的系列为：-（2n-1）,-(2n-3),-3,-1,1,3,(2n-3),(2n-1) 则在此两种情况下都有：此时求系数的公式可简化为：,91,为了衡量所得的回归方程与实际值的偏离程度，引入不一致系数的概念。不一致系数u定义为式中：剩余平方和不一致系数u值越小，说明与实际值倾向线的偏差越小。,92,2、二次曲线在时间序列数据yi散点图的倾向线大致呈二次多项式曲线时，可以用二次多项式去描述它。其一般表达式为：回归系数a,b,c

40、为：,93,3、三次曲线其中回归系数,94,三、指数曲线法 1、一次指数曲线法一次指数曲线的一般形式为：可将指数曲线转化成直线：,95,回归系数a和b ：由此即可得a和b。对于时间t的原点设在时间序列中间的情况下，有：,96,2、二次指数曲线法二次指数曲线的一般式为：直线化则有:,97,时间t的原点取在时间序列数据中间的情况下，有：由此可得回归系数,98,3、修正指数曲线法修正指数曲线又称饱和曲线。一般形式如下：在求系数K，a，b时，先将数据的项数N三等分，作为三个部分时间序列，即N=3n。不能完全三等分时，将余项舍去（应舍去早期数据）。,99,其中K经过变换容易得到即可

41、求得系数K，a，b,100,设与某时间点t及与其相邻的时间点（t+1）所对应的y值分别为yt和yt+1，两者之差为，有: 可以用此直线方程来间接检验是否可用修正指数曲线来描述时间序列数据的散点图。,101,四、生长曲线法 “S”型曲线又称为生长曲线，主要包括两种：一种是对称型S曲线，称为Logistic曲线；一种是非对称型S曲线，称为Gompertz曲线，如图：,102,1、Logistic曲线曲线在其单调区间内的处有唯一的拐点曲线直线化：这就是前面已经讨论过的修正指数曲线。因此，可以用前述的求修正指数曲线系数的方法求出A，B，k，进而即可求得Logistic曲线的系数m，a，K,1

42、03,经过转换，即可得系数m，a，K,104,2、Gompertz曲线满足条件K0 ，0a1，0b1的Gompertz曲线适用于某些技术、经济、社会现象发展过程的模拟。 Gompertz曲线的拐点的坐标是： Gompertz曲线对于拐点来说，是不对称的。,105,曲线直线化：就是前面讨论过的修正指数曲线,106,3、两种生长曲线的比较 Logistic曲线和Gompertz曲线虽都属于生长曲线，但却具有不同的动态特性。当研究对象的发展只和已生长（已代换）量（率）有关时，则选用Gompertz曲线；当研究对象的发展受已生长（已代换）量和待生长（待代换）量的双重影响时，则选用Logistic曲

43、线。,107,五、移动平均法倾向线的逐步修正方法是通过时间序列数据的平滑来进行分析的。最简单的平滑方法就是取时间序列数据的算术平均值。它有着严重的缺点：它只能反映时间序列数据的一般情况（平均水平），而不能反映出数据中的高值和低值，更不能反映时间序列数据的演变过程和发展趋势，掩盖了它的可能存在的倾向变动；它对时间序列的近期数据和早期数据同样看待，缺乏对当前数据变动的适应能力。对算术平均法的改进：分段平均法。,108,1、一次移动平均对分段平均法改进得到移动平均法（moving-average method），又称为滑动平均法。一次移动平均值的计算公式为：式中：第t时期及其以前(n

44、-1)个时期的数据的移动平均值；时期序号；第t时期变量的数值；每段跨越的时期个数，即所包含的数据个数。,109,合理的选择分段时期个数n是用好移动平均法的关键。取不同n值时的一次移动平均效果的比较：,110,2、二次移动平均一次移动平均只适用于平滑时间序列数据，而不适用于有线性变动趋势的时间序列数据预测。二次移动平均是在一次移动平均值的基础上进行的，二次移动平均数序列也与一次移动平均数序列存在滞后偏差。移动平均法正是利用这种滞后偏差的演变规律来求出平滑系数，建立时间关系的数学模型，以进行预测。,111,线性平滑时间关系模型的一般形式为：式中：t时期的序号 l由当前时期t到需要预

45、测的时期之间的时期个数； yt+1第（t+l）时期的预测值。 bt斜率，即单位时期的变化量 t截距，即当前时期t的数据水平， t=yt。,112,二次移动平均是在一次移动平均值的基础上，对有线性变动倾向的时间序列数据再进行一次移动平均，方法与一次移动平均完全相同。二次移动平均值的计算公式为：式中：第t时期的二次移动平均值；第t时期的一次移动平均值。利用滞后偏差的演变规律求出平滑系数 t、bt,113,二次移动平均可以有如下迭代公式：平滑系数：,114,移动平均线性预测模型：移动平均法缺点：第一，预测模型及求平滑系数的公式是经验公式；第二，移动平均法对时间序列不同时期的数据赋以

46、相同的权重，它比较适合短期预测，而不宜用于长期预测。,115,应用二次移动平均进行预测应注意以下几个问题：时间序列数据的倾向线为线性趋势时，才能用二次移动平均进行预测；,116,六、指数平滑法指数平滑法是对移动平均法的进一步改进，对时间序列的不同时期的数据给以不同权重，可以充分利用全部数据。 1、一次指数平滑在移动平均法的基础上，产生了加权移动平均法，一般表达式为：,117,对于不同时期数据，我们按几何级数的形式分配权重，即按指数形式加权，并使权重数之和为1。于是有：,118,r是权重数分配的公比。这种对各时期数据按指数规律加权的移动平均法就是指数平滑法。指数平滑计算公式为：,119,

47、所以，用指数平滑法所得的新估计值等于新数据与原估计值的加权之和，可见，指数平滑法蕴含着一个负反馈原则。,120,2、二次指数平滑一次指数平滑值对于原时间序列数据存在一个滞后偏差。所以，当时间序列数据呈递增或递减的趋势，即存在线性趋势时，就不能使用一次指数平滑法进行预测。可以求出二次指数平滑值并利用滞后偏差的规律性，建立线性平滑时间关系模型，然后进行预测。线性平滑时间关系预测模型如下：,121,二次指数平滑值的计算公式如下：平滑系数公式为：,122,3、三次指数平滑如果时间序列数据的倾向线呈非线性，二次指数平滑法就不足以解决预测问题，而必须使用三次指数平滑。三次指数平滑法几乎适用于所有的时

48、间序列数据预测问题。三次指数平滑时间关系预测模型为：,123,平滑系数公式为：,124,应用指数平滑法进行预测时，应注意以下几点：计算时，所选的加权系数应一致不能直接用于预测。当时间序列数据的倾向线呈线性趋势时，用二次指数平滑法（也称为线性指数平滑法）；当时间序列数据的倾向线呈非线性趋势时，用三次指数平滑法（非线性指数平滑法）。,125,4.2.2 回归分析法,回归分析法（Regression Analysis）是通过研究两个或两个以上变量之间的相关关系对未来进行预测的一种数学方法。一、回归分析法概述 1、回归分析法概念回归分析法主要解决以下两个问题：一是确定几个变量之间是否

49、存在相关关系，如果存在，找出他们之间适当的数学表达式；二是根据一个或几个变量的值，预测或控制另一个或几个变量的值，且要估计这种控制或预测可以达到何种精确度。,126,2、回归分析法类型按照所采用的回归方程的不同及自变量数量来分类。单元线性回归多元单元非线性回归多元,127,3、回归分析法工作步骤根据自变量与因变量的现有数据以及关系，初步设定回归方程；求出合理的回归系数，并确定回归方程；进行相关性检验，确定相关系数；在符合相关性要求后，即可根据已得的回归方程与具体条件相结合，来确定事物的未来状况；并计算预测值的置信区间。,128,二、一元线性回归分析法 1、设定回归方

50、程根据表、数据，在直角坐标系中绘出散点图从散点图中，若假定y与x之间大致呈线性关系，则可用直线方程 y=a+bx 近似地描述散点的分布情况。这条直线称为y对x的回归直线。其表达式称为回归方程，a、b称为回归系数。,129,2、确定回归系数回归系数a、b的确定可以采用最小二乘法。即在各点处的偏差的平方和达到最小。一个因变量y的某次观测值与这个因变量的平均值的差称为变差，各次观测值变差的平方和称为y的总变差平方和，记为式中：n观测总次数。,130,131,3、相关性检验对回归模型描述实际数据的近似程度，也即对所得的回归模型的可信程度进行检验，称为相关性检验。相关系数：,132,

51、那么，r应该至少大到什么程度？相关系数的最低值称为相关系数临界值，记为ra，它是相关性检验的标准。相关系数临界值与数据组的个数有关，还与要求回归直线在多大程度上可信有关。可查相关系数临界值表。 4、预测及其置信区间预测值应该有一个置信区间：,133,三、多元线性回归分析法 1、多元线性回归方程和回归系数 2、多元线性回归的相关系数和置信区间,134,四、非线性回归分析法对于某些曲线y=f(x)，可以通过变换变量的方法将其转换成直线方程。可以应用线性回归法来求解问题。,135,136,137,138,139,4.2.3 德尔菲法,1、德尔菲法的基本原理和起源特尔菲法的含义是通过卓越人物

52、来洞察和预见未来。最早出现于20世纪50年代末期的美国政府。除用于科技预测外，还广泛用于政策制定、经营预测、方案评估等方面。,140,2、德尔菲法的特点和用途主要特点：匿名性反馈性统计性用途：特别适用于这样两类课题：对于缺乏足够原始数据的军事和技术领域的预测，以及需要根据众多因素的影响才能作出评价的军事和技术领域的预测；对于那些社会、经济、科学技术的发展在很大程度上取决于政策和人为的努力，而不是主要取决于该领域本身的预测。,141,具体的说，特尔菲法主要有以下五个方面的用途：对达到某一目标的条件、途径、手段及它们的相对重要程度作出估计；对未来事件实现的时间进行概率估计；对某一

53、方案（技术、产品等）在总体方案（技术、产品等）中所占的最佳比重作出概率估计；对研究对象的动向和在未来某个时间所能达到的状况、性能等作出估计；对方案、技术、产品等作出评价，或对若干备选方案、技术、产品评价出相对名次，选出最优者。,142,3、德尔菲法的步骤与关键问题,143,144,两个关键问题：、专家的选择、调查表的设计几种常用的调查表：目标一途径调查表,145,事件实现时间调查表,146,要求对问题做出一定说明的调查表,147,技术（方案、产品）评价调查表,148,技术预测调查问卷的实例：设计调查表时的注意问题：调查表的设计原则：与一般的社会调查表相类似问题的数目要适当组

54、织者不应在调查表中掺入自己的意见,149,4、结果的数据处理和表达（1）对相对重要性指标的数据处理和表达采用专家意见的集中程度和协调程度等指标来衡量。专家意见的集中程度有下列几种常用的表示方法：评分算术平均值对象的满分频度，就是对某对象满分的专家数与对该对象作出评价的专家总数之比。对象的评价等级（名次）和变异系数,150,对象j的评价等级和可由下式求得：式中：Si对象评价等级和； Rij就专家I给对象j的评分Cij在给全部评价对象的评分（Ci1, Ci2， Cij, ，Cin）中排出的等级（名次）； mj给对象j作出评价的专家总数。评价等级和越小的对象，相对重要性越大。,151

55、, 专家意见的协调程度可以用变异系数来表示反映的是专家对对象相对重要性评价的协调程度，亦即专家评价的一致程度。式中： Vj是全部专家对j对象评价的变异系数；,152, 对事件实现时间预测结果的处理与表达一般以中位数代表专家意见的协调程度，以上下（左右）四分点代表专家意见的分散程度。如以K表示中位数时间与进行预测的时间间距，则下四分点位于2K/3处，上四分点位于5K/3处杨奇公式。,153, 对某方案在总体方案中所占最佳比重预测结果的数据处理和表达一般以直方图表示，横坐标表示专家对该方案应占最佳比重的评价值，按一定的间距分成若干个相等的间节；纵坐标表示作出最佳比重应为该间节百分比评价的

56、专家数与全部参加评价的专家总数之比值。,154, 从若干方案中选择最佳方案评价结果的数据处理和表达注：罗马数字、表示是否考虑专家的权威程度，表示未考虑专家的权威程度，表示考虑了专家的权威程度。,155,5、德尔菲法的改进为了克服局限性，可以采取一些措施：向专家说明德尔菲法原理，使有较清楚的了解；尽可能详尽地提供与调查项目有关的背景材料；请专家将自己的判断结果分为最高值、一般值、最低值等不同程度，并分别估计其机率，以保证整个判断的可靠性，减少轮回次数；在第二轮反馈后，只给出专家意见的全距值，而不反馈中位数或算术平均数，避免发生简单求同的现象。,156,6、德尔菲法的实例之一：高新技

57、术及其产业技术预见实证研究在江苏省“十一五”科技规划前期研究过程中,在江苏省科学技术厅组织下,实施了以“需求定位”的重点高新技术及其产业的技术预见(信息技术与通信领域) ,进行了两轮次的德尔菲调查研究。调查方式采用两轮制。调查对象为相关技术领域内专家，最终选定的专家群就结构而言，学术界、产业界及政府部门大概在111 左右，专家年龄与性别的构成合理。,157,158,调查问卷设计主要内容包含：技术预见的目标及预见程序说明，备选技术项目清单，指标体系及指标解释；在第一轮调查中，问卷还有补充说明栏、供增补项目的附页；第二轮问卷(如表1) 是在第一轮的基础上再次函询专家，问题更为集中明确。第一轮发出问卷243 份，回函147 份，有效131 份；第二轮发出136 份，回函97 份，有效97 份。,159,160,161,“德尔菲”调查结果与分析第一轮“德尔菲”调查总体目标是确定关键技术候选清单，为成功实施第二轮德尔菲调查奠定基础。这一目标的实现体现在三大方面： 1 、

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Chapter 4 信息分析方法

文档简介

温馨提示

最新文档

评论

Chapter 4 信息分析方法

文档简介

温馨提示

最新文档

评论

相关文档