管理信息-第6章6.3信息处理统计学方法

上传人：汤*** IP属地：北京上传时间：2022-11-29 格式：DOCX 页数：67 大小：1.24MB 积分：15 举报 版权申诉

免费预览已结束，剩余62页可下载查看

 付费下载

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

6.36.36.3.16.3.26.3.36.3.46.3.5信息处理的方统计学方

人工智能方

数据库技

可视化技...

机器学...

不确定信息处网理...

...

...6.3.16.3.1相关分析（oysis），相关分析是研究现象之间是否程度，是研究随量之间的相关关系的一种统计方法。一切客观事物都是相互联系的，任一事物的变化都与其周围的其他事物相互联系和相互影响。客观现象之间的相互联系，可以通过一定的数量关现象之间的关系形态有两种：函数关系和统计相关关在实际问题中，许多变量之间的关系并不是完全确定的，例如居民家庭消费与居民家庭收入这两个变量的关系就不是完全确定的。用相关系数描述相关关系的程度和方向，用rYXr1r1Y与X间是-1r<1,X,Y变化的方向一致，如身高与体重的关系，则称为正相关，r>0X,Y变化的方向相反，如吸烟与肺功能的关系，则称为负相关，r<0r=0表示无线性相关:||r| |r| 0.5|r| 0.3|r|< |r| 身体身体身体1 用EXCEL即可实现 6.3.26.3.2类之间的差别尽可能地大，类内的差别尽可能地小，换句话说，聚类方法的问题是样本间的相似性度量，通常用距离聚类分析中的常用距离计算方 Euclidean

d(xi

,xj

[(xikkp

)2]Manhattan

d(xi,xj)|k

xjkMinkowski

pp)[|k

(m显然当m1时就是Manhattan距离，m2时就是Euclidean距离在实际应用时常分析两个对象之间的相对距离，这时需要对对象的属性进行标准化处理，然后用标准化数据计算距离。聚类分层次聚类法是根据给定一类，然后相继将两个最近类合并成一个新类，直到所聚聚类分动态聚类动态聚类法是对于给定的n个样本，先粗略地形成k个类、每个类至少有一个样本并且每个样本精确地属于一个类，然后按照某种原则进行修正，直至分类比较合理为止。选择选择聚合分类是否合不合修改分最终分初始分6543210 12聚聚类分n个数据对象任意选择k如果条件不满足则回到步骤（2）用该方法。例如在销售业企业，聚类分析可被用来发现不同的客户群，并且通过模式刻画不同的客户群的特征。消费同一种类的商品或服务时，不同的客户群有不同的消费特点，通过研究这些特点，企业可以制定出不同的组，从聚类分析是细分市场的有效工具，同时也可用于研究消费者行为，寻找新的聚类分析还可以用于土地使用:在一个陆地观察数据集中标识那些土地使用相似的地保险:对了，标识那些有较高平均赔偿成本的客户；城市规划:根据类型、价格、地理位置等来划分不同类型的住宅；研究:根据地质断层的特点把已观察到的中心分成不同的类判别判别分判别分析(分类判别分析或分类是指在得到一个新的样本数据时，判别该样本所属类别朴素(Bayes)判别方法：朴素（naive）判别法是依据据点属于各类的可能性大小对数据点进行分类，采用的准则是把数据点分类训练数据到可分类训练数据分分类结新数（或检验数据集IFIFrank=ORyears>THENtenured=Assistant3ssistant727Assistant63(Jeff,(Jeff,Professor,Assistant275Assistant76.3.4分回归分析是应用极其广泛的数据分析方法，它基于样本数据建立变量间的统计依赖关系，并用一定的数学模型表示出来。回归分为线性回归模型和非线性回归模型等，但回归分析研究一个或多个随量Y1,Y2,…,Yi与另一些变量X1,X2,…,Xk之间的依赖关系。通常称Y1,Y2,…,Yi为因变量，X1,X2,…,Xk为当因变量和自变量为线性关系时，它是一种特殊的线性模型。最简单的情形是一个自变量和一个因变量，这叫一元线性回归，即模型Y=a+bX+这里X是自变量，Y是因变量，ε是随机误差回回归分200增重增重(g)160140120100600 700 800 900 1000进食量大白鼠的进食量与增加体重回归直（1）因素分析。同作用的结果。例如在医学研究中,有关生存与,发病与未发病,与阳等结果的产生可能与的、、生活、遗传、病史等许多因素有。使用回归分析，我们可以发现到底是哪些因素对结果产生了影响，从而帮助我们的判断。（2）。经常取决于对两个或个变量的分析。其中，两个变量归。例如，费和销售收入之间的关系是一元回归，而消费支出与收入及商6.3.56.3.5tt时间序列(上证指数三日学模型，从而达到认识事物、了解其变化规律的目的。当模型建立完成后就能根据模型对事件进行或控制。n的时间序列样本为x1,x2xn点的

x ...

n这种方法只适合时间序列比较稳定的情况，它时移动平均法基于假设未来的序列与近期的序列有关，而与过去较远的序列关系不大。移动平均法的分析思路是每完成一次，就要舍弃最旧的一个数据而补充的ˆ

...

借助于因子，用当前的实际值（新信息）去修上次的值，来得到下次的值指数滑动平均法只需要三个数据：最近期的值、最近期的实际值、平滑系数（或因子）。实际上它是借助于因子用当前的实际值（新信息）去修正上次的值，来得到下次的值，因此该方法有自我调节的作用。ˆt

)ˆt

(xt

ˆt利用上式作需要初始值，可用第一个实际值x1作为初始值，或用实际平均值作为初始值。α的取值视具体情况而定。若数据波动不大α应取较小值，如0.1、0.2；反之，可取较α的取值应该经例：我们考虑表中的数据。这些数据是某个油批发商在过去12周的汽油销售量。根据表中的汽油销售量时间序列，用指数滑动平均法进行周销售量（千公升周销售量（千公升139456.3.5周(t时间序列值(xt指数滑误差 xtˆt 12345-6-78-96.46.4机器学习的主要任务是从模拟人类的学习行为出发，研究客观世界和获取各种知识与技能的一些基本方法，并借助于计算机科学与技术原面向任务的研究。建立面向任务且具有特定应用的学习些信息，学习部分利用这些信息修改知识库，以增进系统执行部分机器学习使用的学习方法主要是归纳法和演绎法归纳法主要基于观察对象来形成一般性知识，提取事物的一般规律；它是一种从个别到一般的推理，产生的知识是先前知识库中所没有的；演绎法是用知识库中已有的知识来形成新的知识，如基于解释的学习是利用先前的知识来解释新的事件，然简化该解释并存放于知识库（1）（1）急否A危否A急是A急否A急否A急是B急是A危否B危是A危是B急否A危否B危否A危是B样本数据（1）（1）心病A手危急否是BAAB图示决策树是一个状收入邀邀R1：IF状收入邀邀R2：IF状况=学生AND>=21ANDGPA<3.0THEN不邀请R3 IF状况=学生ANDANDGPA>=3.0THENR4：IF状况=失业THENR5：IF状况=受雇AND收入THENR6：IF状况=受雇AND收入THEN（1）决策树方（1）决策树（1）决策树方设S是s个数据样本的集合。假定类标号属性具有m个不同值，定义m个不同类i（＝1，2，…，m）。设i是类i中的样本数。对一个给定的样Is1,s2 ,sm

pilog

pi其中pi是任意样本属于Ci的概率，并用si/s设属性具有v个不同值｛a1，2，…，v｝。可以用属性将S划分为v个子集｛S1，S2，…，SV｝；其中，Sj包含S中这样一些样本，它们在A上具有值aj。如果A选作测试属性（即最好的属性），则这些子集对应SijSjCiAEA1 s1js2j 其中s1js2j S定的子集s

Is1j,s2j ,smjmm

logpijS其中，pij 是Sj中的样本属于类CiSA

GainAI Gain(A)称为信息增益，它是由于知道属性A的值而导致的熵的期望压缩。具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点，并以该属性（1）类别：电1高否一不会2高否良不会3高否一会4中否一会5低是一会6低是良不会7低是良会8中否一不9低是一会中是一会中是良会中否良会高是一会中否良不会（1）决策树（1）决策树方解：s＝14，类标号属性“电”有两个不同值（即｛会，不会｝），因此有两个不同的类（即m＝2）。设类C1对应于“会”，类C2对应于“不会”。s1＝9，s2＝5，p1＝9/14，p2=5/14。①计算对给定样本分类所需的 Is1,s2I9,5pilogpi14

先计算属性“”的熵

对于＝“<=30”：s11＝2，s21＝3，p11=2/5，p21Is,

I2,32log23log3

对于＝“31…40”：Is, I4,04log10 对于Is,

I3,23 32 2

2 2E

5Is,

Is ,

Is,

Gain()=I(s1,s2)–E()=0.246计算“收入”对于收入＝“高”Is,

I2,22 22 2

2 2对于收入＝“中等”Is,

I4,24 42 2

2 2对于收入＝“s133，s231，p133/4，p23Is,

I3,13 31 1

2 2如果样本按“收入”划分，对一个给定的样本分类所需的期望信息E收入

4Is,

Is ,

Is,

因此，这种划分的信息增益Gain(收入I(s1,s2E(收入)=0.940-0.911＝0.029计算“学生”对于学生＝“Is,

I6,16 61 1

2 2对于学生＝“否”Is, I3,43 34 4

2 2如果样本按“学生”划分，对一个给定的样本分类所需的期望信息E学生7Is

Is ,

因此，这种划分的信息增益

Gain(学生)=I(s1,s2)–E(学生)=0.940-0.789＝0.151计算“信用等级”对于信用等级＝“一般”Is,

I6,26log62log2

2 2对于信用等级＝“良好”s12=3，s22=3，p12=3/6，p22Is,

I3,33 33 3

2 2如果样本按“信用等级”划分，对一个给定的样本分类所需的期望信息为E信用等级8Is

Is ,

因此，这种划分的信息增益

Gain(信用等级I(s1,s2E(信用等级0.940-0.892＝0.048由于“”属性具有最高信息增益，它被选作测试属性。创建一个节点，用“”标记，并对每个属性值引出一个分支。样本据此划分，如图所示。（1）决策树（1）决策树方收入学生收入学生信用等级类高否一不高否良不中否一不低是一会中是良会收入学生信用等级类中否一会低是一会低是良不中是一会中否良不收入学生信用等级类高否一会低是良会中否良会高是一会收入学生信用等级类收入学生信用等级类高否一不高否良不会中否一不低是一会中是良会当<=30时，对应于表1。S＝5，设类C1对应于“会”，类C2对应于“不s1＝2，s2＝3，p1＝2/5，p2=3/5 Is1,s2I2,3pilog2pi5

先计算属性“收入

对于收入＝“先计算属性“收入”的熵对于收入＝“高Is,

I0,22 2

2对于收入＝“中等”：Is ,

I1,11 11 1

2 2对于收入＝“低”：Is13,s23I1,0如果样本按“收入”划分，对一个给定的样本分类所需的期望信息E收入

2Is, 2Is ,

1Is,

因此，这种划分的信息增益Gain(收入I(s1,s2)–E(收入)=0.971-0.0.4＝0.571计算“学生”的熵对于学生＝“是Is,

I2,02 2

2对于学生＝“否”：Is12,s22如果样本按“学生”划分，对一个给定的样本分类所需的期望信息为E学生2Is

3Is ,

5因此，这种划分的信息增益

Gain(学生I(s1,s2E(学生)=0.971-0＝0.971计算“信用等级”的熵对于信用等级＝“一般Is,

I1,21 1 2

2 2对于信用等级＝“良好Is,

I1,11 11 1

2 2如果样本按“信用等级”划分，对一个给定的样本分类所需的期望信息为E信用等级3Is

2Is ,

5因此，这种划分的信息增益

Gain(信用等级)=I(s1,s2)-E(信用等级)=0.971-0.951＝0.02表2收入学生信用等级类中否一会低是一会低是良不会中是一会中否良不会??会否是不会不会“电脑”的决策关联规则挖掘在交易数据、关系数据或其他信息载体中，查找存在于项目应用：购物篮分析、交叉销售、设计等举例规则形式：“BodyHead[support,confidence]”.buys(x,“diapers”)=>buys(x“beers0.5,606.5在管理中经常面对一些不确定信息。不确定性来自人类认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性，都反映不确定性造成了具有相同描述信息的对象可能属于不同的概念。提高处理不确定性信息的有效性，对帮助决策具有重要意义。1、概率任何一个模式X的出现具有随机性，用概率P(X)决定X发生的可能性大小，从而决定X2、模糊集理模糊信息本身是确定性的，但其特征无法用精确数学工具描述和刻划(属性值确定，概念模糊)。模糊信息的特征用模糊集刻划，它给出了总体中的元素与所刻划的特征之间的隶属程度。(隶属函数)设ai表示属性“”，当ai的值域是离散的且为{幼儿,儿童,少年,青年,中年,老年}时，某对象是否是中年由属性ai的值完全确定，此时只有当ai(xj)＝“中年”时，隶属度为1，其余为0；当ai的值域是连续区间(0,120)时，若中年的概念是精确地定义在[40,50]段，则隶属函数是分段

(ai(xj))

ai(xj 其若中年的概念是模糊的，如大约5左右，则隶属函数可能是某种正态分布。3、灰集理灰信息所刻划的对象是指部份信息已知,部份信息未知。灰信息处理的目标是把未知信息变为已知信息的过程,即信息白化。它用上下隶属度函数将灰集中的未知信息约束在两个模糊集之间。4、未确知有理未确知理论是用来处理一类客观上是确定的但上无法获得的一类信息，如“某建筑物的重量是多少”。利用置信度模型分析未确知信息(x是确知成份a的置信度)集对理论与5、集对理集对分析用联系度统一处理模糊、随机、信息不完全所导致的系统不确定性。其基本思想是系统中不只存在某个单纯的不确定性信息,而是多种不确定性都存在。6、理是指我们的经验、知识以及对问题的观察和研究的结果，用基本可信度分配来描述。理

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

管理信息-第6章6.3信息处理统计学方法

文档简介

温馨提示

最新文档

评论

管理信息-第6章6.3信息处理统计学方法

文档简介

温馨提示

最新文档

评论

相关文档