数学建模中常用的数据处理方法.pdf_第1页
数学建模中常用的数据处理方法.pdf_第2页
数学建模中常用的数据处理方法.pdf_第3页
数学建模中常用的数据处理方法.pdf_第4页
数学建模中常用的数据处理方法.pdf_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、市场占有率问题(红色为常用信息) 一个企业的销售量(或销售额)在市场同类产品中所占的比重。直接反映企 业所提供的商品和劳务对消费者和用户的满足程度, 表明企业的商品在市场上所 处的地位。市场份额越高,表明企业经营、竞争能力越强。市场份额根据不同市 场范围有 4 种测算方法: 1.总体市场份额。指一个企业的销售量(额)在整个行业中所占的比重。 2.目标市场份额。指一个企业的销售量(额)在其目标市场,即它所服务的 市场中所占的比重。一个企业的目标市场的范围小于或等于整个行业的服务市 场,因而它的目标市场份额总是大于它在总体市场中的份额 。 3.相对于 3 个最大竞争者的市场份额。 指一个企业的销售量和市场上最大的 3 个竞争者的销售总量之比。如:一个企业的市场份额是 30,而它的 3 个最大 竞争者的市场份额分别为 20,10,10,则该企业的相对市场份额就是 30 4075,如 4 个企业各占 25,则该企业的相对市场份额为 33。一 般地,一个企业拥有 33以上的相对市场份额,就表明它在这一市场中有一定 实力。 4.相对于最大竞争者的市场份额。 指一个企业的销售量与市场上最大竞争者 的销售量之比。若高于 100,表明该企业是这一市场的领袖。 二、顾客满意度问题(红色为常用信息) 2.1 顾客满意度概述 确定顾客满意程度的指标和顾客满意级度是对顾客满意度进行测量控制的 关键问题。顾客满意度是评价企业质量管理体系业绩的重要手段。为此,要科学 确定顾客满意度的指标和满意度的级度并对顾客满意度进行测量监控和分析,才 能进一步改进质量管理体系。 2.2 顾客的需求结构 要建立一组科学的顾客满意程度的评价指标,首先要研究顾客的需求结构。 经对顾客作大量调查分析,顾客需求的基本结构大致有以下几个方面: 1品质需求:包括性能、适用性、使用寿命、可靠性、安全性、经济性和 美学(外观)等; 2功能需求:包括主导功能、辅助功能和兼容功能等; 3外延需求:包括服务需求和心理及文化需求等; 4价格需求:包括价位、价质比、价格弹性等。 组织在提供产品或服务时,均应考虑顾客的这 4 种基本需求。但是,由于不 同国家地区、不同的消费人群对这些需求有不同的需求强度。在消费后又存在一 个满意水平的高低。当顾客需求强度高时,稍有不足,他们就会有不满或强烈不 满,当需求强度要求低时,只需低水平的满足即可。 例如,购买彩色电视机,由于人们收入水平和消费心理的不同,对电视机的 功能、款式、价格有不同的需求强度。收入丰厚的人们,喜欢高档名牌,因此对 品质和功能需求的强度要求就高,而对价格需求不强烈。也就是说,当品质和功 能不满足他们的要求时,就会产生不满或强烈不满。对低收入工薪族,他们消费 心理追求价廉物美,以实惠为原则,因此对价格和服务的需求强度要求高,价格 高、服务差,是他们产生不满的主要因素。而对功能需求强度则不强烈。 因此,企业应该根据不同的顾客需求,确定主要的需求结构,以满足不同层 次顾客的要求,使顾客满意。 2.3 顾客满意指标 满意,是对需求是否满足的一种界定尺度。当顾客需求被满足时,顾客便体 验到一种积极的情绪反映,这称为满意,否则即体验到一种消极的情绪反映,这 称为不满意。 顾客满意,是指顾客对某一事项已满足其需求和期望的程度的意见,也是顾 客在消费后感受到满足的一种心理体验。 顾客满意指标,是指用以测量顾客满意程度的一组项目因素。 要评价顾客满意的程度,必须建立一组与产品或服务有关的、能反映顾客对 产品或服务满意程度的产品满意项目。由于顾客对产品或服务需求结构的强度要 求不同,而产品或服务又由许多部分组成,每个组成部分又有许多属性;如果产 品或服务的某个部分或属性不符合顾客要求时,他们都会作出否定的评价,产生 不满意感。 2.4 顾客满意级度 顾客满意级度指顾客在消费相应的产品或服务之后,所产生的满足状态等 次。 前面所述,顾客满意度是一种心理状态,是一种自我体验。对这种心理状态 也要进行界定,否则就无法对顾客满意度进行评价。心理学家认为情感体验可以 按梯级理论进行划分若干层次,相应可以把顾客满意程度分成七个级度或五个级 度。 七个级度为:很不满意、不满意、不太满意、一般、较满意、满意和很满意。 五个级度为:很不满意、不满意、一般、满意和很满意。 五个级度的参考指标类同顾客满意级度的界定是相对的,因为满意虽有层次 之分,但毕竟界限模糊,从一个层次到另一个层次并没有明显的界限。之所以进 行顾客满意级度的划分,目的是供企业进行顾客满意程度的评价之用。 2.5 顾客满意度的分值与加权 为了能定量地进行评价顾客满意程度,可对顾客满意七个级度,给出每个级 度得分值,并根据每项指标对顾客满意度影响的重要程度确定不同的加权值,这 样即可对顾客满意度进行综合的评价。 例如,某企业对其产品的质量、功能、价格、服务、包装、品位进行顾客满 意调查,按七个级度,从很不满意到很满意的分值分配表如表 1: 调查结果如表 2: 从计算结果可以看出,该产品的顾客满意度得分是 23.3,属于“较满意” 的产品。但是,由于顾客对每个属性的要求程度不同,因此,应根据顾客对评价 指标的重要程度进行分值加权,则更能科学地反映出顾客的满意程度。同例,该 企业对质量、功能、价格、服务、包装、品位,根据其对顾客满意的影响程度确 定的加权值分别为 0.3、0.1、0.35、0.15、0.05; 则其满意度= ii x k ,见表 3: 显然两种方法计算的结果是不同的,加权法为 40,处于满意水平,而简单 分值法仅为 23.3,处于较满意水平。而实质上,顾客对产品的总体感受应是满 意水平。所以利用加权法更能准确的反映顾客的满意状态。加权法的加权值,企 业可以根据经验、专家评定或调查等方法进行确定。 2.6 顾客满意信息的收集与分析 is09004:2000 的 8.2.1.2 条中对如何收集顾客满意信息的方式、内容及渠 道都作了较具体提示。 收集顾客满意信息的方式是多种多样,包括口头的和书面的。企业应根据信 息收集的目的、信息的性质和资金等来确定收集信息的最佳方法。收集顾客满意 信息的渠道有个方面: 1顾客投诉 2与顾客的直接沟通 3问卷和调查 4密切关注的团体 5消费者组织的报告 6各种媒体的报告 7行业研究的结果 标准要求,企业应对顾客满意信息的收集进行策划,确定责任部门,对收集 方式、频次、分析、对策及跟踪验证等作出规定。 收集顾客满意信息的目的是针对顾客不满意的因素寻找改进措施,进一步提 高产品和服务质量。因此,对收集到的顾客满意度信息进行分析整理,找出不满 意的主要因素,确定纠正措施并付之实施,以达到预期的改进目标。 在收集和分析顾客满意信息时,必须注意两点: 1顾客有时是根据自己在消费商品或服务之后所产生的主观感觉来评定满 意或不满意。因此,往往会由于某种偏见、情绪障碍和关系障碍,顾客心中完全 满意的产品或服务他们可能说很不满意。此时的判定也不能仅靠顾客主观感觉的 报告,同时也应考虑是否符合客观标准的评价。 2顾客对产品或服务消费后,遇到不满意时,也不一定都会提出投诉或意 见。因此,企业应针对这一部分顾客的心理状态,利用更亲情的方法,以获得这 部分顾客的意见。 三、异常数据的挖掘和处理 1 在预测与决策时,经常需要对所要研究的对象进行分析和收集数据,从大量 的统计数据中找规律,而这些数据真实与否直接影响分析结论的科学性。在多数 情况下会发现,统计来的数据是按照某一规律且起伏并不是很大,但其中都可能 混有“异常数据”,这些异常数据是由异常因素(例异常时间、干扰或误差等) 造成的与大多数观察值不一致。 有些异常值可能是在统计时度量或执行错误所得 到的, 在分析过程中应剔除的, 但有些数据非任何统计错误所致不能简单地剔除, 否则可能导致重要的隐藏信息丢失 2 ,特别有些异常数据非常有价值,若剔除则 可能影响到结论的科学性。因此,对于异常数据的挖掘及处理(利用)是值得研究 的问题。 3.1 异常数据的挖掘方法 所谓数据挖掘就是按照既定的目标, 对大量的统计数据进行探索, 揭示隐 藏其中的规律并进一步将之模型化的一种先进有效的方法。 对异常数据的挖掘我 们认为实际上就是识别统计数据是否为异常值,挖掘过程实际上是识别过程,可 以用以下几种方法进行挖掘: 3.1.1 3检测法 2 一般统计数据若没有明显的上升或下降趋势(若是时间序列一般为平稳的时 间序列),都分布在其均值周围,标准差能反映其离散程度。统计数据可以是 来自某一总体的样本。如果是一般总体,可以由概率统计中的切贝谢夫不等式知 道,对于任意的0,有: 2 2 ()p xe x 特别地有, 2 2 1 ()3 (3 )9 p即统计数据与其均值的偏差超过3xe x =,的 ;若总体为正态的,比例不超过1/则由不等式9()3 21(3)p xe x= ,即在正态分布下,统计数据与平均值的离差大于 0.0273的仅为0.27%,所以 可将那些有均值之差的绝对值超过3的统计数据视为异常数据。 根据概率论中的中心极限定理, 大多数总体在统计数据比较多时服从正态分 布,因此3检测法在实际中比较常用。当然它的局限性是只适用于单维异常数 据的挖掘。 例如: 下面列出了86个伊特拉斯坎 (etruscan) 人男子的头颅的最大宽度(单 位: 141148 132 138 154 172 172 150 142 115 115 用matlab可以求得:测量数据的均值 mm),检验此次调查的数据是否存在异常: 146 155 158 150 140 147 148 144 150 149 145 149 158 143 141 144 144 126 140 144 142 141 140 145 135 147 146 141 136 140 146 142 137 148 154 137 139 143 140 131 143 141 149 148 135 148 152 143 144 141 143 147 146 150 132 142 142 143 153 149 146 149 138 142 149 142 137 134 144 146 147 140 142 140 137 152 145 143.77x =,7.34=。运用3准则, 所有测量数据均应在33xx+,范围内,即x121.74,165.80。我们发现 这可能是由于测量时的某些客观条件的影响 是研究分类问题的一种多元统计分析方法。在聚类分 析的 据变换,常用的方法有: 数据中的172和115不在上述范围内, 所致,因此可视为异常数据。 3.1.2 聚类分析法 3 聚类分析又称群分析, 过程中, 将样品或变量按相互之间距离的大小或由相似系数反映出的相近性 聚成若干类,常用的距离有欧氏距离、马氏距离、兰氏距离等,马氏距离可以排 除指标之间相关性的干扰且不受量纲的影响,最为实用。根据聚类的结果,距离 较小或相似系数大的可以聚为一类,但最终聚成几类,并没有严格的限制。如果 存在几个样品,聚合成哪一类都不合适,或与其它样品的距离都比较远,那么就 可断定这些样品数据为异常数据。 1、数据在聚类分析之前要进行数 * 中心化变换: ijijj xxx= (1,2, ;1,2,)in jm=ll,变换后的数据均 值为0,而协方差不变; 标准化变换: *ijj ij j xx x s = m(1,2, ;1,2,)in j=ll,其中是标准差; 变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据 极差标准化变换: j s 与变量的量纲无关; *ijj ij j xx x r = m(1,2, ;1,2,)in j=ll,其中 j r是极 差;极差为1,且变换后的数据,每个变量的样本均值为0,1 ij x =ll * ln() ijij xx=m,它可将具有指 数特征的数据结构变换为线性数据结构。 它们的主要做用时吧非线性数据结 构变为线性数据结构,以适应某些统计方法的需要。 它的基本步骤如下: 离)矩阵 。此时类间的距离就是样品间的距离(即), 此外,还有平方根变换,立方根变换等, 2、由聚类分析法的基本思想,即可得出 数据变换:常用的数据变换方法在上面已经详细举出。数据变换的目的时 为了便于计算和比较,或改变数据的结构; 计算n各样品两两间的距离,得到样品间的距离(常用欧式距 (0) d; 初始(第一步:1i =)n个样品各自构成一类,类的个数kn=,第i类 ( )ii gx= 然后对样品 (1,2,in=l ( )i ) (1)( dd= 0) x(1,2, )in=l执行并类过程和; (1)i d 对步骤得到的距离矩阵,合并类间距离最小的两类为一新类,此 时类的总个数减少一类,即k1kni= +; 计算新类与其它类的距离,得到新的距离矩阵,若合并后的总个数仍大 于1,重复步骤和; 1.1中的头颅的最大宽度的数据,按照聚类方法的步骤 得到 k 画谱系聚类图; 决定分类个数及各类的成员。 3、举例:同样使用3. 谱系图为: 140 140 141 l 158 172 158 142 137 126 115 l l ll ll 当时,即分为三类时, 为: 我们发现这三类相互之间的距离都比较远,且远远大于了时的距离,根据 聚类分析法的思想可断定115和172为异常数据。这与前面的 3k = 此时的距离矩阵 (3) 1 115g= (3) 2 126,158g=l (3) 3 172g= (84) d (3) 1 g (3) 2 g (3) 3 g (3) 1 g (3) 3 g (3) 2 g 11630 0 014 3k 3检测法得出了相 3.1.3 回归分析法 对收集来的统计数据大多数是符合某种规律或服从某种分布的, 首先对原始 数据作变换(开方法、对数法等)并同时认为这些数据都满足线性回归模型,对数 据进行回归。在回归分析下,可以从残差分析和影响分析判断。残差分析法是用 模型进行预测得到残差, 从残差中发现那些拟合效果差的来判别哪些数据是异常 值;影响分析主要是探察对统计推断(如估计或预测)有较大影响的试验数据,我 们期望每组数据对统计推断有一定影响但不要过大,若某组数据的影响过大,则 是一种很常用的数据统计分析方法,这里不再详细说明其基本步 ,仅用举例的形式说明其在已成数据挖掘中的应用。 品的销量进行调查,并考虑有关的四个因素: 同的结论。 包含这组数据的经验回归方程与不包含这组数据的经验回归方程差异较大, 于是 经验回归方程关于这组数据就不具有稳定性,就可以认为这组数据出现异常。 回归分析 骤 yx例如:对某种商-居民可 1 支配收入指数, 2 x-该商品的平均价格指数, 3 x-该商品的社会保有量, 4 x-其 他消费品平均价格指数。下面是调查数据: 1 x 82.9 88 99.9 105.3120.7131 148.2161.8 174.2 184.7 2 x 92 93 96 94 100 101 105 112 112 112 3 x 17.1 21.3 25.1 29 34 40 44 49 51 53 3 x 94 96 97 97 100 101 104 109 111 111 y 8.4 9.6 10.4 11.4 12.2 14.2 15.8 17.9 19.6 20.8 我们运用matlab回归工具箱,键入以下命令: clear;clc; x1=82.9 88 99.9 105.3 120.7 131 148.2 161.8 174.2 184.7; x2=92 93 96 94 100 101 105 112 112 112; 3=.1 2 2529 30 4 5; x4=94 96 97 97 100 101 104 109 111 111; x=ones(1,10);x1;x2;x3;x4; =yinvx) b,bint,r,rint,stats=regress(y,x) figure() coplot(r,rint) x171.3.1 4 44 491 53 y=8.4 9.6 10.4 11.4 12.2 14.2 15.8 17.9 19.6 20.8; a*x*(x*; r 由返回的决定系数 2 0.9976r=、f统计量值f514.1=、统计量对应的概 率值型的 残差 f ( )0p f=可以看出,该回归模型的回归效果是显著的。并且得到回归模 图,如图所示: 由图可以看出,第5组数据的残差最大,已经超过了其置信区间的范围,因此可 以判定第5组数据是异常数据。 3.2 异常数据的处理方法 可以根据以上的方法把异常数据挖掘出来,异常数据挖掘出后,就需要正确 处理这些异常数据。有些确实是误差引起的或无用的干扰引起的可以把它剔除, 但有些非常重要的信息必须留下。对收集来的数据,分析其特征,然后通过以下 几种方法处理: 3.2.1 异常数据的剔除 在处理实验数据的时候, 我们常常会遇到个别数据偏离预期或大量统计数据 + 结果的情况,如果我们把这些数据和正常数据放在一起进行统计,可能会影响实 验结果的正确性,如果把这些数据简单地剔除,又可能忽略了重要的实验信息。 里重要的问题是如何判断异常数据,然后将其剔除。判断和剔除异常数据是数 据处理中的一项重要任务,目前的一些方法还不是十分完善,有待进一步研究和 一个置信概率,并确定一个置信限,凡超过此限的误差,就认 它不属于随机误差范围,将其视为异常数据剔除。 是区别异常数据由偶然误差还是系统误差造成的问题。 若是 这 探索。 目前人们对异常数据的判别与剔除主要采用物理判别法和统计判别法两种 方法。物理判别法就是根据人们对客观事物已有的认识,判别由于外界干扰、人 为误差等原因造成实测数据偏离正常结果,在实验过程中随时判断,随时剔除。 统计判别法是给定 为 剔除异常数据实质上 人为因素的偶然误差就应剔除, 如果没有足够的理由证实是偶然过失造成的 时候,应对数据进行统计处理,采用一定的检验方法来决定取舍。 1、3准则(拉依达准则) 若可疑数据 d x与样本数据之算术平均值的偏差的绝对值大于 3 倍(2 倍)的 标准偏差,即: 3 d xx 则应将 d x从该组数据中剔除, 至于选择3倍的标准偏差3s还是2倍的标准差2s与 显著性水平有关,显著性水平表示的是检验出错的几率为,或检验的可置 信度为1。3s相当于显著水平为 0.01,2s相当于显著水平0.05。 2、格拉布斯准则 d x时,选取一定的显著性水平用格布斯准则检验可疑数据拉,若: ( , ) d xxgn s 则应将 d x d x测量数据;x测量数据平均值; s从该组数据中剔除,中:式 贝塞尔公式计算的标准差;( , )gn称为格拉布斯检验临界值,可查相关表格得 到。 以上准则是以数据按正态分布为前提的,当偏离正态分布,特别是测量次数 少时,判断的可靠性就差。因此,对粗大误差除用剔除准则外,要保证测量条 件稳定,防止因环境条件剧烈变化而产生的突变影响。 狄克逊研究了次测量结果,按其数值大小排列成如下次序: 很 3、狄克逊(dixon)法 n (1)(2)(xxxln 当( )x i服从正态分布时用不同的公式求得f值, 再经过查表, 得到相应的临界, 进行比较。若计算值大于(f n 值 , )视为异常值,舍弃;再对剩余数值进行检验, 直到没有异常值为止。狄克逊通过模拟实验认为:7n ,使用 10 f;0,81n 用 11 f;1113n,用 21 f;14n ,用 22 f效果好。 ( , )f n f的计算公式 n (1)x0.01= 0.05=可用时 ( )x n可用时 3 0.998 0.941 4 0.889 0.765 5 0.780 0.642 6 0.698 0.560 7 0.637 0.507 (2)(1)xx ( )(1)x nx ( )x n(1)x n ( )(1)x nx 8 0.683 0.554 9 0.635 0.512 10 0.597 0.477 (2)(1)x (1)(1) x x nx ( ) ( ) x n x n (1) (2) x n x 11 0.679 0.576 12 0.642 0.546 13 0.615 0.521 (3)(1) (1)(1) xx x nx ( ) ( x n x n (2) ) x n (2)x 14 0.641 0.546 15 0.616 0.525 16 0.595 0.507 17 0.577 0.490 18 0.561 0.475 19 0.547 0.462 20 0.535 0.450 21 0.524 0.440 22 0.514 0.430 23 0.505 0.421 24 0.497 0.413 25 0.489 0.406 (3)(1) (2)(1) xx x nx ( ) ( ) x n x n (2) (3) x n x 4、肖维勒准则 对相同精度相互独立测量所得数值,若测量值 d x满足: dnd x xx 时, 即异常剔除;为值,应式中 n 与测量值的测试次数有关。 5、 将可 n t检验法 疑值 d x以外的值当作一个总体,并假定该总体呈正态分布(严格来说, 样本是否是正态的需要进行判断,但在实际应用中,可以将很多样本近似认为是 d x d x正态的),而将可疑值当作一个样本容量为1的特殊总体。如果与其余值同 属一个总体,则它与其余值之间不应有显著性差异,由 d x计算得到统计量k。 d xx k s = 式中 : i x为可疑值s以样本数据算术平均值; 差。分布表所得的值进行比较, 外的为可疑值以外的样本数据标准 将值与查t大于显著性水平(常取0.05)下的t 检验值,则表明 d x的出现是一个小概率事件,可以考虑为异常值,将其舍去。 例题:对某进行等度测量得到一组测量数据: 10.002,10.102,10.203, 10.204,10.208,10.218,10.220,10.228,10.230,10.232,10.302,10.312,10.320 ,10.342,10.346,分别用以上四种方法判断并剔除异常值,取置信概率 95%(即 精 0.05=是) 计算或查表得出:,(0.052.41g0.0192=,10.2313x,15) =, 15 0.1943=, (0.05,)0.525f=,(0.05,14)0.546f15=,查t分布表得2.1315 t k=。 拉依达准则:20.1824=,10.002 10.23132,1 .1010.2313202, 又因为0.05=,所以 10.002 和 10.102 应剔除; 格拉布斯准则:10.002 10.2313( , )gn,10.002 10.2313( , )gn, 所以 10.002 和 10.102 应剔除; (3)(1) 0.6321(0.05,15) (2)( 狄克逊法: 1)x n xx ff x = ,需要剔除数据,剔除 10.002 后, (3 (0 05,14) x f, 15 10.002 10.2313 ,因此可 以剔除 10.002,除去可疑数据后的数据的标准差为 , 10.002 和 10.102; t检验法:可疑数据为 0.0680s = 1 10.002 10.2313 3.3721 0.0680 t kk=,因此须剔除;剩余数据中可疑数 ,据为 10.102,0.0680s = 1 10.102 10.2313 3.3172 0.0558 t kk =,因此 10.102 也可 剔除。 综上,我们用所有的方法对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论