z分数规范化_第1页
z分数规范化_第2页
z分数规范化_第3页
z分数规范化_第4页
z分数规范化_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

z 分数规范化篇一:成绩标准化的研究及改善成绩标准化的研究及改善 专业:经济学 班 级: 学生姓名:张越 学生学号: 成绩标准化的研究及改善 摘要:评价学生学习效果的基础就是公平的考试成绩,但考试成绩的分布很有可能不符合正态分布,针对原始成绩标准化一般方法的局限,提出了对成绩标准化的进一步改进方法,用来确保成绩的评定更加公平、客观。 关键词:成绩标准化;公平客观 一、引言 评价学生学习水平、反映教师教学效果的重要指标就是考试成绩,不仅如此,考试成绩对激励学生的进一步学习也有非常重要的作用。在今天的激烈竞争中,学生的考试成绩的作用也被进一步放大。考试成绩不仅决定了学生的排名,成为学生评定奖学金、评选先进的重要依据,而且在高考、研究生入学考试中,考试成绩更是成为学生能否被录取的硬性指标。这些现象都在客观上决定了考试成绩的评定必须是公平而客观的。 然而,在许多实际问题中要做到公平合理的评定学生成绩是相当困难的。例如,不同学科之间的差异,不同阅卷人之间的差异等等,这些因素都有可能使得成绩的评定带有一定的主观和随机性。因此,研究公平合理的成绩评定方法,采用合适的方法将原始成绩进行标准化,具有非常重要的现实意义。 二、成绩标准化的一般方法 现如今成绩的评定大多数采用的都是百分制,因为考试成绩是一种分数,本身并没有单位,因此可以直接相加求总分数,根据总分数的排名就可以对学生进行评价。但是这种方法在多数情况下是不能满足考试成绩公平合理性的要求的,对下面的案例进行分析: 借简单的相加显然是不尽合理的。为了有效克服这一弊端,目前常用的标准化方法是:y?60?10? ?xi?x(1) s?其中,y 为标准分,x 为原始成绩,x为全体考生的平均成绩 ,s 为标准差。 从本案例可以看出,数学试题比较难,因此分数普遍较低,语文比较容易,分数普遍偏高,很显然数学的一分和语文的一分所包含的分量是不同的。在没有标准化之前,甲、乙的原始总分数分别为 195 和 197,乙比甲高两分,经过简单的标准化之后,甲、乙的分数分别为和 180,甲比乙高。显然,后一个方法更合理。上面介绍的标准化方法是将均值转化为 60 分,超过均值的转化为 60 分以上,反之转化为 60 分以下。当然,也可以将均值转化为 40、50、70或者任意一个数。根据需要,可以采用下面的方法进行转化: y?a?b?xi?x(2) s?其中,a、b 为待定系数。一般认为 60 分为及格,90分为优秀。代入公式(2)联立方程 ?90?a?b?x ?s (3) ?l?x?60?a?b?s? 其中,u 为确定作为优秀分数的原始成绩,l 为确定作为及格分数的原始成绩,求解方程组(3)就可以求出系数 a、b。最后将 a、b 值代入公式(1) ,就可以求出对任意一个原始分数 x 对应的标准分数 y。 三、成绩标准化方法的改进 利用公式(1)进行标准化的前提是不同科目的分数都要呈现正态分布,否则,不同科目分数经过公式(1)转化后不具有可比性,更不能直接进行相加。譬如,如果一个科目的分数呈正态分布,而另外一个科目的分数呈偏态分布,那么相同的现行标准化方法仍然不能进行准确的比较。通常在考生人数较多的情况下,各科目成绩从理论上讲应该呈现出正态分布,但是在实际考试中,由于各科考试题目难易程度不同以及不同阅卷人的评分标准不同所造成的误差等随机因素的影响,就很难使得考试成绩的实际分布与正态分布完全吻合。因此,为了使评分更加合理有效,就需要将通常的成绩标准化方法进行进一步的改进,采取的方法是先将各个科目的原始成绩进行正态化变换,使得呈现不同分布的分数可以进行比较,然后再进行标准化。用这种方法,通过正态化变换,不论原始分数呈现出何种变换,都可以使得变换后的分数呈现出标准正态分布,因此就可以知道原始分数在整个分数中所处的位置。改进后的成绩标准化的步骤如下: (1)对原始分数进行排序,求出每个原始分数所对应的百分比 px?x 分以下的考生人数 (4) 考生人数 (2)查正态分布表,得到每个分数正态化变换后所对应的 Z 值,其中 Z 满足 ?Z ?x2dx?px(5) 2 由上式得到的 Z 就符合标准正态分布,并且 Z 可以准确保留原始数据的相对位置信息,这样就相当于通过调整分数间距从而使得不同科目之间具有一定的可比性。但是,由于 Z 的取值有正有负,并且大多数都为绝对值较小的小数,为了更方便的进行直接比较,可以进行下一步的转换:y=500+100Z (6) 经过上一步的转换后就可以得到最终的标准化成绩,这样的成绩就可以将分数的档次分开,可以比较方便直接的进行比较。例如,某同学的原始分数对应的百分比 px 为,通过查表可以知道对应的 Z 值为 0,最终的标准化分数y=500; 另外一位同学的原始分数对应的百分比为,通过查正态分布表可以知道对应的 Z 值为,其最终的标准化分数为y=。很容易的可以看出,第二位同学的分数明显高于第一位同学。合理有效的成绩标准化方法是客观公平的评价学生学习效果的基础。本文通过对在实际生活中将各科成绩简单相加,然后再根据总分来进行评价的做法,首先给出了成绩标准化的一般做法,同时考虑到考试成绩有时并不符合正态分布这一特征,提出了对考试成绩进行正态化的改进措施。当然,在实际生活中,由于阅卷人的主观因素,科目之间的差异甚至评价目标的不同,要做到真正公平合理的评定学生成绩是相当困难的。例如,有的老师分数给的普遍偏高,有的老师由于比较严厉,分数给的普遍较低;又比如当评价学生进步情况时,学生成绩从 50 分到 60 分和由 90 分增加到 100 分,对评价所起的作用是不同的,很明显,后者比前者要困难得多。因此,本文在最后就对成绩标准化方法进行了进一步的改进。 总之,通过不断的改进,就有可能使得成绩标准化方法更加趋于完善,是不同学科或者同学科不同年度与专业的考试之间具备了一定的可比性,一定程度上消除了由于考试难易程度不同,引起分数贬值或升值的问题,使得学生考试成绩的评定更加合理有效、客观公平。 参考文献: 1刘新平等,标准分数及其应用M.西北工业大学出版社,1997. 2李富涛、陈雪松,Y 方法值的借鉴考试成绩标准化处理的探讨J.考试研究,1991(1):36-40. 3董兆君,王廷治.对一组原始分数的标准化处理与重登记J.医学教育,1989, (04). 4 杨桂元.考试成绩的标准分及其在教学管理中的应用J.皖西学院学报, XX( 2) : 56 5李富涛,陈雪松.考试成绩标准化处理的探讨J.中国高考医学教育,1991, (01):34-36,18. 篇二:能力验证稳健 Z 比分数 e2CNAS-GL02:XX 能力验证结果的统计处理和能力评价指南 1 数据准备 提供给实验室的检测物品之间的所有差别已降至最小,因此结果的变异性主要有两个来源: 实验室间的变异(包括测量方法间的变动)和实验室内部的变异。我们将通过在这两种类型的变异上来评价实验室的结果和提供反馈。 在开始进行统计分析之前,应采取措施确保所采集的数据是正确、合理的。必须确保正确地输入所有提交的结果。一旦收到了所有结果(或已超过上报结果的最后期限) ,必须仔细复查输入的数据。通过这个检查过程,一般可以识别出数据中的粗大误差和潜在问题。 2 统计结果描述 完成了数据准备,就可以用总计统计量来描述结果。至少应包含七种综合的统计量结果数、中位值、标准四分位数间距(IQR) 、稳健的变异系数(CV)、最小值、最大值和极差。其中最重要的统计量是中位值和标准化 IQR它们是数据集中和分散的量度,与平均值和标准偏差相似。使用中位值和标准化 IQR 是因为它们是稳健的统计量,即它们不受数据中离群值的影响。 结果数是从一个特定检测中得到的结果总数,符号为N。 中位值是一组数据的中间值,即有一半的结果高于它,一半的结果低于它。如果 N 是奇数,那么中位值是一个单一的中心值,如果 N 是偶数,那么中位值是两个中心值的平均。 标准化 IQR 是一个结果变异性的量度。它等于四分位间距(IQR)乘以因子,其与一个标准偏差相类似。四分位间距是低四分位数值和高四分位数值的差值。低四分位数值(Q1)是低于结果的四分之一处的最近值,高四分位(Q3)是高于结果四分之三处的最近值。在大多数情况下Q1 和 Q3 通过数据值之间的内插法获得。IQR=Q3-Q1,标准化 IQR= IQR。 稳健 CV 是变异系数,稳健 CV? 极差是最大值与最小值的差值。 3 稳健 Z 比分数和离群值 为了统计评价参加实验室的结果,可使用基于稳健总计统计量的 Z 比分数(中标准化 IQR?100%。 中位值 位值和标准化 IQR) 。如果是样品对的结果(在大多数情况下) ,将计算两个 Z 比分数,即实验室间 Z 比分数(ZB)和实验室内 Z 比分数(ZW) 。它们分别基于结果对的和与差值。假设结果对是从 A 和 B 两个样品中获得的。把样品 A所有结果的中位值和标准化 IQR 分别写为中位值(A)和标准化 IQR(A), (样品 B 也类似) 。仅对一个样品 A 的结果而言,简单的稳健 Z 比分数(用 Z 表示)为: Z?A?中位值(A) 标准 IQR(A) 当根据样品对的结果 A 和 B 计算 ZB 和 ZW 时,首先计算结果对的标准化和(用 S 表示)和标准化差值(Z) ,即:A?(A?B)/2 和 D?(A?B)/2(保留 D 的+或-号) 通过计算每个实验室的标准化和及标准化差值,可以得出所有的 S 和 D 的中位值和标准化 IQR,即中位值(Z) ,标准化 IQR(D)等(这些总计统计量通常在报告表中列出,便于参加者自己计算 Z 比分数) 。 随后计算实验室间 Z 比分数(ZB)和实验室内 Z 比分数(ZW) ,即: ZB?S?中位值(S)D?中位值(D) 和 ZW? 标准 IQR(S)标准 IQR(D) 在报告中列表给出计算的 Z 比分数,并依据这些 Z 比分数来评定实验室的结果。把离群值定义为 Z(包括 ZB 和ZW)绝对值大于等于 3 的结果或结果对,在表中,离群值在其 Z 比分数边上以()标出。 当实验室的 Z 比分数处在有问题的区间(即 2 对认为是离群的结果进行说明时,必须考虑 Z 比分数的符号和能力验证计划的设计。对于均一对和分割水平对,一个正的实验室间离群值(即 ZB3)表明该样品对的二个结果太高。而一个负的实验室间离群值(即 ZB-3)表明其结果太低。 对于样品对,实验室内离群值(即?ZW?3)表明其二个结果间的差值太大。 对于一个样品(X)的验证计划,一个简单的稳健 Z 比分数是离群值时,Z 比分数的符号可以表明结果太高(正)或太(来自: 小龙 文档 网:z 分数规范化)低(负) ,但不能确定离群是由于实 验室间变动还是实验室内变动,或者是由二者所造成。4 ISO5725-2 本标准为 5725 系列标准中的第二部分:基础方法。包含的内容有:测量精度、准确度计算的机构和人员,数据离群值的判断方法,重复性、再现性值的计算,算例。 本文仅使用了该标准中数据歧离值、离群值的判断方法 Cochrans test 和 Grubbs test。但“歧离值”和“统计离群值”来自标准 GB/T4883-XX,5725 标准中为straggler和outlier 。 GB/T4883-XX 中同样有格拉布斯算法(Grubbs) ,此标准中限定检出离群值的个数不超过 1,ISO5725-2-1994 中的 Grubbs test,能够计算检出离群值的个数为 1 和 2 的情况。 s test 给定 p 个标准差 si,si 的计算均应当为相同数量的值计算而得,但标准认为实际中可能会有数据丢失或抛弃部分数据导致的测量值个数不同,因此当多数 si 来自相同数量的测量值计算而来的即可使用本方法。 Cochrans test 的统计量 C?smax2 p 2 i?s i?1 其中 smax 是 si 中最大值。 该方法是对标准差的最大值进行计算,因此属于单侧检验。当然,标准差同样有可能相比而言明显的偏小。但是,原始数据的自由度对标准差的影响明显,因此仅以此来判定离群与否并不可靠。另外,较小的标准差表示该实验室的测量精度更高,没有理由剔除一个相比其他实验室精度更高的数据。 如果标准差的最大值是离群值,则该值舍去后对剩余的值重新计算 Cochran 统计量。 离群值得判断: a)当统计量小于等于 5%的临界值时,认为该值是正常值; b)当统计量大于 5%的临界值且小于等于 1%的临界值时,该值为歧离值,并用一个“*”标注; c)当统计量大于 1%临界值时,认为该值是统计离群值,并用“*”标注。 test 单个反常值 给定一系列数据 xi(i=1,2,?,p) ,将所有数据以升序排列,对最大值 Gp 计算 Grubbs test 统计量: Gp?(xp?x)/s 1p 其中:x?xi,s?pi?11p(xi?x)2。 ?p?1i?1 当计算最小值的统计量时为: G1?(x?x1)/s 两个反常值 a.为同时确定最大的两个值是否是离群值,可使用Grubbs test 计算统计量: G?sp?1,p 2p22p?2 i?12s0 22 其中:s0?(xi?x),sp?1,p?(xi?xp?1,p),xp?1,pi?11p?2?xi。 ?p?2i?1 b.同时确定两个最小值是否为反常值。 G?s1,2/s0 22 其中:s1,2?(xi?x1,2),x1,22 i?3p21p?xi。 p?2i?3 两种方式的临界值见 table 4 及 table 5。 test 应用 对一系列测试量计算 Grubbs 统计量,当判定该值为离群值时,剔除此值,然后对另一端极值重复计算过程。当判断有离群值时,不再使用两个反常值的计算方法。若没有单个值可被认为是离群值时,使用两个反常值的计算方法。 离群判断: 单个值判断: a)当统计量小于等于 5%的临界值时,认为该值是正常值; b)当统计量大于 5%的临界值且小于等于 1%的临界值时,该值为歧离值, 并用一个“*”标注;c)当统计量大于 1%临界值时,认为该值是统计离群值,并用“*”标注。 双值判断: a)当统计量大于等于 5%的临界值时,认为两值是正常值; b)当统计量大于等于 1%的临界值,小于 5%的临界值且时,两值为歧离值,并用一个“*”标注; c)当统计量小于 1%临界值时,认为。两值是统计离群值,并用“*”标注。 其他数值 平均值 实验室提交数据的平均。 标准差 实验室提交数据的标准差。 变异系数 标准差与平均值之比乘以 100。 总平均值 各实验室均值的平均值。 实验室间标准差 各实验室均值的标准差。 Z-比分数 实验室值与总平均值之差与实验室间标准差的比值。 篇三:数据挖掘作业数据挖掘第一次作业 第一题: (a).由最大-最小规范化公式 vi= 35?13vi?minAmaxA?minA new_maxA?new_minA +new_minA 得 35 规范化后的值为 70?13 1?0 +0= (b).先计算属性的均值 A 和标准差 A A=n(v1+v2+?+vn)=27 13+15+16+?+70 = 35 经过 Z 分数规划后的结果为 v?A A11=35?= (c).由于属性绝对值最大为 70,我们用 100 来除每个值 35 规范化后的结果为 (d).最大最小规范方法保持原始数据值之间的联系;Z 分数规范化当属性的最大值和最小值未知,或离群点左右了最小-最大规范化时,该方法有用;小数定标规范化过于简单。我比较喜欢最小-最大规范化,因为这种方法计算起来没有 Z 分数复杂,并且不会使原始数据改变很多,保留了它们之间的联系。 第二题: (a).?Xtransaction,共有 4 个事务,最小相对支持度为 60%,因此最小支持度计数阀值为 3,用 Apriori 算法找到最大的频繁项集 L3=Milk, Cheese, Bread,过程如下: L3 的非空子集Milk,Cheese,Milk,Bread,Cheese,Bread,Milk,Cheese,Bread,结果关联规则如下: Milk, Cheese=Bread, confidence=3/3=100% Milk, Bread=Cheese, confidence=3/4=75% Cheese, Bread=Milk, confidence=3/3=100% Milk=Cheese, Bread, confidence=3/4=75% Cheese=Milk, Bread, confidence=3/3=100% Bread=Milk, Cheese, confidence=3/4=75% 由于 min_conf=80%,所以只有第一个、第三个和第五个规则可以输出,是强规则。 即,所有强规则如下: ?Xtransaction buys(X, Milk)buys(X, Cheese)=buys(X, Bread) ?Xtransaction buys(X, Bread)buys(X, Cheese)=buys(X, Milk) ?Xtransaction buys(X, Cheese)=buys(X, Milk) buys(X, Bread) (b) ?Xcustomer,共有 3 个事务,最小相对支持度为 60%,因此最小支持度计数阀值为 2,用 Apriori 算法找到的最大频繁项集 L2=Sunset-Milk, Dairyland-Cheese, Wonder-Bread, Dairyland-Milk, Wonder-Bread, Tasty-Pie 共两个最大频繁项集 过程如下: 第三题: 如果对于所有层使用一致的最小支持度,根据祖先是其后代超集的知识,采用 Apriori 性质:频繁项集的所有非空子集也必须是频繁的,在这种情况下,如果祖先不满足最小支持度,那么我们可以停止对其后代的探查。如果在较低层使用递减的最小支持度,即每个抽象层都有自己的最小支持度,且抽象层越低,对应的阈值越小,此时有可能在祖先不满足最小支持度的前提下,但是其后代却满足,此时 Apriori 性质不能成立,我们不能停止对其后代的探查. 第四题:假定数据仓库中包含 4 个维:date, product, vendor, location;和两个度量:sale_number和 sales_cost。 (b).所需的 OLAP 操作:沿着 Date 维由 Day 上卷到 year; 分别对每个 Vendor_key 进行切片; 沿着 Location 维由 Street 上卷到 City; 对 City=Los Angles 切片; 最后沿着 product 维由每种产品上卷到 all。 (c).该立方体一共有四个维(或属性) ,只需要为这四个为分别维护一张位图索引表,当属性的域的基数较小时,因为比较、连接和聚集操作都变成了位运算,大大减少了处理时间。由于用来表示具体事务的字符串可以用单个二进位表示,位图索引显著降低了空间和 I/O 开销。但是如果属性的域的基数很大时,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论