实验数据分析中的误差、概率和统计指导书.doc_第1页
实验数据分析中的误差、概率和统计指导书.doc_第2页
实验数据分析中的误差、概率和统计指导书.doc_第3页
实验数据分析中的误差、概率和统计指导书.doc_第4页
实验数据分析中的误差、概率和统计指导书.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Error! No text of specified style in document.253实验数据分析中的误差、概率和统计1 实验测量及误差2 粒子物理实验的测量数据3 粒子物理实验的数据分析1 实验测量及误差大量科学问题(自然科学、社会科学)的研究与解决依赖于实验或测量数据(包括统计数据)。1.1 实验测量的目的及分类目的:得到一个或多个待测量的数值及误差(确定数值);确定多个量之间的函数关系(寻找规律,确定分布)。分类:1. 测量方式直接测量 用测量仪器直接测得待测量 (尺量纸的长度)间接测量 直接测量量为,待测量为,是的函数 例如待测量为大楼高度,实测量为距离和仰角, 则。绝大部分问题是间接测量问题。2. 测量过程静态测量 待测量在测量过程中不变多次测量求得均值动态测量 待测量在测量过程中变化 例雷达站测离飞行气球的距离多次测量求得气球的运动轨迹3. 测量对象待测量 固定常量待测量 随机变量 例放射源单位时间内的计数 (假定寿命极长) 每次测量值不一定相同。粒子物理实验数据分析中处理的都是间接、动态、随机变量的测量和处理问题。随机变量 一次测量所得的值是不确定的,无穷多次测量,一定测量值的概率是确定的。(统计规律性)离散随机变量测量值是离散的分立值(掷硬币和扔骰子试验) 二项分布、泊松分布、多项分布。连续随机变量测量值一个区间内的所有值 均匀分布、指数分布、正态分布、分布、F分布、t分布。描述随机变量的特征量概率分布或概率密度 非负性、 可加性、 归一性 期望值(概率意义上的平均值)离散型 连续型 方差(标准离差的平方) 离散型 连续型 1.2 测量误差及其分类1报导误差的重要性 物理量的测量值及其误差是衡量其可靠性及精度的依据。 没有误差的结果是没有意义的,因而是无法引用的。 要改正只给测量中心值、不给误差的坏习惯。2误差分类 过失误差(粗差)过失造成的误差 操作、记录、运算中的错误,测量条件的突然改变。 统计误差(随机误差) 待测量为随机变量,服从某种概率分布 统计误差一般为待测量(随机变量)的标准差。,。一般理解为期望值。 系统误差 测量仪器、方法、理论模型的误差测量环境变化导致的误差测量仪器、测量方法的误差测量所依据的理论模型、(经验公式)的误差 导致系统误差的因素一般可分为带有随机性质和不带有随机性质的两类。带有随机性质的系统误差由其分布的标准差决定。 不带随机性质的系统误差,由于有多种来源,每种来源导致的误差大小和符号不易确定,通常只能一起处理,考虑为一个随机变量。系统误差的分析是一件特别复杂的、细致的工作,只能针对具体问题具体分析。系统误差的分析是一件特别费时的工作, 往往占分析工作70%以上的时间 系统误差的随机性质许多情况下,测量仪器或设备对一个常数值的物理量的测定过程中包含了许多随机过程,对同一个常数值的物理量的多次测定成为一个分布,即测定值成为一个随机变量。李雅普诺夫中心极限定理:设相互独立的随机变量有有限的数学期望和方差,当n很大时,随机变量近似地服从正态分布。在许多物理量测量中,系统误差是由许多相互独立的随机因素合成的,根据该定理可知,系统误差近似地服从正态分布。例如单能光子束射入碘化钠晶体(NaI(T1),用光电倍增管测量晶体中的闪烁荧光,光电倍增管的输出电信号经过放大器等电子学线路,最后测量出脉冲幅度谱。这一测量中涉及一系列相互独立的随机过程,如:光子在晶体中的能量损失,(电子对效应,康普顿效应,光电效应,电离能损,) 能量损失转化为不同波长光的概率分布,光在晶体中的透射率率随光波长的概率分布,光在晶体中的透射率随不同路程长度的概率分布,晶体表面的反射折射系数随光波长的概率分布,光在倍增管窗玻璃中的穿透率随光波长的概率分布,光子在光电倍增管阴极上产生光电子的量子效率的波长分布,光子在光电倍增管阴极上产生光电子的量子效率随击中 位置的分布,电子的倍增过程中倍增系数的涨落,因此,最后测到的全能峰的脉冲幅度近似于正态分布。测量值报导 :通过测量得到的对待测量真值的估计, , 。系统误差与统计误差从来源知相互独立 , 。1.3 测量数据表示及运算1数据位数 误差应与测量精度一致, 测量值末位应与误差末位相同; X X。 需要对多个测量数据进行运算以得到结果,可将测量值多写一个估计位数字,珠峰高度 米。 误差最多只能写两位有效数字 , X 直接测量值(原始数据)误差必须有根据。 直接测量值是以后一切运算、推断的基础,其测量(中心)值及其误差必须给得准确,有根据。2数据修约规则 测量(中心)值 - 4舍5入舍去部分,末位1; 舍去部分,末位不变;舍去部分,末位为奇数, 1, 末位为偶数, 不变。 测量误差 - 进位保守性原则:进位而非舍入 2.42 2.53多个实验数据之间的运算 由于测量值总有误差,即使被测物理量原本是常量,由于测量误差的存在,测量值转化成为随机变量进行运算才是合理的。因此多个实验(测量)数据之间的运算要按随机变量之间的运算规则来进行。即根据误差传播公式进行。木桶效应 木桶存水的多少取决于高度最短的那块板 误差运算 最终的误差取决于各项中最差的测量值 (保守原则)运算结果的相对误差与参与运算的多个实验数据中最大的相对误差相对应。例加减:位数最靠前的为准,相对误差最大的为准。乘除:数字位数最少的为准,相对误差最大的为准。 。1.4 误差与概率分布被测物理量X,看作是随机变量,有对应的概率分布 离散分布:被测到 的概率是 连续分布:被测到 的概率是 期望值 m 方差 实验报导值: , 要尽可能做到 , , 要做到这一点,关键是要知道被测量x服从什么分布。(1) 多丝室的空间分辨(均匀分布)带电粒子穿过多丝室,靠近的两根丝感应出电信号。设丝距为d,问空间分辨为多大? X 粒子入射 空间分辨,即多丝室在X方向上的定位能力。 d or d/2 ?当两根丝感应出电信号,可以判断粒子入射位置在此两根丝之间。在没有其他知识的情况下,认为入射位置为间的均匀分布是合理的假定。于是 , 。空间分辨 (2) 探测器的探测效率及误差 伯努利分布定义和概率分布伯努利试验随机试验可能的结果只有两种:“成功”X=1; “失败”X=0。随机变量X的概率分布为, 二项分布 n个伯努利随机变量之和定义和概率分布独立地进行n次伯努利试验,事件“成功”的发生次数r可为0到n之间的任一个正整数,r是一个随机变量,它可以视为n个伯努利分布随机变量之和:事件“成功”发生r次的概率等于其中p是一次伯努利试验中事件“成功”的概率。随机变量r的均值、方差 探测效率及其误差用探测器对粒子作计数,当一个粒子穿过探测器时,测量结果只可能是记到一次计数,或者没记到计数,没有其它可能。这样,n个粒子穿过探测器时,探测器记到r次计数的概率由二项分布描述。 一个粒子穿过探测器得到一次计数的概率称为探测效率, 显然它就等于二项分布的参数p。事实上是依靠有限次测量确定的,即。当n足够大,。 有限次测量确定的是有误差的,的方差为所以探测效率的误差(标准偏差)为 有如下性质:时,达到极大值;对于为对称分布;当接近0或1时,达到极小。为了能实验地测定,探测器计数r最小需等于1,即 此时探测效率的相对误差则为当随着的增大R迅速下降。当。 1.5 误差传播公式前面已经提到,多个实验(测量)数据之间的运算要按随机变量之间的运算规则来进行。(1) (个直接测定值) 的函数的误差 注意,个直接测定值 都是随机变量 * 一般情形下,它只是近似地正确,因为在推导过程中略去了高次项. * 但当Y是X的线性函数时,误差传播公式是严格正确的* 如果相互独立,那么中的所有非对角项等于0, 即函数的方差等于各变量的方差的线性和(2)更一般的情况:* 个间接测定量可用直接测定值矢量的函数 表示一般形式的误差传播公式为 * 各分量的方差等于的各对角项 * 如果相互独立,则上式简化为 (3)误差传播公式的矩阵形式令阶偏导数矩阵S为即矩阵元素为则一般形式的误差传播公式为或其中是阶方阵,是阶方阵(4)常用的误差传播公式下面各式中,为正常数,和是随机变量X和Y的测量值,U是X,Y的函数(1) 加减特别(2) 乘除(3) 乘幂 (4) 指数 ,可改写为与上式对比,得 (5) 对数 例 直角坐标测定值和极坐标测定值间的误差转换用某种仪器独立地测量平面上某个点P的半径和极角,测量的标准误差分别为和,用概率的语言,这等价于用R,两个相互独立的随机变量描述测量结果极坐标值可以方便地转换为直角坐标值显然,X,Y也是随机变量由X,Y构成的随机向量Z和构成的随机向量U的协方差矩阵之间的关系由误差传播公式给出其中 容易求得由于的非对角项不等于0,随机变量X,Y不是相互独立的参考书朱永生著:“实验物理中的概率和统计”(第二版) 科学出版社(2006年4月)1. 概率论与随机变量随机变量及其分布随机变量函数的分布实验分布 (实验分辩函数,复合概率密度)大数定理和中心极限定理2. 数理统计样本及其分布参数估计 (点估计, 区间估计)假设检验 (拟合优度检验,信号的统计显著性)3. 蒙特卡罗方法随机数随机变量的抽样MC方法计算复杂积分MC方法模拟随机过程4. 极小化(最优化)方法无约束极小化(解析方法,直接方法)约束极小化方法局部极小和全局极小参数的误差估计2 粒子物理实验的测量数据2.1 实验观测量* 大型探测装置对研究对象 (例如加速器或宇宙线产生的粒子反应) 进行测量* 实验得到的是探测装置对粒子反应的初态和末态所有粒子的种类、动量和能量的所有可观测的信息. * 探测装置能够直接测量的粒子必须满足一定的条件:稳定或有比较长的寿命, 可在探测装置中飞过比较长的距离; 应与探测装置中的物质有相互作用, 从而能被探测装置所测量, 产生测量信号.这样的基本粒子只有相当有限的几种, 最常见的是 . * 实验的直接观测量是探测装置 (电子学) 对于反应事例中的所有粒子的响应输出信号, 一般分为时间(TDC) 信息和幅度 (ADC) 信息. * 由于一个实验收集的反应事例数量极大, 它们只能用高速计算机在线地记录和存储起来, 以供今后进行离线的物理分析.2.2 实验数据的预处理TDC和ADC 数据虽然包含了每个事例的全部可观测信息, 但它是这些信息的间接反映, 不能直接地反映粒子反应的”面貌”和性质, 不能直接用来作物理分析. 预处理- 将TDC和ADC 数据转化为能反映粒子反应性质的物理数据的过程.一般包括刻度和重建.1. ”直接” 实验信息直接观测量通过预处理后, 一般转化为: 带电径迹的空间飞行轨迹和飞行时间(time-of-flight, 即TOF) 信息, (用作粒子种类的鉴别)带电径迹的空间飞行轨迹 (结合磁场的数据可以得到带电径迹的动量); 带电粒子电离能损的信息 (用作带电粒子种类的鉴别);具有电磁和强子量能器的探测装置可以给出电磁 () 粒子、和强子 () 的簇射沉积能量和簇射形态的信息.2. ”间接” 实验信息利用这些 ”直接” 实验信息, 还可以推导得到 ”间接” 实验信息.(1) 事例的初级顶点一个事例如果产生2条以上的带电径迹, 由径迹的交点可求得事例的初级顶点, (在正负电子对撞实验中, 初级顶点相应于正负电子对撞点的位置).(2) 短寿命粒子存在的信息-不变质量一些粒子的寿命极短, 一旦产生几乎立即衰变为两个或更多的粒子, 典型的例子如,等. 短寿命粒子存在的信息可由所谓的不变质量得到. 粒子物理告诉我们, 若 各粒子的四动量分别记为 粒子四动量定义为一个四维矢量,E为粒子能量,为粒子的动量这j个粒子的四动量之和的平方称为它们的不变质量平方,并恰好等于母粒子A的质量平方:它是洛伦兹变换下的不变量,即在不同的惯性系中值不变. 按照这一性质, 可以根据两个光子的不变质量是否等于或的质量来判断它们是否存在, 根据的不变质量是否等于的质量来判断它是否存在, 等等.(3) 长寿命粒子存在的信息-次级顶点一些粒子的寿命比较长, 它们产生以后要飞行一段距离之后才衰变成两个或更多的粒子. 这类粒子存在的信息可由它们衰变的次级顶点给出. 不稳定粒子衰变时间为t的概率密度为, 式中是不稳定粒子的平均寿命. 相应于衰变时间t, 粒子的飞行距离. 典型的例子如(), (), 它们在北京谱仪实验中的典型飞行距离为厘米量级. 这样衰变产生的两根径迹的交点离正负电子对撞中心 (初级顶点) 有一定的距离, 被称为次级顶点. 如果收集大量的动量相同的事例, 次级顶点到初级顶点间的距离应当服从指数分布. 对于衰变, 情形是类似的. 因此, 在研究末态包含长寿命粒子的反应时, 次级顶点位置也常常作为粒子反应的一个重要输入量.(4) 不可探测粒子存在的信息-丢失质量或丢失能量一些粒子与探测器物质(几乎)不发生作用, 这样探测器不能给出它们存在的直接信号. 在北京谱仪正负电子对撞实验中, 属于这类粒子有等等. 它们的存在信息可用丢失质量或丢失能量给出.若粒子A (已知质量为M) 衰变为3个粒子 其中粒子1,2是可探测粒子, 测量到的能量和动量为 和, i =1,2. 粒子3是不可探测粒子, 那么粒子3的质量 (如果粒子3是0质量粒子, 例如中微子, 则为粒子3的能量) 等于. 例如北京谱仪实验中, 粒子反应的不可探测粒子的存在可利用可探测粒子的丢失质量是否与的质量相接近来推断. 因此, 在研究末态包含不可探测粒子的反应时, 丢失质量往往是输入变量之一.2.3 实验的原始数据集* 对于一个反应事例, 它的末态粒子的以下实验数据构成该事例的原始数据集 带电径迹的数目每根带电径迹的TOF和dE/dx 信息,每根带电径迹的动量,所有可探测粒子的簇射沉积能量和簇射形态的信息,初级顶点位置,次级顶点位置 (如需要), 不变质量 (如需要),丢失质 (能) 量 (如需要), .* 实验收集的所有反应事例的原始数据构成该实验的原始数据集 一个事例所记录的全部原始数据 (假定是个) 可以看成是一个 维向量, 每一个分量是该事例的一个有效物理量. 粒子反应是随机过程, 每一个这样的物理量都是随机变量, 具有各自的概率分布.实验数据集是进行进一步物理分析的基础. 高能物理实验的数据向量的维数往往达到几十或者上百, 一个实验收集的反应事例数往往达到量级.3 粒子物理实验的数据分析3.1 一般性讨论粒子物理数据分析的任务: 研究某一特定反应,研究其反应机制,测量它的性质参数。粒子物理数据分析的步骤:* 选择一定的物理过程(信号过程)作为研究课题,(物理意义)* 选择一定的物理量作为测量对象, * 根据该过程的事例特征选定一组事例判选条件, (通常依靠MC模拟)* 考虑所有可能的本底,* 利用实验数据得到物理量的测量值,* 分析测量值的统计误差和系统误差,* 撰写分析报告和论文。信号事例的判选: 首先要把此特定反应的事例从众多反应事例中挑选出来,然后才能对信号事例进行反应性质的研究。 信号事例 所要研究的反应事例 本底事例 信号事例以外的所有事例怎样叫完成事例的判选: 确定反应末态粒子的个数、种类、四动量。 用什么进行事例的判选: 实验的原始数据集。* 大型的科学实验一般具有多重研究对象和科学目标, 因此实验数据向量的维数需要足够高, 以能包含充分多的实验信息供各种研究课题的需要. * 但对于某一特定课题而言, 只需提取和选择与该课题有关的n维变量作为特征变量就可以作出正确的分类, 一般. * 例如为了区分人的性别, 只需要考察人类性体征特点就可以了, 没有必要对与此无关的其它体征进行比较分类. * 同样, 对于不同反应过程的分析, 只要选择与各自过程相关的物理量作为各自的特征变量. 事例判选就是利用事例的n维特征向量,确定一组判据,将事例分类为信号和本底。特征向量的选择: 对于信号和本底,特征变量有不同的行为,容易加以区别。事例判选的步骤: 粒子(种类)鉴别 PID . 多类决策问题 反应形态的确定 event topology 信号事例,本底事例. 两类决策问题 事例判选(分类器)的要求: 高的信号判选效率,低的误判率。 3.2 实例 事例判选对撞在质心系能量处产生了14兆粒子事例特征: 反向飞行,动量相等主要本底事例:信号事例判选条件: 基本原则:保留尽可能多的信号事例,排除尽可能多的本底事例。 基本方法: 根据信号事例特征,信号与本底事例特征的差别,利用MC模拟,确定区分信号与本底事例的一组变量值。1. 带电径迹数条件 两条带电径迹,电荷相反。(排除的大量本底)2. 径迹飞行时间条件 每根径迹飞行时间与能量1.843GeV质子的飞行时间一致 (排除,本底事例。) 3.两径迹飞行时间差条件表示TOF计数器测到的两根径迹的飞行时间之差* 信号事例, ; * 穿过对撞中心的宇宙线事例, . * 由于测量误差, 实际的是以0和8 ns为中心值的分布, 如图1所示.* 几乎能排除所有的宇宙线本底。 图1: 两带电径迹飞行时间差分布4. 径迹背对背条件* 两条带电径迹间的夹角应近似为0.* 条件排除了不满足背对背条件的两径迹本底. 图2: 背对背径迹飞行方向夹角的分布。 直方图代表信号的蒙特卡罗模拟样本, 十字叉代表本底的蒙特卡罗模拟样本. 注意y轴是对数坐标.经过以上判选条件, 实验数据样本中除信号事例外, 只余下少量下述的背对背两径迹本底实例: , (1)5. 带正电粒子沉积能量条件E+0.75GeV子探测器电磁量能器测量粒子在其中的沉积能量. 在北京谱仪的情况下, * 的沉积能量的中心值与其实际能量相近, * 的沉积能量的中心值比它的实际能量小得多. * 图3为带正电粒子沉积能量的分布, 直方图代表信号的MC模拟样本中的p的沉积能量, 集中于低能端.十字叉代表实验数据(事例判选后选出的事例)中带正电粒子的沉积能量, 其中低能端的分布来自于信号事例的贡献,高能端的突起来自于本底事例,中的的沉积能量. (的实际能量等于或接近质心系能量的一半1.843GeV, 由于电磁量能器的能量分辨较差(), 所以形成以1.843GeV为中心的一个宽的分布

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论