(应用数学专业论文)多元回归分析与logistic回归分析的应用研究.pdf_第1页
(应用数学专业论文)多元回归分析与logistic回归分析的应用研究.pdf_第2页
(应用数学专业论文)多元回归分析与logistic回归分析的应用研究.pdf_第3页
(应用数学专业论文)多元回归分析与logistic回归分析的应用研究.pdf_第4页
(应用数学专业论文)多元回归分析与logistic回归分析的应用研究.pdf_第5页
已阅读5页,还剩27页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 本文主要研究了线性回归分析中多元回归分析及非线性回归分析中 l o g i s t i c 回归分析在实际中的应用。第一部分综合使用影响分析、聚类分析以及 多元回归分析等方法,并把这些方法融合在一起预测五强溪水库的流量。在对 湖南沅水流域包括河溪、风滩、浦市等2 2 个水文观测站1 9 9 6 2 0 0 3 年的日雨量、 流量资料等记录数据进行分析后,运用影响分析的统计方法对大量的观测数据 进行筛选,在去除异常点并找出主要影响因子之后作聚类分析,根据分类后的 数据再分别采用多元回归分析建立模型对进入五强溪水库的水流量进行预报, 三个模型的预报准确率都在9 0 以上,获得了很好的预报效果。第二部分结合 教师互评,上级领导( 或专家) 对教师评价,学生对教师的评价这三方面应用 l o g i s t i c 回归分析的方法来进行研究,提出一个对教师教学质量的总体评估模 型,并用s a s 软件进行编程实现。这种评估模型能比较科学客观的评价教师的 教学情况,可以广泛应用于其他领域的评估工作。 关键词多元回归分析;l o g i s t i c 回归分析;影响分析;聚类分析;流量预报 a b s t r a c t i nt h i sp a d e r , w em a i n l yd i s c u s s e dt h ep r a c t i c a la p p l i c a t i o no ft h em u l t i p l e r e g r e s s i o na n a l y s i sm e t h o db e l o n g e dt ot h el i n e a rr e g r e s s i o nm e t h o da n dl o g i s t i c r e g r e s s i o na n a l y s i sm e t h o db e l o n g e dt ot h en o n 1 i n e a rr e g r e s s i o nm e t h o d i nt h ef i r s t p a r t ,w em a i n l yu s e dt h ei n f l u e n c ea n a l y s i s ,t h ec l u s t e r i n ga n a l y s i sa n dt h em u l t i p l e r e g r e s s i o na n a l y s i sm e t h o da n dm e r g et h e s em e t h o d st o g e t h e rt of o r e c a s tt h er u n o f f o ft h e 耽q i a n g x ir e s e r v o i r b ya n a l y z i n gt h ed a i l yp r e c i p i t a t i o na n df l o wd a t ao f 2 2 h y d r o l o g yo b s e r v a t i o ns t a t i o n so fh u n a ny u a n s h u iv a l l e yi n c l u d i n gh e x i f e n g t a n p u s h i w ef i r s tu s et h es t a t i s t i c a lm e t h o do fi n f l u e n c ea n a l y s i so nm a s so b s e r v a t i o n d a t at of i l t r a t e a n dt h e ne m p l o yt h ec l u s t e r i n gm e t h o dt ot h em a i n l yi n f l u e n c e f a c t o rf o u n d e da f t e rr e m o v i n gt h ea b n o r m a ls p o t a tl a s t t h em u l t i p l er e g r e s s i o n a n a l y s i sm e t h o di sa d o p t e do ns o r t e dd a t at ob u i l dm a t h e m a t i c a lm o d e it of o r e c a s t t h er u n o f fo ft h ew uq i a n g x ir e s e r v o i r t h ea c c u r a c yr a t i oo ft h et h r e em o d e l s r e a c h e su pt o9 0 a n dg e t sap r e f e r a b l yp r e d i c t i n gr e s u l t i nt h es e c o n dp a r t ,w e a p p l yt h el o g i s t i cr e g r e s s i o na n a l y s i sw a yt oc o n d u c tt h er e s e a r c hc o m b i n e d 诚t h t e a c h e r s c o m m e n t sm u t u a l l y , h i g h e ra u t h o r i t yl e a d e r s ( o re x p e r t s ) a p p r a i s e st ot h e t e a c h e r , s t u d e n t s a p p r a i s e st ot h et e a c h e r w ep r o p o s ea no v e r a l la p p r a i s a lm o d e lt o e v a l u a t et h et e a c h e r st e a c h i n gq u a l i t yb yu s i n gt h es a ss o f t w a r e 1 1 1 i sm o d e lc a n a p p r a i s et h et e a c h e rs c i e n t i f i c a l l ya n db eu s e dw i d e l y k e yw o r d s :m u l t i p l er e g r e s s i o na n a l y s i s ;l o g i s t i cr e g r e s s i o na n a l y s i s ;c l u s t e r i n g a n a l y s i s ;i n f l u e n c ea n a l y s i s ;f l o wf o r e c a s t i n g i i 学位论文独创性声明 本人郑重声明: 1 、坚持以“求实、创新 的科学精神从事研究工作。 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究 成果。 3 、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构 已经发表或撰写过的研究成果。 5 、其他同志对本研究所做的贡献均已在论文中作了声明并表示 了谢意。 彳、 作者签名:固! 当k 善 日期: 弘乒,;一 学位论文使用授权声明 本人完全了解南京信息工程大学有关保留、使用学位论文的规 定,学校有权保留学位论文并向国家主管部门或其指定机构送交论 文的电子版和纸质版;有权将学位论文用于非赢利目的的少量复制 并允许论文进入学校图书馆被查阅:有权将学位论文的内容编入有 关数据库进行检索:有权将学位论文的标题和摘要汇编出版。保密 的学位论文在解密后适用本规定。 作者签名:拯妊覃 日期:丝生 第一部分五强溪水库上游流量的预报研究 第一章绪论 1 1研究目的与意义 在当今社会,随着科技的发展,我们已经人为的尽量减少自然灾害造成破 坏。在各种自然灾难中,洪水造成死亡的人口占全部因自然灾难死亡人口的 7 5 ,经济损失占到的4 0 。更加严重的是,洪水总是在人口稠密、农业垦殖度 高、江河湖泊集中、降雨充沛的地方,如北半球暖温带、亚热带。中国、孟加 拉国是世界上水灾最频繁、肆虐的地方,美国、日本、印度和欧洲也较严重。 在我国,2 0 世纪死亡人数超过1 0 万的水灾多数发生在这里,1 9 3 1 年长江发生重 大洪水,淹没7 省2 0 5 县,受灾人口达2 8 6 0 万,死亡1 4 5 万人,随之而来的饥饿、 瘟疫致使3 0 0 万人惨死。而号称“黄河之水天上来”的中华母亲河黄河,曾在历史 上决口1 5 0 0 次,重大改道2 6 次,淹死数百万人。1 9 9 8 年中国的“世纪洪水”,在 中国大地到处肆虐,2 9 个省受灾,农田受灾面积3 1 8 亿亩,成灾面积1 9 6 亿亩, 受灾人c 1 2 2 3 亿人,死亡3 千多人,房屋倒塌4 9 7 万间,经济损失达1 6 6 6 亿元。 水库是为解决水患和蓄水备用而出现和发展起来的。在水流量较大或发洪 水时,水库可以起到蓄水拦洪削峰的作用,而在干旱的时候放水灌溉,解决部 分地区水资源不足的情况。我们通过长时间的观测某一区域的雨量与流量,并 通过分析这些观测数据来预报流入水库的流量,这对于水库合理调度是非常重 要的。在灾害洪水频繁发生时,提前对洪水流量进行准确的预测并及时发出预 警对于减灾抗灾意义重大,关系到当地人民群众的生命安全与财产安全。 综上所述,对影响分析、聚类分析和多元回归分析的研究,特别是在对水 库流量预测的应用研究,具有重大的社会经济意义,也具有重要的学术和科研 意义。 1 2研究背景 五强溪水库位于沅水下游沅陵县境内,于1 9 9 5 年建成。水库控制集雨面积 8 3 8 0 0 平方公里,占沅水流域总面积的9 3 ,坝址年平均降雨量1 7 2 4 毫米,年平 均流量2 0 4 0 秒立米,年径流总量6 4 3 亿立方米。水库总库容为4 2 亿立米,正常水 位1 0 8 米以下预留防洪库容1 3 6 亿立米,库容系数0 0 3 1 ,为季调节水库。五强 溪水电站则是沅水梯级开发的骨干工程,枢纽工程主要由左岸三级船闸、河床 溢流坝段、右岸引水坝段及坝后厂房组成。随着气候的异常变化以及江湖关系 的逐渐恶化,进入9 0 年代,沅水流域连续几年发生特大洪水,五强溪坝下游洪 涝灾害损失惨重。关于洪水预报的研究工作从2 0 世纪7 0 年代开始,随着大型计 算机的应用以及一些新的理论如控制理论的实时预报技术大量被引入洪水预报 中,洪水预报的研究工作在我国迅速发展。【l j 1 2 1 聚类分析的研究及应用 聚类分析是将一批样本或变量,按照它们在性质上的亲疏程度进行分类的 一种多元统计方法。它能很好地解决在没有先验知识的情况下样本或指标的分 类问题。这一方法被广泛应用于金融、电信、医药、制造等各个领域。在研究 对金融发展与经济发展的联系中,美国经济学家g o l ds m i t h 2 1 曾详细论述了金 融发展与经济发展的关系,并开拓了用定量方法描述金融发展的先河,揭示了 各国金融发展的规律性趋势。国内一些学者也对金融发展进行了一定的研究, 中央财经大学的冯颖洲、曲炳洋【3 】运用系统聚类的方法对我国3 1 个省区的金融 发展水平进行了比较分析,但是只采用了2 0 0 0 年的数据,结论也只基于2 0 0 0 年 一个时间段。田霖h 对区域金融综合竞争力进行了聚类分析。冯碉【5 j 等也对我国 区域经济发展进行了聚类分析。随着股票在人们生活中所占的比重越来越大, 李敏【6 】等也将聚类分析应用在证券投资基本分析中,通过分析比较出有成长潜 力的股票,为投资者特别是中小投资者提供理性的长期投资的参考数据。另外 聚类分析在统计分组中也被广泛适用,在统计分组理论中,为了深入地揭示所 研究现象的特征,往往要同时选择若干个标志进行复合分组。然而由此却产生 了一个问题,由于组数过多导致总体单位的分布过于分散,从而不利于揭示总 体的分布特征,为此往往引进聚类分析方法。比如在研究人口问题、国民经济 等问题中,往往都会遇到分组分类的问题。李福平【_ 7 】等将聚类分析方法应用在 统计分组中,并通过实例证明所得结果符合统计分组的要求。 1 2 2 影响分析的研究及应用 在线性回归分析中,为了分析某组数据对参数估计,预测,模型等得影响 大小,找出那些所谓的强影响点,人们从不同角度提出了衡量一组数据是否为 强影响点的度量,即影响分析。 从目前来看,影响分析的内容大致可分为两个方面: ( 1 ) 全局影响分析法。在定义度量影响的统计量后,用影响统计量来刻划 2 了删除一个或多个数据点对回归分析影响的大小,这是影响分析初期研究的重 点,也是最有实用价值的内容。这种分析法一般基于影响函数的统计量,如 c o o k l 8 1 统计量。 ( 2 ) 局部影响分析法。局部影响分析法是由c o o k l 9 1 ( 1 9 8 6 ) 首次提出的 一种新方法,其思想是在某种扰动模式下,用基于似然替换的影响图的正则曲 率以及相应的最大响应方向以识别数据中的影响点。这种方法使用灵活,可以 分析数据中的联合影响,进而识别数据中的m a s k i n g 效应,因而得到了广泛的 应用。在此之后,许多新的方法逐渐发展起来,如基于广义影响函数和广义c o o k 统计量的局部影响分析( 如c o o k ( 1 9 8 6 ) ,l e s a f f r e ( 1 9 9 8 ) ,e s c o b a ra n dm e c k e r i i u j 等) ,b a y e s 局部影响分析等( 如韦博成【l l 】等( 1 9 9 1 ) ) ,以发展和完善局部影响 分析的理论和思想。 从某种意义上讲,影响分析是统计推断关于数据的稳定性问题。因此,对 其他统计问题,它同样是必要的。实际上在判别分析,广义线性模型,主成分 分析等方面都有一些研究成果。 在实际应用中,这一方法也被用于各种领域,朱仲义【1 2 】等研究了半参数非 线性回归模型的局部影响分析,并且所得结果与线性模型分析的结果一致。张 春丽【”】等也应用该方法研究了单纯形分布非线性模型的局部影响分析,并通过 实例证明了这一方法的应用价值。石磊【1 4 】等应用局部影响分析方法,讨论了主 因子模型中影响点的识别方法,并将这一方法用于地质数据中,以识别特殊地 质数据及结构。 1 2 3 多元回归分析的研究及应用 回归分析是一种通过一组预测变量( 自变量) 来预测一个或多个响应变量 ( 因变量) 的统计方法。它也可用于评估预测变量对响应变量的效果l i 副。在大 多数的实际问题中,影响因变量的因素不是一个而是多个,一般称这类问题为 多元回归分析问题。它是多元统计分析的各种方法中应用最广泛的一种。多元 回归分析,是经济预测中常用的一种方法,通过建立经济变量与解释变量之间 的数学模型,对建立的数学模型进行r 检验,f 检验,t 检验,在符合判定条件 的情况下把给定的解释变量的数值代入回归模型,从而计算出经济变量的未来 值即预测值。【1 6 l 在实际应用中,采取将预报因子和预报量按一定标准分为多级, 用分级尺度代换较大的数字,更能揭示预报因子与预报量的关系,预报效果比 采用数值统计方法有明显的提高,在实际应用中具有一定现实意义。 多元回归方法因其实用性及有效性,在现今社会越来越多的领域得到广泛 应用。早在1 9 8 6 年,郑钟光【1 7 】就将多元回归分析应用在矿石体重测定中,并用 实践证明了这一方法具有较大的优越性。苑玉风【l 列应用多元回归分析和逐步回 归分析,研究某种汽车发动机用球墨铸铁活塞环球化率的影响因素,并建立了 相关关系。李金海【1 9 】在多元回归数学模型基础上,提出了多元回归方法的应用 步骤。另外这一方法也被广泛的应用于预报各种气象参数,牛桂萍,黄祖英唧j 用多元回归分析做暴雨的长期预报,虽然误差较大,但他们同时指出有待于因 子本身作进一步的改进。林祖享,梁舜华 2 h 运用多元回归方程,绘制出赤潮生 物的变化趋势图,并预报是否可能发生赤潮。此外,多元回归分析方法也被越 来越多的应用于预报各种自然灾害,王震掣2 2 】等将这一方法用于滑坡预报,并 用实例证明了能在一定程度上解决滑坡的预报问题。刘昌蓉1 2 3 j 等采用多元线性 回归分析方法,建立地质灾害危险级别的评价模型,按照计算结果综合反映出 的地质灾害活跃程度的高低,对该区域进行有效防治,从而有利于地质灾害的 减轻减少。袁宇【2 4 】运用多元回归分析法,建立了化学污染面积,纵身与诸条件 的关系,快速估算预测出突出性化学污染危害,并提前做出防范措施。索南仁 欠【2 5 】也提出了水质污染的多元回归分析方法,这一方法的建立有助于我们更好 加直观地了解水质的最显著污染因素及在具体治污过程中,更有针对性地实施 合理治污方案。对于最近太湖大面积的蓝藻事件,如果我们也应用这一方法, 提前预测并做好防范工作,那污染所带来的危害及经济损失一定会有所减少。 而本文也是利用这一方法通过预报水库流量并及时发出预警,以便提前做好防 范工作。 1 3本文主要研究内容 如今,面对数字科技的进步和信息社会的发展,我们在科学研究与工作中 都会遇到成千上万的统计数据,如何从中挖掘出对我们有用的信息并利用这些 数据来对我们的研究发挥启示性的作用或者在我们的实际工作中起到指导作 用,这成了我们研究的重点。很多科研工作中要处理的数据量非常之大,于是 我们想到把数据先分类然后再做分析。数据分类是指按照分析对象的属性、特 征,建立不同的组类来描述事物。数据分类是数据挖掘的主要内容之一。数据 分类过程一般分两个步骤。第1 步:建立一个模型,描述给定的数据类集或概 念集。通过分析由属性描述的数据库元组来构造模型。第2 步:使用模型对数 据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行 4 分类。 在本文中主要研究了影响分析、聚类分析与回归预报及其应用,并在实际 问题预报湖南沅水流域的五强溪水库流量中应用此种方法,对水库上流各水文 站的近十年的观测数据做聚类分析及影响分析,并对分类数据分别建立多元回 归模型,从而得到优良的预报结果。 第二章资料和方法 2 1 资料说明 本文所使用的具体资料数据由南京水利所提供,其中主要为湖南沅水流域 部分区间1 9 9 6 - 2 0 0 3 年的日雨量、流量资料,包括河溪、风滩、浦市等2 2 个水文 观测站的记录数据。 2 2理论和方法说明 若某次观测严重偏离回归模型,则称它是野点( o u t l i e r ) 或异常点。分析每 次观测数据对估计出的参数的影响,进而判断是否存在野点,并找出野点的统 计分析称为影响分析( i n f l u e n c ea n a l y s i s ) 2 6 1 。 影响分析通过计算影响统计量,从而查找野点。影响分析的两种常用方法 是数据删除模型( c a s ed e l e t i o nm o d e l c d m ) 和均值漂移模型( m e a ns h i f to u t l i e r m o d e l m s o m ) 。在本文中我们采取数据删除模型。 数据删除模型是将某次观测删去,分析删去某次观测后所算出的结果与不 删除观测所算出结果的差异,例如对模型y5 b 。+ 6 l x l + + 6 m x 珊+ 用观测值 硝1x l 朋 y 1 x h lx 1y ” 拟合一次,再用用观测值 x l 】 而乃 x t 一1 。1x i 1 y i i x f + 1 ,1 x “1 ,肘l y i + l x n l x n ly 月 拟合一次,比较两次计算的结果。 由于影响统计量一般都是随机变量,其分布一般不易得到,只能给出经验 准则,用以判别影响统计量是否异常。而某个影响统计量表现异常,不一定相 应观测值就是野点。 6 由影响统计量怀疑第1 个观测是野点的经验准则 ( 1 ) 2 p n ( 2 ) 库克距离口 1 ( 3 ) l d 够t s ,i 2 、p n ( 4 ) i r s t u d e n t , l 2 ( 5 ) i c o v r a t i o , 一l f 3 p n ( 6 ) d f b e t a s k ,_ 2 4 n 在s a s 的r e g 过程中,m o d e l 语句中加上选项i n f l u e n c e 后,计算机就会 计算r s t u d e n t ( 学生化残差) ,c o v r a t i o ( 协方差比) ,d f f i t s ,d f b e t a s 。 2 7 】 聚类分析( c l u s t e ra n a l y s is ) 也称群分析,是一种新兴的多元统计方法, 是当代分类学与多元分析的结合,聚类分析方法较为粗糙,理论上还不够完善, 正处于发展阶段,但由于该方法应用方便,分类效果较好,因此越来越为人们 所重视。聚类分析是一组分类方法的统称,是对变量或观察个体进行归类的统计 方法,即把相似的变量或观察个体归为一类,也称为一个集群( c l u s t e r ) ,而 有较大差异的则归到不同的类别根据聚类对象( 变量或观察个体) 的不同,聚 类分析可分为变量聚类( c l u s t e r i n gf o rv a r i a b l e s ) 和样品聚类( c l u s t e r i n g f o ri n d i v i d u a l s ) 。具体说就是根据已知数据,计算各观察个体或变量之间亲 疏关系的统计量( 距离或相关系数) ,再根据某种准则( 最短距离法、最长距 离法、中间距离法、重心法等) 将观察个体或变量进行合并,使同一类内的差 别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类别。聚 类分析的分类过程完全依赖于数据自身,而不依赖任何已经存在的或外来的分 类标准。 聚类分析与判别分析同属于分类方法的范畴。所不同的是,聚类分析的对 象的分类情况是未知的,事先没有可供参考的分类依据,面判别分析的对象必 须是有事先存在已知的分类,每类的若干样品或分类依据。聚类分析的结果主 要是经验性的,使用不同的聚类分析方法可能产生各不相同的结果,对所得出 的结果重复性也较差,而从统计学理论上也难以判断某一个分类结果是否正确 或接近正确的程度大小。聚类分析结果与真实情况的接近程度还取决于分析变 量的选择,因此,聚类分析之前应尽量应用专业知识剔除对分类不起作用的变 量,以减少聚类分析时无关变量对分类结果的干扰。【2 8 j 由于聚类分析技术所需的计算量比较庞大,所以一般都需要借助于专业的 统计分析软件中的聚类分析模块来执行聚类分析。s a s 软件中有关聚类分析的过 程有c l u s t e r 、f a s t c l u s 、v a r c l u s 、t r e e 、a c e c l u s 过程等。f a s t c l u s 过程常用 于大样本数据的聚类分析,它以系统聚类( d i s j o i n tc l u s t e r i n g ) 的方法执行 聚类分析的过程,聚类所依据的同样是以若干个数值型变量经特定计算所得出 的某种距离,经f a s t c l u s 过程分析的观测( 样品) 最终将被分到若干个互不相 容的类别中。若要对大样本的数据进行系统聚类,可先调用f a s t c l u s 过程进行 分析以确定样品的初始分类,再将输出的结果作为输入数据调用c l u s t e r 过程进 行聚类分析。默认情况下,f a s t c l u s 过程以欧氏距离作为分类的判断标准。l z 9 j 回归分析是对客观事物数量依存关系的分析,是一种重要的统计分析方法, 广泛地应用于各类社会现象变量之间的影响因素和关联的研究。p o j 由于客观事 物的联系错综复杂,很多现象的变化往往受到两个或多个因素的影响。为了全 面揭示这种复杂的依存关系,准确的测定现象之间的数量变动,提高预测和控 制的准确度,就要建立多元回归模型进入深入、系统的分析。多元回归分析是 研究多个自变量与某个应变量之间相关关系的一种常用统计方法。同时根据贝 叶斯统计学理论,我们还要研究流量本身在连续时间上的影响,考虑时间序列 模型,在回归中引入自回归。 多元回归分析是根据统计资料建立预报公式( 经验公式) 的统计方法。【2 7 j 例如统计若干人身高与脚长数据,从而建立由脚长预测身高的预报公式。又如 统计若干棵松树的胸径与材积( 可利用木材体积) ,建立由胸径预报材积公式。 都用到回归分析方法。当然回归分析不只是建立预报公式,还要对预报误差的 大小,预报公式的合理性等问题讨论,有着非常丰富的内容。回归分析在自然 科学,社会科学和应用技术中都有重要应用。现实世界中大量存在相关关系, 具有相关关系的变量间不能完全确定。具有相关关系的变量间,由一些变量可 以大体预报其它变量。前者称为解释变量,也叫做自变量或预报因子。回归分 析的目的是,得到由解释变量预报响应变量的公式,以便通过解释变量去预测 或控制响应变量。对于回归模型中的解释变量,有两种处理方法:一种当作确 定性变量处理,另一种当作随机变量处理,所得计算公式式相同。本文采用前 一种处理方法。 回归分析是建立预报公式的一种方法。其一般步骤是:首先取得解释变量 和响应变量的多次观测值,这些观测值可能是实验得到的,也可能是调查出的; 然后根据这些数据确定经验公式的类型,建立数学模型,列出待估参数;再用 这些数据进行拟合;最后作统计分析。数据拟合是计算方法的内容,它也能解 决回归分析中的数据拟合,但回归分析与计算方法的数据拟合不同,计算方法 的数据拟合只估计未知参数,而回归分析不仅仅估计参数,而且要对拟合的结 果作统计分析。1 3 j j 一般地,我们有 定义1 1 y = b o + 匆t + + bx + ( 1 。1 ) 称为多元线性回归模型,其中e e = o , d 6 = 盯2 ;6 0 ,岛,石,t 7 2 是未知参数。称 为常数项或截距,五,x 。是解释变量,本文中把它们作为确定变量;y 是响应 变量,为了区别,称( 1 1 ) 为理论回归模型。1 3 2 j 实际上,定义1 1 中应补充条件:不同次观测的误差互不相关,以与线性模 型等区别,也即是说定义1 2 更准确。 为了确定线性回规模型的未知参数,必须配有解释变量和响应变量的若干 次观测值。 定义1 2 ( 1 2 ) 称为整体回归模型,其中附有假设( g a u s s m a r k o v 条件) 9 h g + + 孵 哪 t 石。 玩 6 m + + + 一 一 十 t 历 反 + + 既 既 = = 咒 虬 m 胁 兑 x :、 :、 一 叭 x x m 以 厂,、,一, e e ,= 0 i = 1 , 2 ,n 蝌以 ( 1 2 ) 式可简写成矩阵形式以利公式推演, y = y l y n , 卢= b o b l b m s 1 s 月 ,x2 令 1 x l l 毛。 1 x h l x 月m 则( 1 2 ) 可写为 y = 即+ s ( 1 3 ) 定义1 2y = 即+ s 附有假设 fe e = 0 t 附( s ) :口2 , 称为整体线性回归模型,其中x 称为回归设计矩阵,通常简称为设计矩阵。 2 7 1 1 0 第三章沅水流域水库流量预报 3 1 引言 五强溪水库位于沅水下游,控制集雨面积8 3 8 0 0 亿m 3 ,占沅水流域面积9 3 。 五强溪水库总库容4 2 亿m 3 ,防洪库容1 3 6 亿m 3 ,它的防洪和发电作用在湖南省 具有十分重要的地位l lj 。因此,对流入水库的流量进行较为准确地预报具有重 大经济意义和政治意义。为使预报更加准确,运用聚类分析,把所有的观测数 据分类,并找出分类的依据和各类数据之间的关系,分别对他们进行建模,通 过回归的方法预报水库流量。 同时根据时间序列分析理论,我们还要研究流量本身在连续时间上的影 响,考虑时间序列模型,在回归中引入自回归。本文通过五强溪上游各个水文 观测站的观测数据,运用现代统计方法对流入五强溪水库的流量进行预报实践, 为和谐社会建设提供科学依据。 3 2分析观测数据和预建模 首先我们对原始数据进行分析,总共有河溪、浦市等2 2 个站点从1 9 9 6 年1 月2 日到2 0 0 4 年8 月1 0 日的雨量观测数据,还有1 0 个水文观测站包括五强溪 水库的流量观测数据,总的来说一年中无雨的情况较多,降雨期主要在春夏季, 另外,在观测数据中还存在不少误差,这些都是我们需要加以注意的。 其次我们选取一个小区域进行建模,对夺希一矮寨一三拱桥一兴隆场一河 溪这一区域进行分析,考虑连续4 天的观测数据,通过夺希、矮寨、三拱桥、 兴隆场、河溪的雨量,再加上河溪的流量建立河溪流量自回归的预报模型,画 出如下预报图( 见图1 ) ,图中黑色小加号代表实际值,红色小星号代表预报值。 漉t ( 锭疗柬,秒) 图l河溪流量自回归预报图 3 3模型存在的问题 在对运行结果进行分析后我们发现在雨量较大时预报比较接近,但总体上 误差还是较大。由于雨量的不连续性,并考虑到第二天的流量不仅跟当天的雨 量有关,跟前一天的流量也有关系。在用四天的数据建模时发现前几天的雨量 与流量影响不大,而有几个观测数据可能是观测或者记录中存在一些操作失误, 数据不符合实际情况,所以需要相应的对模型进行改进,并对有些错误的数据 进行处理。 第四章模型改进 4 1 分析数据做聚类分析 我们考虑先作影响分析,去除异常点,然后用聚类分析的方法对数据进行 分类,并对主要影响因素加上权重后再做自回归分析,这样得出的结果更为科 学合理,更加准确,从而使预报效果得到进一步改进。【3 3 j 野点出现的原因很多,例如:记录该次数据时存在误差,可能记录因变量 或自变量时,小数点错了;某次观测中,试验条件改变了;未考虑到的其它解 释变量在该次观测起作用了;误差项的绝对值特别大。野点会使估计出的的 a 回归系数,b l ,。d m 有很大计算误差,从而预报值也有很大误差。 为了预报五强溪水库的流量,我们可以根据河溪以上区域站点的雨量和流 入五强溪水库的站点流量进行建模。根据当地的地理情况,上游的水流经过一 天左右的时间就能流到水库,故而只需要考虑各地前一天的雨量,所观测的站 点包括双滩、清水坪、大合坪、浦市、河溪、丹青、阮陵、泸溪、坳坪、张家 坪、草龙潭、筒车坪、沅古坪、七甲坪、清浪、官庄、马底驿、棋坪、四都坪, 此外还有浦市、河溪、五强溪的流量。 每个观测站都有31 4 5 次观测值,为减少观测误差所带来的影响,我们先做 影响分析,去除异常点并且找出主要影响因子之后再对数据作聚类分析。通过 s a s 编程,以所有雨量站连续两天的降雨量为自变量,采用快速聚类法 ( f a s t c l u s t e r ) 分类,分为1 2 类,其分类情况如表1 所示: 表1各站雨量聚类分析表 c i u s t f r e q u e n r m ss t df r o ms e e dn e a r e s t d is t a n c e e r c y d e v i a tt o c i u s t e rb e t w e e n io nc l u s t e r ( 类)( 频数)( 标准离 o b s e r v a tjo n( 最近的c e n t r o i d s 差)( 与凝聚点类)( 类中心间 的距离)的距离) 1 25 5 1 181 0 4 7 3 7 226 0 5 5 10 4 8 738 4 2 4 5 3312 2 3 42 9 8 6 3 28 4 2 4 5 47 58 6 3 53 8 5 7 164 6 0 2 2 59 5 75 4 5 64 13 6 182 3 4 5 0 6412 6 3 53 5 6 9 01 04 4 0 8 6 7 1 11 18 3 14 2 6 2 11 05 6 9 6 1 82 0 5 72 5 3 3 5 0 0 0 752 3 4 5 0 9210 4 0 0 18 0 1 479 6 17 7 1098 9 5 43 2 8 7 864 4 0 8 6 11 1o8 1 15 9 7 4 122 11 0 8 6 9 5 17 6 145 19 0 o 4 2根据分类情况做回归预报 第1 类的两个数据都是异常点应舍去,其余几类按照数据的特点合并成3 种情况:第1 种情况取第8 类的数据,各水文观测点基本无雨;第2 种情况取 第5 类数据,部分地区有降雨,总体雨量不大;第3 种情况把余下的几类数据 合并,各站降雨量较大,降雨分布面积也较广。分别对每一种情况的数据作回 归分析。其中y 代表五强溪的流量,y t 代表五强溪前一天的流量,t 代表双滩, 清水,大合,浦市,河溪,丹青,阮陵,泸溪,坳坪,张家坪,草龙,筒车, 1 4 沅古,七甲,清浪,官庄,马底,棋坪,四都各站当天雨量之和,m 代表提前 一天各站的雨量之和,x 2 0 代表浦市的流量,x 2 l 代表河溪的流量,x 2 0 t 和x 2 l t 各 代表其前一天的流量【3 4 1 。 第1 种情况的模型为 y = - 3 8 4 6 6 + 0 6 6 7 幸只+ 2 9 7 1 枣r + o 1 0 9 幸m + o 7 5 2 奉x 2 0 + 3 7 2 7 事x 2 l 一0 3 4 7 幸x 2 0 ,一1 8 6 9 木x z l , 预报图( 图2 ) 如下所示,预测值与真实值误差在2 0 以内的达到了总预测量 的9 2 0 6 。 3 5 】 溢量e 谨劣棠川睁 图2第1 种模型预报图 第2 种情况模型为 y = 6 2 8 1 7 + o 5 8 3 幸只+ 3 0 2 1 木f 一0 0 5 8 m + o 6 3 9 毒x 2 0 + o 8 6 奉x 2 l 一0 2 8 6 + 恐们一0 3 0 9 奉x 2 i , 预报图( 图3 ) 如下所示,预测值与真实值误差在2 0 以内的达到了总预测量 的9 1 6 4 。 1 5 巍曩( 讶米,移) 图3第2 种模型预报图 第3 种情况的模型为 y = 2 0 4 9 4 7 6 + 0 2 7 2 奉只+ 3 2 5 6 t + o 3 2 木m + o 6 8 4 水x 2 0 - 0 2 4 6 木x 2 l - 0 1 8 4 木x 2 0 f + 0 4 6 2 x 2 l f 预报图( 图4 ) 如下所示,预测值与真实值误差在2 0 以内的达到了总预测量 的9 2 9 7 。 1 6 嚣重( 它彦米,移 图4第3 种模型预报图 从以上预报图可以看出,在雨量较大的第3 种模型中预报准确率最高,可 以在今后实际工作中加以运用,可有效地提高洪灾的预报准确度。而第1 、第2 种模型的预报准确率也都在9 0 以上,这充分验证了模型的可靠性。 4 3模型的不足 在本文中我们首先运用影响分析去除了数据中存在的异常点,找出主要的 影响因子然后使用快速聚类的方法对数据进行分类,在此过程中由于聚类分析 方法本身的特性,使用不同的聚类方法所得出的结论可能各不相同,因此我们 在选择聚类方法的过程中经过初步比较确定了快速聚类法,但并未对其他几种 聚类方法所产生的结果进行深入研究,几种聚类方法之间的横向比较及应用还 待在今后做进一步的研究。对分类方法的选用还有待进一步的验证。模型还不 能实现实时数据自动分析,各步骤之间还需要我们进行分析之后才能进入下一 个步骤。 1 7 第二部分l o g i s t i c 回归模型 在高校教师教学质量评估中的应用 第五章绪论 5 1研究目的与意义 一个科学合理的评估体系是保证教育体制改革顺利进行的有力措施,也有 利于师资队伍的优化,提高教学质量,提升办学水平。如何对高校教师的教学 工作进行综合测评,建立定量的科学的评判标准,是十分重要的。目前有一些 定量的评判标准,其构成带有很大的主观成分。本文提出的l o g i s t i c 回归分析 的方法则可以避免主观性,把科学的考察和专家的意见综合起来,从而得到较 为客观公正的评判结果。 5 2研究背景 l o g i s t i c 回归分析作为一种有效的数据处理方法被广泛应用,尤其在医学、 社会调查、生物信息处理等领域。在国内,对l o g i s t i c 回归的研究主要集中在 应用方面。近年来,l o g i s t i c 回归的应用研究在继续拓展。国外开始进行将其 应用于多实例标签包( 1 a b e l e d b a go f i n s t a n c e s ) 分类问题的研究。 3 6 1 国内也开始 注意应用累积l o g i s t i c 回归尤其是多分类累积l o g i s t i c 回归分析和处理的相关问 题。吴兆奇运用l o g i s t i c 分析建立了学生考试成绩与招生类型之间的关系。 3 7 】 王全众,针对具有相关关系的分类数据的统计分析,介绍了两类l o g i s t i c 回归模 型,并分析了它们的联系与区别。【3 8 】邹志红基于l o g i s t i c 回归方法建立了一种 水质级别预测模型,利用长江流域的水质监测数据,进行水质建模,对水质级别做 出预测。研究结果表明利用l o g i s t i c 回归进行水质分析,具有良好的拟合和预测 效果。 3 9 】陈广等在医学研究中介绍引进了l o g i s t i c 回归分析,并应用于判别分 析时取得了较高的准确性和较好的预测效果。 4 0 1 1 8 第六章l o g i s t i c 回归分析介绍 l o g i s t i c 回归属于概率型非线性回归,假设在自变量五,恐,作用 下,某事件的发生概率为p ,则该事件不发生的概率就为1 一p ,发生概率与不 发生概率之比为l ,记作“优势”( o d d s ) ,对o d d s 取自然对数,即得逻辑斯 1 p 缔( l o g i s t i c ) 函数。 l o g i t ( p ) = i n ( o d d s ) = j n ( l ) 称为p 的l o s i t 变换,则l o g i s t i c 回归模型为 l o g i t ( p ) = 砌( 了! - ) = 卢o + j b l 墨+ 应x 2 + + 成+ s ( 1 ) 式( 1 ) 中成为常数项,卢。,卢:,卢。称为回归系数,误差项s 是随机变量,均值 为零,方差存在。并且从中可以看出,当p 在( o ,1 ) 之间变化时,对应的l o g i t ( p ) 在( 砌,佃) 之间变化,这样,自变量五,x 2 ,靠可在任意范围内取值。 首先将评判对象划为若干等级,即等级y = i ,2 ,k ,y 是有向属性变量, 等级越高,对教师评价越好。对教师考察定量指标而,而,。令 p ,= p ( y f ) ( 江1 ,2 ,七) 。 建立多等级的l o g i s t i c 回归模型。 l i l ( 了羔l ) = 屈o + 卢l 五+ 卢。x m + s , ( ,= 1 ,2 ,k ) 对若干教师考察其定量指标五,x 2 ,再由专家对这些教师等级y 打分。由这些典型数据得到回归系数卢m p r 卢。的估计值卢卢p 卢肼。对每一 个待判教师,由他的而, 而, , 值, 通过 i n ( _ l ) = 卢。+ 卢。x l + 卢。石脚 f = 1 ,2 k ,算出他达到每一等级的概率, 判他为概率最大的等级。 1 9 第七章评估高校教师教学质量 7 1 确定主要影响因子并建立模型 以某高校数理学院的2 4 位任课老师为评估对象建立模型。对高校教师一学 期工作情况的评价大致可以分为四个方面:任课总课时数,科研课题完成状况 ( 或发表论文篇数) ,是否参与编辑教材和同学对老师的评价。我们分别对两个 班7 8 名同学做了不计名的问卷调查,主要针对教学内容、课堂规范、思路拓展 和语言表达这几点让他们给这2 4 位老师打分,除去一些不符合规范的问卷,得 到每位老师的平均得分( x 5 ) ,若在4 分以下的用1 表示,在4 4 5 分的用2 表示, 在4 5 分以上的用3 表示。 接着我们又调查了一下2 4 位老师的其他几项数据,其中年龄( x 1 ) 在3 0 - 4 0 岁之间的我们用1 表示,在4 0 5 0 之间的用2 表示,在5 0 6 0 之间的用3 表示; 一学期任课的总课时数( x 2 ) 在1 0 0 课时以下的用1 表示,在1 0 0 1 5 0 之间的用2 表示,在1 5 0 以上的用3 表示;一学期在核心杂志上发表的论文数量或完成的 子课题数( x 3 ) ;参与编辑教材( x 4 ) ,是用1 表示,否用0 表示。 在这里我们把对老师的评价分为优秀犁,称职型和有待改进型三个等级。 综合由院系领导评分、评估专家评分和教职工互评这三方面,得到一个比较客 观全面的结果,设为y ,优秀型用3 表示,标准型用2 表示,有待改进型用l 来表示。另外预留两位( 即2 5 ,2 6 号) 没有评定等级老师的数据,通过模型进 行预测检验。具体数据如表2 所示: 表2综合评测表 。轷分 年龄总课时课题( 论文)编辑教材学生评分 总体评估 内容 教师 x l x 2 x 3x 4x 5 y 1130o1l 223oo21 3231ol2 4313o 3 3 5 2 22122 6l210 21 2 0 7312l33 8l3oo22 9232133 1 0223033 1 l l3l 03 2 1 2 l 32 o2 2 1 3 2 3 oo2 l 1 4 l2oo2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论