(机械电子工程专业论文)复印机维修信息系统统计解析数学模型的建立.pdf_第1页
(机械电子工程专业论文)复印机维修信息系统统计解析数学模型的建立.pdf_第2页
(机械电子工程专业论文)复印机维修信息系统统计解析数学模型的建立.pdf_第3页
(机械电子工程专业论文)复印机维修信息系统统计解析数学模型的建立.pdf_第4页
(机械电子工程专业论文)复印机维修信息系统统计解析数学模型的建立.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r5 3 5 7 复印机维修信息系统统计解析数学模型的建立 张其前 摘,要 论文的样本采集自某公司复印机维修信息系统的从1 9 9 7 至2 0 0 1 年公司复印 机的维修记录,数据的性质为从多元、离散、非数量化的。论文在传统的分析方 法基础上,应用专业的统计分析软件,提取相关数据,应用一种数量化方法,进 行了数量化计算,建立相应的数学模型同时,在理论上,对回归分析的方法傲 了比较详细的介绍,并引入将线性回归分析和分类回归树( c a r t ) 分析相结合 的方法,在定量和定性方面对数学模型求解。最后,在s p l u s 中进行以上两种 回归分析计算,并进行了比较,给出复印机维修信息系统统计解析的结果,得到 了数学模型的解。 关键词:数学建模,数量化,回归分析,线性回归,分类回归树,s - p l u s 。v 7 v 田1 e 嫩t h e m a d c a lm o d e le s t a b l i s h m e n to ft h ed u p l i c a t o rm a i n t a i n i n g i n f o r m a t i o ns y s t e mw i t hs t a t i s t i c sr e s o l u t i o n 2 a m n gq i q i a n a b s t r a e t t h es a m p l eo ft h i st h e s i si sc o l l e c t e df r o mac e r t a i nc o m p a n y sd u p l i c a t o r m a i n t a i n i n gi n f o r m a t i o ns y s t e m mm a i n t a i n i n g r e c o r d sa r ef r o m1 9 9 7t o2 0 0 ly e a r , a n dt h ed a t ai sa l m o s td i s c r e t e ,m u l t i v a r i a t ea n dn o n - q u a n t i t y i nt h et h e s i sia p p l y t 1 1 e p r o f e s s i o n a ls t a t i s t i ca n da n a l y s i ss o f t w a r eo n t h eb a s eo ft r a d i t i o n a la n a l y s i sm e t h o d , w i t h d r a wr e l a t e dd a t a , a d o p tak i n do fm e t h o dt oq u a n t i f yt h ed a t a ,a n de s t a b l i s h c o r r e s p o n d i n gm a t h e m a t i c a l m o d e l a tt h es a m et i m e id os o m ed e t a i j e di n t r o d u c t i o n a b o u tt h er e g r e s s i o nm e t h o dt h e o r e t i c a l l y , a n di n t r o d u c eak i n do ft h o u g h tw h i c h i st o c o m b i n et h el i n e a rr e g r e s s i o nm e t h o da n dc l a s s i f i c a t i o na n dr e g r e s s i o nt r e e ( c a r t l m e t h o d i no r d e rt oa n a l y s i st i l em o d e li nq u a n t i t ya n dq u a l i t y f i n a l l y , ip r o c e e d r e g r e s s i o na n a l y s i sw i t hs u c ht w om e t h o di nt h es p l u s g a i nt h ea n a l y s i sr e s u l tf r o m t h e d u p l i c a t o rm a i n t a i n i n g i n f o r m a t i o n s y s t e m a n dg e t t h es o l u t i o no ft h e m a t h e m a t i c sm o d e l k e y w o r d s :m a t h e m a t i c a lm o d e l i n g ,q u a n t i t i v em e t h o d ,l i n e a rr e g r e s s i o n , c l a s s i f i c a t i o na n dr e g r e s s i o nt r e e ,s - p l u s 2 、 墨里壁堡焦星墨筌丝竺堑塾兰堡垒箜塞皇 一一一兰l ! 堕 第一章绪论 1 1 论文的研究意义 随着网络信息化社会的到来,当前人们所担心的不再是信息匮乏,而是面对 如此多的信息感到不知所措,不知道如何从中提取有用的信息,从而造成了信息 资源的巨大浪费。因此信息化不等于数据处理的自动化,只有寻找一种合适的 数据解析方法,构造一种针对某类信息进行处理的模型才能从抽象的、繁杂的数 据提取所需的信息,真正实现信息的价值。 统计学是处理数据的科学。教科书中的记述统计侧重数据的收集加工整理, 而数理统计侧重数据处理的”科学性”。一般而言”科学”要求有客观性、再现性和 普遍性。为表现这种科学性,研究者常喜欢用数学模型。因为数学比较简明,严 谨,比较抽象。数理统计就运用数学工具,记述数据产生的过程,描述概率分布, 进行推理,作假定检验,形成了一个比较完整的理论体系。 计算机的发展使得比较复杂的数据计算变得简便了,并成为统计计算的重要 工具。当今,微机的普及,英特网的使用,使社会产生了很大的变革,使信息传 递的质和量都发生了飞跃的变化。同时,由英特网所联接起来的微机,使得个人 也能处理以往仅由国家和企业所控制的信息。计算机的功能已经大大超出了计 算,更重要的是可以广泛大量地进行各种数据信息的检索处理。 在这种状况下对统计学的应用而言,一个常见的问题就是可利用数据量的显 著增大。在有自动计测的计算机的地方,从工厂的流水线到超级市场的收款机, 都是直接连续地记录数据,数据的单位有时会超过兆亿,甚至兆兆亿。这与费舍 时代的数据处理量相比较,原有统计学教科书的理论框架就不太适用了。比如在 固定的模型中对超大样本条件下所进行的假设检验,都会得出被拒绝的结果。 在以计算机为主体的信息产业发展中特别值得统计学瞩目的方法技术有,图 形,画像的操作及人机对话( u s e ri n t e r f a c e ) ,专家咨询系统( e x p e r ts y s t e m ) ,英特网 的使用等。这些与统计学的研究有着密切的联系,具有未来科学的普遍性。其中, 特别是英特网的使用。在以往的统计软件包中,数据解析的程序,执行程序的控 制装置( c p u ) ,解析的数据都是在同一计算机上实行。但现在由于英特网的使用, 这些都是在不同的计算机上实行,而且有时它们散布在世界各个地方。在这种环 境下,统计解析的软件包也要与英特网的使用相适应,要创造出积极利用英特网 的统计解析环境。 浙江工业大学硕士学位论文 、 复印机维修信息系统统计解析数学模型的建立 第一章绪论 企业随着规模的不断扩大,其相关数据也同时不断的在积累,在膨胀。这些 数据的性质大多为多元、离散、非数量化的,甚至由于数据输入软件编写的不规 范,还存在着大量的冗余数据,因此,在未对这些数据进行处理以前,我们无法 从中得到有用的信息,即使得到相关信息,也不可靠。然而也正是这些历史数据, 也可以提供很多宝贵的资料,使我们对企业产品品牌性能、公司员工的工作效率、 以及企业的长远规划方面,起着非常重要的指导作用。比如在论文中的复印机维 修信息系统中,主要有3 0 个表组成;每个表中的数据就有1 5 万余条,数据量 庞大,而且还存在若干数据冗余现象。而现今的传统的企业管理软件,起到统计 作用的只有统计报表功能,这对数据本身来说,无疑为巨大的信息资源的浪费。 但是,如果能够充分利用这些数据,选择合适的统计解析方法,我们可以对复印 机的品牌性能、公司员工的工作效率、复印机区域分布等做出统计分析,得到有 用信息。 1 2课题概要 本论文在传统的分析方法基础上,应用专业的统计分析软件,从多元、离散、 非数量化的数据中提取相关数据,进行数量化计算,建立相应的数学模型,并在 s - p l u s 中进行线性回归和树形回归分析,提取出有用的数据。本文所做的主要 研究内容如下。 第二章对数学建模做了简要的阐述,并对怎样建立完整的数学模型进行了比 较详细的论述。本章的最后,给出了本论文所分析的项目的数学模型建立过程框 图。 第三章对复印机数据库的样本数据进行分析,采集了相关数据,并对数据进 行了数量化处理。在数量化的基础上,为了确定因变量复印机的品牌性能,将样 本数据由每条数据项对应的是每次维修召唤转换为每条数据对应于每台复印机。 第四章对回归分析方法做了介绍。首先介绍传统的线性回归方法,然后对基 于树形的回归方法分类回归树( c a r t ) 做了介绍,最后提出将二者结合进 行统计分析的思想。 第五章用专业统计分析软件s - p l u s 对第三章的数量化的结果进行统计分 析,分别用线性回归和树形回归对比的方式,给出分析结果。 第六章对本文研究的内容作了一些结论与展望。 浙江工业大学磺士学位论文 1 3论文的主要贡献 、 复印机维修信息系统统计解析数学模型的建立 第一章绪论 本论文的主要贡献可以归纳为以下几点: 1 ) 样本数据的数量化方法。 从多元、离散、非数量化的数据中提取出数据库相关字段,作为自变量,并 对这些自变量进行了分析,应用一种数量化算法,给出了数量化的结果。为了确 定应变量复印机的品牌性能,在论文中对样本数据进行了重新构造,将样本 数据由每条数据项对应的是每次维修召唤转换为每条数据对应于每台复印机。在 不影响数学模型的基本构架的基础上,对原来的样本数据在e x c e l 中进行了分类 汇总和分类求和。 2 ) c a r t 树的深入研究。 对目前回归分析中的热门话题分类回归树( c a r t ) 进行了探讨,介绍了 c a r t 的构造算法,即在整体样本数据的基础上,生成一个层次多,叶节点多的 大树,以充分反映数据之间的联系( 这时这个树往往反映的是训练过度情况下的 数据联系) ,然后对其进行删减,产生一系列子树,从中选择适当大小的树,用 于对数据进行分类。同时对c a r t 的剪枝算法和最优树的选择的问题上做了初 步探讨,并提出了将线性回归分析和c a r t 回归分析相结合的回归分析方法,对 数学模型进行定量和定性分析。 3 ) 线性回归和c a r t 综合分析,建立统计解析模型。 介绍了一种统计分析专业软件一s p l u s ,和传统的三大统计分析软件 ( s p s s ,s a s 和b m d p ) 相比,s - p l u s 有着强大的功能,它强调演示图形、探索 性数据分析、统计方法、开发新统计工具的计算方法,以及可扩展性。s - p l u s 可以直接用来进行标准的统计分析得到所需结果,但是它的主要的特点是它可 以交互地从各个方面去发现数据中的信息,并可以很容易地实现一个新的统计 方法。最后,我们对本数学模型,用线性回归和c a r t 回归分析方法,对样本数 据进行了定量和定性统计分析,得出相关的结论。 浙江工业大学硕士学位论文 墨! 墨丝堡堕皇墨竺竺生竺堑墼兰堡至箜蔓皇 蔓三兰茎主苎翌塑堡垒墨塞皇塑兰塑里! ! ! 塾墨 第二章数学模型的概念及建立数学模型的过程 2 1 数学模型的基本概念 数学模型的含义很广,提法也不一。一般来说,按照广义的解释,凡是一切 数学概念、数学理论体系、各种数学公式、各种方程式( 代数方程、函数方程、 微分方程、差分方程、积分方程等) 以及由公式系列构成的算法系统等都被称为 数学模型。按照狭义的解释,凡是将具体现象、事物的特征和性质给以数学表达 的数学结构,如各种等式、不等式、图、表或框图等,也叫数学模型。更简洁的, 也可以认为数学模型就是用数学术语对现实问题的具体描述。 既然数学模型是以解决现实问题而建立起来的。它必须反映现实,也就是反 映现实问题的数量关系。但是由于能用数学表示的事物是有限的,因此在许多情 况下,与现象完全相吻合的数学表述是不可能的。数学模型作为一种模型,必须 对现象做出一些必要的简化和假设,首先要忽略现实问题中与数量无关的因素, 其次还要忽略一些其次的数量因素。正是由于这种原因,可以说数学模型是用数 学关系式描述的一种假定情况。 建立数学模型的过程称为数学建模。用数学方法解决现实问题的第一步就是 建立数学模型,然而数学建模决非易事,通常要经过多次反复,即通过对现实问 题的探求,经简化,抽象,建立初步的数学模型,再通过各种检验和评价,发现 模型的不足之处,然后做出改进,得到新的模型,这样的过程通常需要重复多次 才能得到理想的数学模型。 在现实问题中,由于特定对象系统形形色色,千差万别,描述它们的模型也 就种类繁多。下面介绍几种常见的数学模型的分类方法。 ( 1 ) 按照模型所使用的数学方法可分为确定模型、随机模型和模糊模型。 确定模型:模型相应的实际对象具有确定性和固定性,对象间又具有必然的 关系,这类模型的表示形式可以是各种各样的方程式、关系式、逻辑关系式、网 络图等,所使用的方法是经典的数学方法。 随机性模型:这类模型的实际对象具有随机性,数学模型的表示工具是概率 论、过程论及数理统计等。 模糊性模型:这类模型所相应的实际对象及关系具有模糊性,数学模型的基 本表示工具是f u z 巧集合理论及f l l z z y 逻辑等。 ( 2 ) 按照对研究对象的了解程度,有所谓的白箱模型、灰箱模型和黑箱模 型。 浙江工业大学硕士学位鎏文 复印机维修信息系统统计解析数学模型的楚蔓三童墼堂塑型塑壅查垦蔓皇墼塑皇塑塾墨 这里白箱是指可以用像力学、电路理论等一些机理( 指数量关系方面) 清楚 的学科来描述的现象。其中需要研究的主要是优化设计和控制方面的问题:灰箱 主要是指化工、水文、地质、气象、交通、经济等领域中机理尚不清楚的理象, 对这类问题,在建立和改善模型方面还有很多工作要做;至于黑箱,主要包括的 可能是生态、生理、医学、社会等领域中一些机理更不清楚的现象。黑箱问题过 去作定性研究较多,但研究逐渐往定量化方向发展。定性因素数量化一般采用模 糊数学的方法、优度法及比较矩阵法。 ( 3 ) 按照数学模型的结构可分为分析的、非分析的和图论的。分析的模型 是以无穷小量概念为基础研究函数中变量之间的依赖关系,如常微分方程、偏微 分方程、积分变换、无穷级数和积分方程等:非分析的模型是用符号系统来表示 方程或表达式中变量和常数的运算关系( 如代数) ,或者研究他们的坐标关系( 如 几何) 、集合论、群论、抽象几何均属此类;图论的模型是以点和点的连线( 有 向的和无向的) 组成的用来表示各种关系的图形,既能表达分析的问题,又能表 达非分析的问题,具有独特的运算形式,如结构树图、决策树图、状态图等。 ( 4 ) 按照模型研究变量特征,可以分为离散模型和连续模型:或者线性模 型和非线性;或者单变量模型和多变量模型;或者静态模型和动态模型:或者参 数定常模型和参数时变模型;或者集中参数模型和分布参数模型等。 ( 5 ) 按照模型研究对象所属的实际领域有工程模型、人工模型、交通模型、 生态模型、生理模型、经济模型、社会模型等。 最后还要指出,数学模型建模的方法与其他抽象方法是不同的。它除对现实 问题中的事物、过程和现象进行抽象,还必须要用某种文字、符号、图形、数学 公式描述客观事物的特征及内在的联系,然后对它们进行研究、分析、检验,并 导出结论。数学建模方法与实验方法也不同,它不要求对事物过程或现象本身进 行科学实验,只通过模拟这些事物过程和现象的模型进行验证。正因为如此,这 种数学建模方法在解决实际问题中得到了广泛的应用。 2 2 怎样建立一个完整的数学模型 数学建模是利用数学工具来解决实际问题的重要手段。一般来说一个好的数 学模型应具备以下特点。 ( 1 ) 对所给的问题有比较全面的考虑。在一个实际问题中,往往有很多的 因素同时对所研究的对象发生作用,进行数学描述时,应全面的对这些因素加以 考虑。这项工作可分为三步进行。 1 ) 列举各种因素: 2 ) 选取主要因素计入模型: 3 ) 考虑其他因素的影响,对模型进行修正。 浙江工业大学硕士学位论文 5 墨望垫丝竺垡:璺墨竺竺盐竺堑茎兰堡型塑塞皇 苎三兰壅堂堡型塑塑查墨墨皇垄兰望望些! 堕墨 ( 2 ) 在已有的模型基础上进行创造性改造。数学模型是现实对象的抽象化、 理想化的产物,它不为对象所属的领域所独有,可转移到另外的领域。在生态、 经济、社会领域内建模就常常借用物理领域中的模型,能否对已有的模型做出创 造性的改进,是考虑一个数学模型优劣的重要标志。 ( 3 ) 善于抓住问题本质,简化变量之间的关系。数学模型应当是针对实际 问题的本质刻化,模型过于复杂,则无法求解或者求解困难,就不能反映客观实 际。因此建模的原则是:模型尽可能简单明了,思路清晰,能不采用则尽量不采 用高深的数学知识,不追求模型技术的完美,而侧重子实际应用。 ( 4 ) 注重结果分析,考虑其在实际中的合理性。数学建模是一个从实际到 数学,再从数学到实际的过程。由于现有的模型仅依赖于问题中的数据,则如果 从模型得出的结果和实际吻合,模型是成功的,如果差别较大,模型是失败的。 ( 5 ) 具有较好的稳定性。数学模型是依据已有的数据和其他信息建立的, 它的价值在于能够从已知的信息预测未知的东西。因此,一个好的模型的结果对 原始数据应该有较好的依赖性,即原始数据或参数的微小变动不会引起结果很大 的变化,这是模型适用性和有效性的保证。 在了解了数学模型的特定之后,下面给出建立数学模型的方法和步骤: ( 1 ) 明确问题 要建立现实问题的数学模型,第一步是对要解决的问题有一个明确清晰的提 法,通常我们碰到的某个实际问题,在开始阶段是比较含糊不清的,有带有实际 背景,因此在建模前必须对问题进行全面深入细致的了解和调查,查阅有关文献, 同时要着手收集有关数据,收集数据时应事先考虑好数据的整理形式,例如利用 表格或框图形式等。在这期间还应仔细分析已有的数据和条件,使问题进一步明 确化。即从数据中可得到什么信息? 数据来源是否可靠? 所给的条件有什么意 义? 哪些条件是本质的? 哪些条件可以变动的等。对数据和条件的分析结果会进 一步增强我们对问题的了解,使我们更好的抓住问题的本质及特征,为建立数学 模型打下良好的基础。 ( 2 ) 进行合理的假设 建立数学模型的主要耳的在于解决现实中的问题,然而现实问题不经过理 想化、简单化就很难转变成数学问题,即使可能,也会因为过于复杂而很难求 解。因此,做出合理的假设在数学建模中起着至关重要的作用,所谓合理的假 设是指既能抓住问题的本质特征,又能使问题得到简化,便于进行数学描述, 称这样的假设为简化问题的假设,这里要提醒注意的是:对于一个假设,最重 要的是它是否符合实际的情况,而不是为了解决问题的方便。 如何对问题提出合理的假设是一个比较困难的问题,这因为假设做的过于 简单,则使模型远离现实,无法用来解决实际问题,假设过于详细,试图把复 杂的对象的各方面因素都考虑进去,模型就会非常的复杂甚至难以建立。通常 做出合理假设的依据一是出于对问题内在规律的认识,二是来自对数据或现象 浙江工业大学硕士学位论文 墨塑垫丝堡笪垒墨竺竺盐竺堑墼堂堡翌堕塞皇 墨三兰墼兰堡型堕苎查墨蔓皇墼堂兰垩! ! 垫墨 的分析,也可以是两者的综合。作假设时既要运用与问题相关的物理、化学、 生物、经济等方面的知识,又要充分发挥想象力、洞察力和判断力,善于辨别 问题的主次,抓住主要因素,尽量使问题简化( 比如线性化、均匀化等) 。经验 在这里也常起重要作用。 最后要指出,有些假设在建模过程中才会发现。因此在建模重要注意调整 假设。以使模型尽可能地接近实际。 ( 3 ) 建立模型 在已有假设的基础上,利用合适的数学工具,建立描述问题中变量之间的 关系,确定其数学结构,就得到了实际问题的数学模型。 这里有两点要注意:其一,构造一个具体问题模型时,首先应构成尽可能 简单的数学模型,然后把构造简单的模型与实际问题进行比较,再考虑将次要 因素归纳进去,逐渐逼近现实来修改模型,使之趋于完善。也就是说,数学建 模是一个不断完善精确化的过程。切忌建模之初就把问题复杂化。其二,要善 于借鉴已有问题的数学模型,许多实际问题,尽管现象和背景不同,但却具有 相同的模型,例如力学中描述力、质量和加速度之间的关系的牛顿第二定律 f = m a ,经济学中描述单价,销售金额和销售量之间关系的公式c = p q 等,数学模 型都是y = k x 。一个数学模型应用于多个实际问题是屡见不鲜的。要学会观察 和分析,透过现象,抓住问题的本质特征,利用已有模型,或在已有模型上进 行修正,以此提高我们的建模水平。 ( 4 ) 模型求解 不同的模型要用到不同的数学工具求解。可以采用解方程、画图形、证明 定理、逻辑运算、数值计算等各种传统的和近代的数学方法,但多数场合模型 必须依靠计算机数值求解。熟练利用数学软件包会为我们求解带来方便。 ( 5 ) 模型的检验与修正 建立数学模型的目的在于解决实际问题。因此必须把模型所得的结果返回 到实际问题,如果模型结果与实际状况相符合,表明模型经检验是符合实际问 题的,如果模型结果很难与实际相符合,表明这个模型与所研究的实际问题是 不符合的,不能直接将它应用于实际问题。这时数学模型的建立过程如果没有 问题,就需要考察建模时关于问题所作的假设是否合理,检查是否忽略的因素 或还保留着不应该保留的因素。对假设给出必要的修正,重复前面的建模过程, 直到使模型能反映所给的实际问题。 建立数学模型的步骤可以用下面的框图表示。 i 复印机维修信息系统统计解析数学模型的建立第二章数学模塑概念及建立数学模型的过程 2 3 复印机维修信息系统统计解析数学模型的建立过程 在论文中,我们主要是对某公司复印机维修信息系统的数据建立数学模型, 然后进行系统分析。此系统包含了公司在近十年来复印机维修信息的所有数据, 数据量大,而且数据繁杂,数据冗余现象也比较严重。公司要求在此数据的基础 上,对复印机的品牌性能、公司员工工作业绩、公司复印机销售及利润状况做出 定量分析,并能够应用所得到的模型,对公司以后的发展做出相应的预测和规划。 在本小节中,我们给出此系统数学模型的建立过程,见图2 3 1 。 数据 导入 假设 简化 因变量 确定 样本数据 库生成 数据量化 自变量 确定 回归 分析 线性 回归 树形 回归 模型 优化 模型 建立 模型 应用 模型初始化 数据库分析 统计解析 模型生成 图2 3 1 复印机维修信息系统统计解析数学模型的建立过程 2 4 本章小结 本章中,我们介绍了数学模型的基本概念,数学模型就是为了准确的理解和 分析现实的存在,并预测其未来发展,从而做出的现实存在的数学表述或转译。 并给出了数学模型的特点和建立数学模型的过程,在本章的最后,结合本论文的 浙江工业大学硕士学位论文 复印机维修信息系统统计解析数学模型的建立第二章数学模型的概念及建立数学模型的过程 实际课题,我们给出了复印机维修信息系统统计解析数学模型的建立过程的框 架。 浙江工业大学硕士学位论文 - 9 、 墨竺垫丝堡堡星墨竺鉴盐竺堑塾兰蔓型竺塞皇 墨三兰竺茎竺塑堂查鍪塑壁! 墅塑量! ! 兰丝 第三章统计解析样本数据库的分析与量化 3 i 样本数据库的描述 本论文的任务是对某复印机公司的数据库做统计分析。资料样本采自1 9 9 7 年至2 0 0 1 年公司复印机维修记录,其资料性质为多元、离散的。要求通过分析, 对复印机的品牌性能、公司员工工作业绩、公司复印机销售及利润状况等做出统 计分析,为公司在产品设计以及员工管理方面进行改进的依据。 公司复印机维修系统数据库主要有3 0 个表组成:用户信息表、机器信息表、 维修信息表、发票信息表、更换材料信息、库存信息表、出库信息表、故障代码 信息表、派工信息表等。每个表中的数据有1 5 万余条,例如,维修信息表内数 据项有4 5 4 4 9 条,表的字段有3 3 个,信息非常繁杂,而且还存在若干冗余数据。 因此,在进行统计分析以前,必须对数据库中的各个表进行分析整理,将表中的 和因变量关联的数据整合成一个数据表。在此表的基础上,将每个表的字段看作 一个自变量x ,进一步进行统计分析。同时,由于只有数量化的数据才可以作为 统计解析的自变量,对所选择的相关表进行数量化是统计解析的非常关键的一 步。 由于对每个因变量的分析都有着相似性,在本论文中,我们以着重讨论复印 机的品牌性能为因变量y 。在下面各章节,如不加说明,我们所围绕的统计分析 都是如此。 3 2 样本数据的采集 由于维修系统数据库由数十万条资料组成,信息量非常的大。如果每次都对 所有资料进行分析访问,势必会影响到数据处理速度。因此,只采集与因变量相 干的样本数据进行分析是很有必要的。对本样本数据库分析做初步分析可知,和 复印机的品牌性能y 相关的数据表可能有:用户信息表( t u s e r ) 、机器信息表 ( t _ m a c h i n e ) 、维修信息表( t _ m a i n t a i l l ) 和故障代码表( t _ c o d e ) 。再从以上四个 浙江工业大学硕士学位论文 复印机维修信息系统统计解析教学模型的建立第三章统计解析样本数据库的分析与量化 表中选取相关字段,在a c c e s s 数据库中,其字段属性为下表所示。 字段名数据类型字段长度所属数据表字段描述 u s e r i dt e x t1 6tu s e r 用户编号 a r e a s o r tt e x t2tu s e t 区域分布 m o d e lt e x t2 0tm a c h i n e 机器型号 s e r i e s n ot e x t1 2tm a c h i l i e 机器序列号 c o u n t l n u m b e r1 0tm a c h i n e 计数器读数 i n s t d a t e d a t e t i m etm a i t a i n 安装日期 c a l l t y p e t e x t2tm a i t a i n 召唤类型 p r o b l e mt e x t6 0tm a i t a i n 故障现象 c a l l d a t e d a t e t i m etm a i t a i n 派工时间 表3 1 i 相关字段的提取 从以上四个表中,任意选取一条记录,其内容如表3 2 2 所示。 字段 内容 用户编号2 1 2 5 1 3 1 0 0 1 8 0 0 0 1 区域分布 0 2 机器型号x 0 2 l 机器序列号0 0 0 0 1 2 7 计数器读数8 6 5 8 3 3 安装日期1 9 9 8 一i j 召唤类型 0 1 故障现象 底灰机内污染:漏粉单边 派工时间2 0 0 1 - 4 一1 78 :3 0 :0 0 表3 2 2 相关字段的实例 将以上四个表中的相关数据整合,可以a c c e s s 中建立查询,应用如下s q l 语 句。 s e l e c td i s t i n c tt _ u s e r u s e r l d ,t _ u s e r a r e a s o r t ,t 姒i n t a i n c a l l t v d e t _ m a i n t a i n c o d e i d ,t _ m a i n t a i n p r o b l e m ,t _ m a i n t a i n c a i1 0 a t e ,rm a i n t a i n c o u n t l ,t _ m a c h i n e m o d e l ,t _ i a c h i n e s e r i e s s o ,t _ m a c h i n e i n s t d a t e f r o mt _ m a c h i n ei n n e rj o i n ( t u s e ri n n e rj o i nt _ m a i n t a i no nt u s e r u s e r i d 2t _ m a i n t a i n u s e r l d ) o ntm a c h i n e s e r i e s n o = t y t a i n t a i n s e r i e s n o : 其中, t u s e r :用户信息表; t _ m a i n t a i n :维修信息表: t m a c h i n e :机器信息表。 浙江工业大学硕士学位论文 复印机维修信息系统统计解析数学模型的建立第三皇缝塑签堑堂奎墼堡堕塑分堑皇垦些 在a c c e s s 中,执行完s q l 语句后的结果如下。 图3 2 1 样本数据的提取 3 3 样本数据数量化的方法 3 3 1 非数量因素的引入 8 在数学统计模型中,所有因素都可以通过数量来表达它们的各种水平。例如 表3 1 1 中的计数器读数( c o u n t l ) 字段类型为数字型。可以通过数量来表示这 些因素值的各种水平。我们把这些可以通过数量表达它们各自水平的因素叫数量 浙江工业大学硕士学位论文 复印机维修信息系统统计解析数学模型的建立 第三章统计解析样本数据库的分析与量化 因素或量的因素。另一方面,我们处理实际问题时还经常遇到一种不能用数量来 表达它们各自情况的因素。例如表3 i i 中的故障现象字段就不能用数量表达。 像这类因素我们统称之为非数量因素或质的因素。我们要建立这类因素影响目标 变量的规律的数学模型时,就必须先把它们“数量化”,就是用数量来表达它们 不同的情况后,再用相应的建模方法来建立有关的数学模型。 设y 是一个因变量,它依赖于p 个非数量因素x ,x :,x 。,设 因素z 可取g 。种不同的情况:x f l ) ,z :”,x t ;因素z 2 可取9 2 种不同的 情况:,x i ”,x ! ;因素,可取g ,种不同的情况:z :,爿罗”。 这些z 都不是数量,只表达各个因素的不同水平。我们要建立套以z ,为 “变元”的函数 x l = ( x 1 ) ,x 2 = ( x 2 ) ,x ,= l ( x 。) 。 问题是如何定出这p 个函数的数值规律。令 x = 一( x ,) ,x 1 2 = 工( x f 2 ) ,x = z ( ,) ; x = ( x ,) ,x i 2 2 ( x i 2 ) 一,z = ( ;引) ; ( 3 3 1 ) x := 厶( ? ) ,z = f j x ( 2 ) ,。= l ? 9 ) 这些函数值x i 正是我们下边要确定的。 现在取y 关于x 、,x :,。x 。的线性回归方程 多= c ,x 、+ c ! x 2 + + c 口工。 考虑选g ,c :,c ,和确定z 的值使 q = e ( y 。一声,) 2 取最小( n 为样本容量) 。y ,与多分别表示第i 次y 的采样值与由上边回归方程做 出的预测值。 y 的取值可如下来实现。设对y 和x l ,x 2 x 。作n 次观测得个容量为n 的 样本,见表3 3 l 。对每次观测来说,y 的值是在x 。z 2 z 。中哪个水平取得的, 就在各个因素相应的水平处画个钩把第i 个抽样的函数x 。,x :,x ,的值依次记 浙江工业大学硕士学位论文 复印机维修信息系统统计解析数学模型的建立第三章缝计断登数据库的分析兰量化 为x l ( ) ,x 2 ( ,) ,x p ( 。) 代入q 即可得下式。 q = e ( y 。2 c t x l ( 。) 一c 2 x 2 ( 。) 一一c p z p ( ,) ) 2 ( 3 3 2 ) = l 漆 x 。 x j x p x j ”f “一彳:“x j “x j “x : x 譬x x l , 效、 1 y j 2 y 2 l y , n y 。 肝n 埘 ”卜”n ”扎n 牡n ? 一 3 3 2 问题的解法 表3 3 1 非数量因素的转化 为了使上述问题便于求解,引入些新函数。 2 搿:= i , x 即i = x ( 2 棚旷船测 妒:z 2 【。1 , ,3 2 2 2 := x x ! i 1 。) ) ,妒:= 1 , x 2 2 - x ( 2 ) ,p :。= 【。1 , ,x x 2 := x x i i q 。: 这时 浙江工业大学硕士学位论文 z = 1 , x p = x 詈 1 4 毕础 = 卫 x x 置 k 吼0 ,、【 = 艘 妒 攀q i | p p x x l o ,、l = p 妒 墨! 墨丝堡堡昼墨鎏竺盐竺堑茎兰堡型塑兰兰 墨三兰竺生竺堑壁查墼塑壁塑坌堑皇墨些 x l = z ( x 1 ) = 工:u 仍l + 2 妒1 2 + + x ;仍m 工2 = a ( x 2 ) = x 物2 l 十是2 妒2 2 + + 妒2 ,: x ,2a ( x ,) 2x ;妒,+ z 了妒,:+ + x 了p 。 夕= c 】x 1 + c 2 x 2 + + c p 石p = c l z 妒1 1 + c l z j 2 妒1 2 + + c 】x ,妒i 。 + c 2 z 物2 l + c 2 x ;2 p 2 2 + + c 2 x + c p x 物,- + c p x 了妒,:+ + c p x 妒。, 代入式3 3 3 可以确定c 。,c 2 ,c ,及各z ,显然可令 c i z f “= x i l ,c i x f 2 = x ”,c i x l “= x h ; c :x 磐也,c :工;”= x ”c 2 = 。趣 ( 3 3 4 ) q 3 萋( 圹( m 一! ,”,) 电,蝇! ,b 0 2 q :) 一一( x p l 妒,】,+ z p 2 妒,2 ,+ + x 胛,妒) ) 2 望:望: 谢1 l 幽1 2 :旦:o 出月。 ( 3 3 5 ) 得m 个未知数_ t 满足的m 个方程。用。表示函数纨的第,次采样值,得到 浙江工业大学硕士学位论文 - 1 5 胛 一 l i 押p r p c p y = 忙p x p c , r = i p 工 0 得日正于 取q使唐数 个 m = + g + g 共 胛 r 目 l 。g xx择 。 选 小令 在 最 现 值 堡空垫丝堡笪星墨竺竺盐竺堑墼兰堡型箜塞皇 苎三兰竺盐竺堑登查墼塑壁苎坌堑:! ! ! 坠 “狲n2 m :弛n + ”乜。轨嗝轨弛n 心:善n 畅驷n 肌,坼z 喜+ + 善n , :l y ,仍 h 仍( a t + x 1 2 c p l 2 o l g l + m h 元l 蝎l r p 2 1 ( p l q l + x 2 2 2 , ( p 2 2 o i q lx l l 乙仍1q l乙g l + ”+ 一m 乙l + 。2 l 己 + 。 + + x 2 口:敛目:吼q 。+ + x p l 妒p l 纯g l + x p 2 妒p 2 朔q 1 + + x 妒月, = y 毛纯,妒。+ x i2 仍:+ + x 。仍,p k 。+ x :。仍+ x :仍:妒, + + x :,二仍。:。+ + x ,+ x ,:( o p ,+ + x p q p , = y , 一,仍,+ z t z 仍:,+ + z ,+ x z t 仍一,+ x z :仍:, + + x 2 q 1 2 ,如1 ( p 呻p + + x n 2 - ( ;p 口i 华羽p 七xp 2 , ( d p 2 ( p p qp + + x 明p 1 2 ,明j r、1 一 p = e y ( p 。 q 。个 其中,在上式中,我们略去了每个妒p 的右下标f 和下面的i = l 及上面的 i = 。 第一组g 个方程相加,得 x t 。妒j + x 1 2 p 之+ + 石妒j 。+ x :。妒i + x 2 2 9 刍+ + x :,:妒刍:+ + x p t 妒;。+ x p 2 妒;:+ + x p q p 妒二。= l y 第二组g :个方程相加,得 浙江工业大学硕士学位论文 j 6 - 复印机维修信息系统统计解析数学模型的建立 第三章统计解析样本数据库的分析与量化 第p 组g 。个方程相加,得 一,p j + x 1 2 妒矗+ “+ 一。缈孟+ x 2 1 妒;+ 如妒刍+ + x 2 q 2 妒乇+ + 石川妒;+ x ,:妒;z + + x 。,妒二,= y 这样得到的p 个方程右边都相等,令前后两组方程的左边和相等,可得p - 1 个方程,因此我们看出,上边m = q 。+ g :+ + q 。个方程中,实质上最多有 m 一( p 1 ) 个是线性独立的,所以为求出- 个未知数x 一般至少要另加p 一1 个线性独立的方程,组成m 个线性独立方程组。我们取p 1 个方程为 x 2 1 = o ,如1 = 0 ,r m = 0 假设补充了这p 1 个条件后,可唯一解出套x 。值来。和一般情形一样,取 s = j 吉( j ,夕。) 2 s 越小预报精度越高。参考文献:8 ,1 5 6 一1 5 8 1k 日) ,任意补充p 一1 个独立的x 。的 线性方程构成m 个独立的线性方程并获得唯一一套解x 。时,做出的y 的预测结 果不变。 3 4 样本数据数量化处理 从上节对数据量化处理的推导过程可以看出,在对样本数据进行数量化以 前,必须对数据按定的规律进行分类。比如对表3 3 2 中,字段安装日期 ( i n s t d a t e ) ,为1 9 9 8 一卜5 ,而我们感兴趣的只是复印机的安装年份,以复印机 的安装年份为自变量,看随着时间的推移,复印机性能的变化。因此,我们必须 对此字段进行数量化处理,只选择数据字段中的年份。对于其他字段,我们同样 面临类似的问题。 下面,我们对表3 1 1 中的每个字段进行逐分析。 ( 1 ) 用户编号( u s e r i d ) 用户编号字段是作为在a c c e s s 中机器信息表( tm a c h i n e ) 和用户信息表 ( t _ u s e r ) 相关联的关键字。在选取与因变量相干字段进行查询时为防止数据重 浙江工业大学硕士学位论文 壅塑塾丝堡焦星墨竺竺茎竺塑墨兰苎型箜苎皇 苎三兰生塑竺墅塑望墅墅塑生型垦! 堡丝 复而选择的,不作为统计分析的自变量,而只是作为每一资料条目的识别符,对 此字段,我们不做处理。 ( 2 ) 区域分布( a r e a s o r t ) 区域分布字段是确定客户复印机分布性质的字段,字段值有0 1 ( 市内) 、0 2 ( 市郊) 、0 3 ( 市外) 和0 4 ( 其他) 。复印机处于不同的地域环境,其故障率可 能会有些差别。比如在市内的复印机使用频率一般要比市郊或市外高,其故障发 生的可能性就大一些,然而市内的操作工人一般要比市郊或市外的操作工人对复 印机熟练,所以误操作引起的故障可能性要小一些。 在表3 , 2 2 中,区域分布代码为0 2 ( 市郊) 。设区域分布字段为自变量x ,。 共有4 中不同的情况:z ? ,x “,z j ”,f ”。其信息可由表3 4 1 表示 区域分 自变量z 布代码 市内( x ;”)市郊( x :2 )市外( z h其他( x 引) 0 2 表3 4 1 区域分布自变量的量化 ( 3 ) 机器型号( m o d e l ) 从机器型号表( tm o d e l ) 中可以得知,公司的复印机主要有2 5 个机型: x 0 0 1 x 0 2 5 。但是有些机型维修记录很少,比如x 0 0 5 共有6 5 条维修记录,此 机型的维修记录不能达到选择样本要求的数量,即使对它进行分析,也不可能得 出具有代表性的结果。因此,在本论文中我们选择了维修记录大于5 0 0 条的共 1 0 个机型进行分析( 表3 4 2 ) 。 型号 x o o lx 0 0 3x 0 0 4x 0 0 6x 0 0 8x 0 0 9x 0 1 8 x 0 1 9x 0 2 1x 0 2 2 记录 条数 5 0 l o1 3 9 32 6 1 42 9 6 28 1 63 2 5 81 5 5 21 2 6 43 8 1 0 7 3 8 总计 2 3 4 1 7 表3 4 2 机器型号的选择 上表可以看出,共2 3 4 1 7 条记录,包括了所有维修记录( 2 6 1 7 7 ) 的绝大部 分,而且其他机型维修记录很少,在此不予统计分析。对表3 2 2 中的例子,在 进行数量化计算以前,我们可以表示如下 浙江工业大学硕士学位论文 复印机维修信息系统统计解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论