（机械电子工程专业论文）复印机维修信息系统统计解析数学模型的建立.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：70 大小：2.16MB 积分：0 举报 版权申诉

（机械电子工程专业论文）复印机维修信息系统统计解析数学模型的建立.pdf_第2页

（机械电子工程专业论文）复印机维修信息系统统计解析数学模型的建立.pdf_第3页

（机械电子工程专业论文）复印机维修信息系统统计解析数学模型的建立.pdf_第4页

（机械电子工程专业论文）复印机维修信息系统统计解析数学模型的建立.pdf_第5页

已阅读5页，还剩65页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

r5 3 5 7 复印机维修信息系统统计解析数学模型的建立张其前摘，要论文的样本采集自某公司复印机维修信息系统的从1 9 9 7 至2 0 0 1 年公司复印机的维修记录，数据的性质为从多元、离散、非数量化的。论文在传统的分析方法基础上，应用专业的统计分析软件，提取相关数据，应用一种数量化方法，进行了数量化计算，建立相应的数学模型同时，在理论上，对回归分析的方法傲了比较详细的介绍，并引入将线性回归分析和分类回归树( c a r t ) 分析相结合的方法，在定量和定性方面对数学模型求解。最后，在s p l u s 中进行以上两种回归分析计算，并进行了比较，给出复印机维修信息系统统计解析的结果，得到了数学模型的解。关键词：数学建模，数量化，回归分析，线性回归，分类回归树，s - p l u s 。v 7 v 田1 e 嫩t h e m a d c a lm o d e le s t a b l i s h m e n to ft h ed u p l i c a t o rm a i n t a i n i n g i n f o r m a t i o ns y s t e mw i t hs t a t i s t i c sr e s o l u t i o n 2 a m n gq i q i a n a b s t r a e t t h es a m p l eo ft h i st h e s i si sc o l l e c t e df r o mac e r t a i nc o m p a n y sd u p l i c a t o r m a i n t a i n i n gi n f o r m a t i o ns y s t e m mm a i n t a i n i n g r e c o r d sa r ef r o m1 9 9 7t o2 0 0 ly e a r , a n dt h ed a t ai sa l m o s td i s c r e t e ，m u l t i v a r i a t ea n dn o n - q u a n t i t y i nt h et h e s i sia p p l y t 1 1 e p r o f e s s i o n a ls t a t i s t i ca n da n a l y s i ss o f t w a r eo n t h eb a s eo ft r a d i t i o n a la n a l y s i sm e t h o d ， w i t h d r a wr e l a t e dd a t a , a d o p tak i n do fm e t h o dt oq u a n t i f yt h ed a t a ，a n de s t a b l i s h c o r r e s p o n d i n gm a t h e m a t i c a l m o d e l a tt h es a m et i m e id os o m ed e t a i j e di n t r o d u c t i o n a b o u tt h er e g r e s s i o nm e t h o dt h e o r e t i c a l l y , a n di n t r o d u c eak i n do ft h o u g h tw h i c h i st o c o m b i n et h el i n e a rr e g r e s s i o nm e t h o da n dc l a s s i f i c a t i o na n dr e g r e s s i o nt r e e ( c a r t l m e t h o d i no r d e rt oa n a l y s i st i l em o d e li nq u a n t i t ya n dq u a l i t y f i n a l l y , ip r o c e e d r e g r e s s i o na n a l y s i sw i t hs u c ht w om e t h o di nt h es p l u s g a i nt h ea n a l y s i sr e s u l tf r o m t h e d u p l i c a t o rm a i n t a i n i n g i n f o r m a t i o n s y s t e m a n dg e t t h es o l u t i o no ft h e m a t h e m a t i c sm o d e l k e y w o r d s ：m a t h e m a t i c a lm o d e l i n g ，q u a n t i t i v em e t h o d ，l i n e a rr e g r e s s i o n ， c l a s s i f i c a t i o na n dr e g r e s s i o nt r e e ，s - p l u s 2 、墨里壁堡焦星墨筌丝竺堑塾兰堡垒箜塞皇一一一兰l ! 堕第一章绪论 1 1 论文的研究意义随着网络信息化社会的到来，当前人们所担心的不再是信息匮乏，而是面对如此多的信息感到不知所措，不知道如何从中提取有用的信息，从而造成了信息资源的巨大浪费。因此信息化不等于数据处理的自动化，只有寻找一种合适的数据解析方法，构造一种针对某类信息进行处理的模型才能从抽象的、繁杂的数据提取所需的信息，真正实现信息的价值。统计学是处理数据的科学。教科书中的记述统计侧重数据的收集加工整理，而数理统计侧重数据处理的”科学性”。一般而言”科学”要求有客观性、再现性和普遍性。为表现这种科学性，研究者常喜欢用数学模型。因为数学比较简明，严谨，比较抽象。数理统计就运用数学工具，记述数据产生的过程，描述概率分布，进行推理，作假定检验，形成了一个比较完整的理论体系。计算机的发展使得比较复杂的数据计算变得简便了，并成为统计计算的重要工具。当今，微机的普及，英特网的使用，使社会产生了很大的变革，使信息传递的质和量都发生了飞跃的变化。同时，由英特网所联接起来的微机，使得个人也能处理以往仅由国家和企业所控制的信息。计算机的功能已经大大超出了计算，更重要的是可以广泛大量地进行各种数据信息的检索处理。在这种状况下对统计学的应用而言，一个常见的问题就是可利用数据量的显著增大。在有自动计测的计算机的地方，从工厂的流水线到超级市场的收款机，都是直接连续地记录数据，数据的单位有时会超过兆亿，甚至兆兆亿。这与费舍时代的数据处理量相比较，原有统计学教科书的理论框架就不太适用了。比如在固定的模型中对超大样本条件下所进行的假设检验，都会得出被拒绝的结果。在以计算机为主体的信息产业发展中特别值得统计学瞩目的方法技术有，图形，画像的操作及人机对话( u s e ri n t e r f a c e ) ，专家咨询系统( e x p e r ts y s t e m ) ，英特网的使用等。这些与统计学的研究有着密切的联系，具有未来科学的普遍性。其中，特别是英特网的使用。在以往的统计软件包中，数据解析的程序，执行程序的控制装置( c p u ) ，解析的数据都是在同一计算机上实行。但现在由于英特网的使用，这些都是在不同的计算机上实行，而且有时它们散布在世界各个地方。在这种环境下，统计解析的软件包也要与英特网的使用相适应，要创造出积极利用英特网的统计解析环境。浙江工业大学硕士学位论文、复印机维修信息系统统计解析数学模型的建立第一章绪论企业随着规模的不断扩大，其相关数据也同时不断的在积累，在膨胀。这些数据的性质大多为多元、离散、非数量化的，甚至由于数据输入软件编写的不规范，还存在着大量的冗余数据，因此，在未对这些数据进行处理以前，我们无法从中得到有用的信息，即使得到相关信息，也不可靠。然而也正是这些历史数据，也可以提供很多宝贵的资料，使我们对企业产品品牌性能、公司员工的工作效率、以及企业的长远规划方面，起着非常重要的指导作用。比如在论文中的复印机维修信息系统中，主要有3 0 个表组成；每个表中的数据就有1 5 万余条，数据量庞大，而且还存在若干数据冗余现象。而现今的传统的企业管理软件，起到统计作用的只有统计报表功能，这对数据本身来说，无疑为巨大的信息资源的浪费。但是，如果能够充分利用这些数据，选择合适的统计解析方法，我们可以对复印机的品牌性能、公司员工的工作效率、复印机区域分布等做出统计分析，得到有用信息。 1 2课题概要本论文在传统的分析方法基础上，应用专业的统计分析软件，从多元、离散、非数量化的数据中提取相关数据，进行数量化计算，建立相应的数学模型，并在 s - p l u s 中进行线性回归和树形回归分析，提取出有用的数据。本文所做的主要研究内容如下。第二章对数学建模做了简要的阐述，并对怎样建立完整的数学模型进行了比较详细的论述。本章的最后，给出了本论文所分析的项目的数学模型建立过程框图。第三章对复印机数据库的样本数据进行分析，采集了相关数据，并对数据进行了数量化处理。在数量化的基础上，为了确定因变量复印机的品牌性能，将样本数据由每条数据项对应的是每次维修召唤转换为每条数据对应于每台复印机。第四章对回归分析方法做了介绍。首先介绍传统的线性回归方法，然后对基于树形的回归方法分类回归树( c a r t ) 做了介绍，最后提出将二者结合进行统计分析的思想。第五章用专业统计分析软件s - p l u s 对第三章的数量化的结果进行统计分析，分别用线性回归和树形回归对比的方式，给出分析结果。第六章对本文研究的内容作了一些结论与展望。浙江工业大学磺士学位论文 1 3论文的主要贡献、复印机维修信息系统统计解析数学模型的建立第一章绪论本论文的主要贡献可以归纳为以下几点： 1 ) 样本数据的数量化方法。从多元、离散、非数量化的数据中提取出数据库相关字段，作为自变量，并对这些自变量进行了分析，应用一种数量化算法，给出了数量化的结果。为了确定应变量复印机的品牌性能，在论文中对样本数据进行了重新构造，将样本数据由每条数据项对应的是每次维修召唤转换为每条数据对应于每台复印机。在不影响数学模型的基本构架的基础上，对原来的样本数据在e x c e l 中进行了分类汇总和分类求和。 2 ) c a r t 树的深入研究。对目前回归分析中的热门话题分类回归树( c a r t ) 进行了探讨，介绍了 c a r t 的构造算法，即在整体样本数据的基础上，生成一个层次多，叶节点多的大树，以充分反映数据之间的联系( 这时这个树往往反映的是训练过度情况下的数据联系) ，然后对其进行删减，产生一系列子树，从中选择适当大小的树，用于对数据进行分类。同时对c a r t 的剪枝算法和最优树的选择的问题上做了初步探讨，并提出了将线性回归分析和c a r t 回归分析相结合的回归分析方法，对数学模型进行定量和定性分析。 3 ) 线性回归和c a r t 综合分析，建立统计解析模型。介绍了一种统计分析专业软件一s p l u s ，和传统的三大统计分析软件 ( s p s s ，s a s 和b m d p ) 相比，s - p l u s 有着强大的功能，它强调演示图形、探索性数据分析、统计方法、开发新统计工具的计算方法，以及可扩展性。s - p l u s 可以直接用来进行标准的统计分析得到所需结果，但是它的主要的特点是它可以交互地从各个方面去发现数据中的信息，并可以很容易地实现一个新的统计方法。最后，我们对本数学模型，用线性回归和c a r t 回归分析方法，对样本数据进行了定量和定性统计分析，得出相关的结论。浙江工业大学硕士学位论文墨! 墨丝堡堕皇墨竺竺生竺堑墼兰堡至箜蔓皇蔓三兰茎主苎翌塑堡垒墨塞皇塑兰塑里! ! ! 塾墨第二章数学模型的概念及建立数学模型的过程 2 1 数学模型的基本概念数学模型的含义很广，提法也不一。一般来说，按照广义的解释，凡是一切数学概念、数学理论体系、各种数学公式、各种方程式( 代数方程、函数方程、微分方程、差分方程、积分方程等) 以及由公式系列构成的算法系统等都被称为数学模型。按照狭义的解释，凡是将具体现象、事物的特征和性质给以数学表达的数学结构，如各种等式、不等式、图、表或框图等，也叫数学模型。更简洁的，也可以认为数学模型就是用数学术语对现实问题的具体描述。既然数学模型是以解决现实问题而建立起来的。它必须反映现实，也就是反映现实问题的数量关系。但是由于能用数学表示的事物是有限的，因此在许多情况下，与现象完全相吻合的数学表述是不可能的。数学模型作为一种模型，必须对现象做出一些必要的简化和假设，首先要忽略现实问题中与数量无关的因素，其次还要忽略一些其次的数量因素。正是由于这种原因，可以说数学模型是用数学关系式描述的一种假定情况。建立数学模型的过程称为数学建模。用数学方法解决现实问题的第一步就是建立数学模型，然而数学建模决非易事，通常要经过多次反复，即通过对现实问题的探求，经简化，抽象，建立初步的数学模型，再通过各种检验和评价，发现模型的不足之处，然后做出改进，得到新的模型，这样的过程通常需要重复多次才能得到理想的数学模型。在现实问题中，由于特定对象系统形形色色，千差万别，描述它们的模型也就种类繁多。下面介绍几种常见的数学模型的分类方法。 ( 1 ) 按照模型所使用的数学方法可分为确定模型、随机模型和模糊模型。确定模型：模型相应的实际对象具有确定性和固定性，对象间又具有必然的关系，这类模型的表示形式可以是各种各样的方程式、关系式、逻辑关系式、网络图等，所使用的方法是经典的数学方法。随机性模型：这类模型的实际对象具有随机性，数学模型的表示工具是概率论、过程论及数理统计等。模糊性模型：这类模型所相应的实际对象及关系具有模糊性，数学模型的基本表示工具是f u z 巧集合理论及f l l z z y 逻辑等。 ( 2 ) 按照对研究对象的了解程度，有所谓的白箱模型、灰箱模型和黑箱模型。浙江工业大学硕士学位鎏文复印机维修信息系统统计解析数学模型的楚蔓三童墼堂塑型塑壅查垦蔓皇墼塑皇塑塾墨这里白箱是指可以用像力学、电路理论等一些机理( 指数量关系方面) 清楚的学科来描述的现象。其中需要研究的主要是优化设计和控制方面的问题：灰箱主要是指化工、水文、地质、气象、交通、经济等领域中机理尚不清楚的理象，对这类问题，在建立和改善模型方面还有很多工作要做；至于黑箱，主要包括的可能是生态、生理、医学、社会等领域中一些机理更不清楚的现象。黑箱问题过去作定性研究较多，但研究逐渐往定量化方向发展。定性因素数量化一般采用模糊数学的方法、优度法及比较矩阵法。 ( 3 ) 按照数学模型的结构可分为分析的、非分析的和图论的。分析的模型是以无穷小量概念为基础研究函数中变量之间的依赖关系，如常微分方程、偏微分方程、积分变换、无穷级数和积分方程等：非分析的模型是用符号系统来表示方程或表达式中变量和常数的运算关系( 如代数) ，或者研究他们的坐标关系( 如几何) 、集合论、群论、抽象几何均属此类；图论的模型是以点和点的连线( 有向的和无向的) 组成的用来表示各种关系的图形，既能表达分析的问题，又能表达非分析的问题，具有独特的运算形式，如结构树图、决策树图、状态图等。 ( 4 ) 按照模型研究变量特征，可以分为离散模型和连续模型：或者线性模型和非线性；或者单变量模型和多变量模型；或者静态模型和动态模型：或者参数定常模型和参数时变模型；或者集中参数模型和分布参数模型等。 ( 5 ) 按照模型研究对象所属的实际领域有工程模型、人工模型、交通模型、生态模型、生理模型、经济模型、社会模型等。最后还要指出，数学模型建模的方法与其他抽象方法是不同的。它除对现实问题中的事物、过程和现象进行抽象，还必须要用某种文字、符号、图形、数学公式描述客观事物的特征及内在的联系，然后对它们进行研究、分析、检验，并导出结论。数学建模方法与实验方法也不同，它不要求对事物过程或现象本身进行科学实验，只通过模拟这些事物过程和现象的模型进行验证。正因为如此，这种数学建模方法在解决实际问题中得到了广泛的应用。 2 2 怎样建立一个完整的数学模型数学建模是利用数学工具来解决实际问题的重要手段。一般来说一个好的数学模型应具备以下特点。 ( 1 ) 对所给的问题有比较全面的考虑。在一个实际问题中，往往有很多的因素同时对所研究的对象发生作用，进行数学描述时，应全面的对这些因素加以考虑。这项工作可分为三步进行。 1 ) 列举各种因素： 2 ) 选取主要因素计入模型： 3 ) 考虑其他因素的影响，对模型进行修正。浙江工业大学硕士学位论文 5 墨望垫丝竺垡：璺墨竺竺盐竺堑茎兰堡型塑塞皇苎三兰壅堂堡型塑塑查墨墨皇垄兰望望些! 堕墨 ( 2 ) 在已有的模型基础上进行创造性改造。数学模型是现实对象的抽象化、理想化的产物，它不为对象所属的领域所独有，可转移到另外的领域。在生态、经济、社会领域内建模就常常借用物理领域中的模型，能否对已有的模型做出创造性的改进，是考虑一个数学模型优劣的重要标志。 ( 3 ) 善于抓住问题本质，简化变量之间的关系。数学模型应当是针对实际问题的本质刻化，模型过于复杂，则无法求解或者求解困难，就不能反映客观实际。因此建模的原则是：模型尽可能简单明了，思路清晰，能不采用则尽量不采用高深的数学知识，不追求模型技术的完美，而侧重子实际应用。 ( 4 ) 注重结果分析，考虑其在实际中的合理性。数学建模是一个从实际到数学，再从数学到实际的过程。由于现有的模型仅依赖于问题中的数据，则如果从模型得出的结果和实际吻合，模型是成功的，如果差别较大，模型是失败的。 ( 5 ) 具有较好的稳定性。数学模型是依据已有的数据和其他信息建立的，它的价值在于能够从已知的信息预测未知的东西。因此，一个好的模型的结果对原始数据应该有较好的依赖性，即原始数据或参数的微小变动不会引起结果很大的变化，这是模型适用性和有效性的保证。在了解了数学模型的特定之后，下面给出建立数学模型的方法和步骤： ( 1 ) 明确问题要建立现实问题的数学模型，第一步是对要解决的问题有一个明确清晰的提法，通常我们碰到的某个实际问题，在开始阶段是比较含糊不清的，有带有实际背景，因此在建模前必须对问题进行全面深入细致的了解和调查，查阅有关文献，同时要着手收集有关数据，收集数据时应事先考虑好数据的整理形式，例如利用表格或框图形式等。在这期间还应仔细分析已有的数据和条件，使问题进一步明确化。即从数据中可得到什么信息? 数据来源是否可靠? 所给的条件有什么意义? 哪些条件是本质的? 哪些条件可以变动的等。对数据和条件的分析结果会进一步增强我们对问题的了解，使我们更好的抓住问题的本质及特征，为建立数学模型打下良好的基础。 ( 2 ) 进行合理的假设建立数学模型的主要耳的在于解决现实中的问题，然而现实问题不经过理想化、简单化就很难转变成数学问题，即使可能，也会因为过于复杂而很难求解。因此，做出合理的假设在数学建模中起着至关重要的作用，所谓合理的假设是指既能抓住问题的本质特征，又能使问题得到简化，便于进行数学描述，称这样的假设为简化问题的假设，这里要提醒注意的是：对于一个假设，最重要的是它是否符合实际的情况，而不是为了解决问题的方便。如何对问题提出合理的假设是一个比较困难的问题，这因为假设做的过于简单，则使模型远离现实，无法用来解决实际问题，假设过于详细，试图把复杂的对象的各方面因素都考虑进去，模型就会非常的复杂甚至难以建立。通常做出合理假设的依据一是出于对问题内在规律的认识，二是来自对数据或现象浙江工业大学硕士学位论文墨塑垫丝堡笪垒墨竺竺盐竺堑墼堂堡翌堕塞皇墨三兰墼兰堡型堕苎查墨蔓皇墼堂兰垩! ! 垫墨的分析，也可以是两者的综合。作假设时既要运用与问题相关的物理、化学、生物、经济等方面的知识，又要充分发挥想象力、洞察力和判断力，善于辨别问题的主次，抓住主要因素，尽量使问题简化( 比如线性化、均匀化等) 。经验在这里也常起重要作用。最后要指出，有些假设在建模过程中才会发现。因此在建模重要注意调整假设。以使模型尽可能地接近实际。 ( 3 ) 建立模型在已有假设的基础上，利用合适的数学工具，建立描述问题中变量之间的关系，确定其数学结构，就得到了实际问题的数学模型。这里有两点要注意：其一，构造一个具体问题模型时，首先应构成尽可能简单的数学模型，然后把构造简单的模型与实际问题进行比较，再考虑将次要因素归纳进去，逐渐逼近现实来修改模型，使之趋于完善。也就是说，数学建模是一个不断完善精确化的过程。切忌建模之初就把问题复杂化。其二，要善于借鉴已有问题的数学模型，许多实际问题，尽管现象和背景不同，但却具有相同的模型，例如力学中描述力、质量和加速度之间的关系的牛顿第二定律 f = m a ，经济学中描述单价，销售金额和销售量之间关系的公式c = p q 等，数学模型都是y = k x 。一个数学模型应用于多个实际问题是屡见不鲜的。要学会观察和分析，透过现象，抓住问题的本质特征，利用已有模型，或在已有模型上进行修正，以此提高我们的建模水平。 ( 4 ) 模型求解不同的模型要用到不同的数学工具求解。可以采用解方程、画图形、证明定理、逻辑运算、数值计算等各种传统的和近代的数学方法，但多数场合模型必须依靠计算机数值求解。熟练利用数学软件包会为我们求解带来方便。 ( 5 ) 模型的检验与修正建立数学模型的目的在于解决实际问题。因此必须把模型所得的结果返回到实际问题，如果模型结果与实际状况相符合，表明模型经检验是符合实际问题的，如果模型结果很难与实际相符合，表明这个模型与所研究的实际问题是不符合的，不能直接将它应用于实际问题。这时数学模型的建立过程如果没有问题，就需要考察建模时关于问题所作的假设是否合理，检查是否忽略的因素或还保留着不应该保留的因素。对假设给出必要的修正，重复前面的建模过程，直到使模型能反映所给的实际问题。建立数学模型的步骤可以用下面的框图表示。 i 复印机维修信息系统统计解析数学模型的建立第二章数学模塑概念及建立数学模型的过程 2 3 复印机维修信息系统统计解析数学模型的建立过程在论文中，我们主要是对某公司复印机维修信息系统的数据建立数学模型，然后进行系统分析。此系统包含了公司在近十年来复印机维修信息的所有数据，数据量大，而且数据繁杂，数据冗余现象也比较严重。公司要求在此数据的基础上，对复印机的品牌性能、公司员工工作业绩、公司复印机销售及利润状况做出定量分析，并能够应用所得到的模型，对公司以后的发展做出相应的预测和规划。在本小节中，我们给出此系统数学模型的建立过程，见图2 3 1 。数据导入假设简化因变量确定样本数据库生成数据量化自变量确定回归分析线性回归树形回归模型优化模型建立模型应用模型初始化数据库分析统计解析模型生成图2 3 1 复印机维修信息系统统计解析数学模型的建立过程 2 4 本章小结本章中，我们介绍了数学模型的基本概念，数学模型就是为了准确的理解和分析现实的存在，并预测其未来发展，从而做出的现实存在的数学表述或转译。并给出了数学模型的特点和建立数学模型的过程，在本章的最后，结合本论文的浙江工业大学硕士学位论文复印机维修信息系统统计解析数学模型的建立第二章数学模型的概念及建立数学模型的过程实际课题，我们给出了复印机维修信息系统统计解析数学模型的建立过程的框架。浙江工业大学硕士学位论文 - 9 、墨竺垫丝堡堡星墨竺鉴盐竺堑塾兰蔓型竺塞皇墨三兰竺茎竺塑堂查鍪塑壁! 墅塑量! ! 兰丝第三章统计解析样本数据库的分析与量化 3 i 样本数据库的描述本论文的任务是对某复印机公司的数据库做统计分析。资料样本采自1 9 9 7 年至2 0 0 1 年公司复印机维修记录，其资料性质为多元、离散的。要求通过分析，对复印机的品牌性能、公司员工工作业绩、公司复印机销售及利润状况等做出统计分析，为公司在产品设计以及员工管理方面进行改进的依据。公司复印机维修系统数据库主要有3 0 个表组成：用户信息表、机器信息表、维修信息表、发票信息表、更换材料信息、库存信息表、出库信息表、故障代码信息表、派工信息表等。每个表中的数据有1 5 万余条，例如，维修信息表内数据项有4 5 4 4 9 条，表的字段有3 3 个，信息非常繁杂，而且还存在若干冗余数据。因此，在进行统计分析以前，必须对数据库中的各个表进行分析整理，将表中的和因变量关联的数据整合成一个数据表。在此表的基础上，将每个表的字段看作一个自变量x ，进一步进行统计分析。同时，由于只有数量化的数据才可以作为统计解析的自变量，对所选择的相关表进行数量化是统计解析的非常关键的一步。由于对每个因变量的分析都有着相似性，在本论文中，我们以着重讨论复印机的品牌性能为因变量y 。在下面各章节，如不加说明，我们所围绕的统计分析都是如此。 3 2 样本数据的采集由于维修系统数据库由数十万条资料组成，信息量非常的大。如果每次都对所有资料进行分析访问，势必会影响到数据处理速度。因此，只采集与因变量相干的样本数据进行分析是很有必要的。对本样本数据库分析做初步分析可知，和复印机的品牌性能y 相关的数据表可能有：用户信息表( t u s e r ) 、机器信息表 ( t _ m a c h i n e ) 、维修信息表( t _ m a i n t a i l l ) 和故障代码表( t _ c o d e ) 。再从以上四个浙江工业大学硕士学位论文复印机维修信息系统统计解析教学模型的建立第三章统计解析样本数据库的分析与量化表中选取相关字段，在a c c e s s 数据库中，其字段属性为下表所示。字段名数据类型字段长度所属数据表字段描述 u s e r i dt e x t1 6tu s e r 用户编号 a r e a s o r tt e x t2tu s e t 区域分布 m o d e lt e x t2 0tm a c h i n e 机器型号 s e r i e s n ot e x t1 2tm a c h i l i e 机器序列号 c o u n t l n u m b e r1 0tm a c h i n e 计数器读数 i n s t d a t e d a t e t i m etm a i t a i n 安装日期 c a l l t y p e t e x t2tm a i t a i n 召唤类型 p r o b l e mt e x t6 0tm a i t a i n 故障现象 c a l l d a t e d a t e t i m etm a i t a i n 派工时间表3 1 i 相关字段的提取从以上四个表中，任意选取一条记录，其内容如表3 2 2 所示。字段内容用户编号2 1 2 5 1 3 1 0 0 1 8 0 0 0 1 区域分布 0 2 机器型号x 0 2 l 机器序列号0 0 0 0 1 2 7 计数器读数8 6 5 8 3 3 安装日期1 9 9 8 一i j 召唤类型 0 1 故障现象底灰机内污染：漏粉单边派工时间2 0 0 1 - 4 一1 78 ：3 0 ：0 0 表3 2 2 相关字段的实例将以上四个表中的相关数据整合，可以a c c e s s 中建立查询，应用如下s q l 语句。 s e l e c td i s t i n c tt _ u s e r u s e r l d ，t _ u s e r a r e a s o r t ，t 姒i n t a i n c a l l t v d e t _ m a i n t a i n c o d e i d ，t _ m a i n t a i n p r o b l e m ，t _ m a i n t a i n c a i1 0 a t e ，rm a i n t a i n c o u n t l ，t _ m a c h i n e m o d e l ，t _ i a c h i n e s e r i e s s o ，t _ m a c h i n e i n s t d a t e f r o mt _ m a c h i n ei n n e rj o i n ( t u s e ri n n e rj o i nt _ m a i n t a i no nt u s e r u s e r i d 2t _ m a i n t a i n u s e r l d ) o ntm a c h i n e s e r i e s n o = t y t a i n t a i n s e r i e s n o ：其中， t u s e r ：用户信息表； t _ m a i n t a i n ：维修信息表： t m a c h i n e ：机器信息表。浙江工业大学硕士学位论文复印机维修信息系统统计解析数学模型的建立第三皇缝塑签堑堂奎墼堡堕塑分堑皇垦些在a c c e s s 中，执行完s q l 语句后的结果如下。图3 2 1 样本数据的提取 3 3 样本数据数量化的方法 3 3 1 非数量因素的引入 8 在数学统计模型中，所有因素都可以通过数量来表达它们的各种水平。例如表3 1 1 中的计数器读数( c o u n t l ) 字段类型为数字型。可以通过数量来表示这些因素值的各种水平。我们把这些可以通过数量表达它们各自水平的因素叫数量浙江工业大学硕士学位论文复印机维修信息系统统计解析数学模型的建立第三章统计解析样本数据库的分析与量化因素或量的因素。另一方面，我们处理实际问题时还经常遇到一种不能用数量来表达它们各自情况的因素。例如表3 i i 中的故障现象字段就不能用数量表达。像这类因素我们统称之为非数量因素或质的因素。我们要建立这类因素影响目标变量的规律的数学模型时，就必须先把它们“数量化”，就是用数量来表达它们不同的情况后，再用相应的建模方法来建立有关的数学模型。设y 是一个因变量，它依赖于p 个非数量因素x ，x ：，x 。，设因素z 可取g 。种不同的情况：x f l ) ，z ：”，x t ；因素z 2 可取9 2 种不同的情况：，x i ”，x ! ；因素，可取g ，种不同的情况：z ：，爿罗”。这些z 都不是数量，只表达各个因素的不同水平。我们要建立套以z ，为 “变元”的函数 x l = ( x 1 ) ，x 2 = ( x 2 ) ，x ，= l ( x 。) 。问题是如何定出这p 个函数的数值规律。令 x = 一( x ，) ，x 1 2 = 工( x f 2 ) ，x = z ( ，) ； x = ( x ，) ，x i 2 2 ( x i 2 ) 一，z = ( ；引) ； ( 3 3 1 ) x ：= 厶( ? ) ，z = f j x ( 2 ) ，。= l ? 9 ) 这些函数值x i 正是我们下边要确定的。现在取y 关于x 、，x ：，。x 。的线性回归方程多= c ，x 、+ c ! x 2 + + c 口工。考虑选g ，c ：，c ，和确定z 的值使 q = e ( y 。一声，) 2 取最小( n 为样本容量) 。y ，与多分别表示第i 次y 的采样值与由上边回归方程做出的预测值。 y 的取值可如下来实现。设对y 和x l ，x 2 x 。作n 次观测得个容量为n 的样本，见表3 3 l 。对每次观测来说，y 的值是在x 。z 2 z 。中哪个水平取得的，就在各个因素相应的水平处画个钩把第i 个抽样的函数x 。，x ：，x ，的值依次记浙江工业大学硕士学位论文复印机维修信息系统统计解析数学模型的建立第三章缝计断登数据库的分析兰量化为x l ( ) ，x 2 ( ，) ，x p ( 。) 代入q 即可得下式。 q = e ( y 。2 c t x l ( 。) 一c 2 x 2 ( 。) 一一c p z p ( ，) ) 2 ( 3 3 2 ) = l 漆 x 。 x j x p x j ”f “一彳：“x j “x j “x ： x 譬x x l ，效、 1 y j 2 y 2 l y ， n y 。肝n 埘 ”卜”n ”扎n 牡n ? 一 3 3 2 问题的解法表3 3 1 非数量因素的转化为了使上述问题便于求解，引入些新函数。 2 搿：= i , x 即i = x ( 2 棚旷船测妒：z 2 【。1 , ，3 2 2 2 ：= x x ! i 1 。) ) ，妒：= 1 , x 2 2 - x ( 2 ) ，p ：。= 【。1 , ，x x 2 ：= x x i i q 。：这时浙江工业大学硕士学位论文 z = 1 , x p = x 詈 1 4 毕础 = 卫 x x 置 k 吼0 ，、【 = 艘妒攀q i | p p x x l o ，、l = p 妒墨! 墨丝堡堡昼墨鎏竺盐竺堑茎兰堡型塑兰兰墨三兰竺生竺堑壁查墼塑壁塑坌堑皇墨些 x l = z ( x 1 ) = 工：u 仍l + 2 妒1 2 + + x ；仍m 工2 = a ( x 2 ) = x 物2 l 十是2 妒2 2 + + 妒2 ，： x ，2a ( x ，) 2x ；妒，+ z 了妒，：+ + x 了p 。夕= c 】x 1 + c 2 x 2 + + c p 石p = c l z 妒1 1 + c l z j 2 妒1 2 + + c 】x ，妒i 。 + c 2 z 物2 l + c 2 x ；2 p 2 2 + + c 2 x + c p x 物，- + c p x 了妒，：+ + c p x 妒。，代入式3 3 3 可以确定c 。，c 2 ，c ，及各z ，显然可令 c i z f “= x i l ，c i x f 2 = x ”，c i x l “= x h ； c ：x 磐也，c ：工；”= x ”c 2 = 。趣 ( 3 3 4 ) q 3 萋( 圹( m 一! ，”，) 电，蝇! ，b 0 2 q ：) 一一( x p l 妒，】，+ z p 2 妒，2 ，+ + x 胛，妒) ) 2 望：望：谢1 l 幽1 2 ：旦：o 出月。 ( 3 3 5 ) 得m 个未知数_ t 满足的m 个方程。用。表示函数纨的第，次采样值，得到浙江工业大学硕士学位论文 - 1 5 胛一 l i 押p r p c p y = 忙p x p c ， r = i p 工 0 得日正于取q使唐数个 m = + g + g 共胛 r 目 l 。g xx择。选小令在最现值堡空垫丝堡笪星墨竺竺盐竺堑墼兰堡型箜塞皇苎三兰竺盐竺堑登查墼塑壁苎坌堑：! ! ! 坠 “狲n2 m ：弛n + ”乜。轨嗝轨弛n 心：善n 畅驷n 肌，坼z 喜+ + 善n ，：l y ，仍 h 仍( a t + x 1 2 c p l 2 o l g l + m h 元l 蝎l r p 2 1 ( p l q l + x 2 2 2 , ( p 2 2 o i q lx l l 乙仍1q l乙g l + ”+ 一m 乙l + 。2 l 己 + 。 + + x 2 口：敛目：吼q 。+ + x p l 妒p l 纯g l + x p 2 妒p 2 朔q 1 + + x 妒月， = y 毛纯，妒。+ x i2 仍：+ + x 。仍，p k 。+ x ：。仍+ x ：仍：妒， + + x ：，二仍。：。+ + x ，+ x ，：( o p ，+ + x p q p ， = y ，一，仍，+ z t z 仍：，+ + z ，+ x z t 仍一，+ x z ：仍：， + + x 2 q 1 2 ，如1 ( p 呻p + + x n 2 - ( ；p 口i 华羽p 七xp 2 , ( d p 2 ( p p qp + + x 明p 1 2 ，明j r、1 一 p = e y ( p 。 q 。个其中，在上式中，我们略去了每个妒p 的右下标f 和下面的i = l 及上面的 i = 。第一组g 个方程相加，得 x t 。妒j + x 1 2 p 之+ + 石妒j 。+ x ：。妒i + x 2 2 9 刍+ + x ：，：妒刍：+ + x p t 妒；。+ x p 2 妒；：+ + x p q p 妒二。= l y 第二组g ：个方程相加，得浙江工业大学硕士学位论文 j 6 - 复印机维修信息系统统计解析数学模型的建立第三章统计解析样本数据库的分析与量化第p 组g 。个方程相加，得一，p j + x 1 2 妒矗+ “+ 一。缈孟+ x 2 1 妒；+ 如妒刍+ + x 2 q 2 妒乇+ + 石川妒；+ x ，：妒；z + + x 。，妒二，= y 这样得到的p 个方程右边都相等，令前后两组方程的左边和相等，可得p - 1 个方程，因此我们看出，上边m = q 。+ g ：+ + q 。个方程中，实质上最多有 m 一( p 1 ) 个是线性独立的，所以为求出- 个未知数x 一般至少要另加p 一1 个线性独立的方程，组成m 个线性独立方程组。我们取p 1 个方程为 x 2 1 = o ，如1 = 0 ，r m = 0 假设补充了这p 1 个条件后，可唯一解出套x 。值来。和一般情形一样，取 s = j 吉( j ，夕。) 2 s 越小预报精度越高。参考文献：8 ，1 5 6 一1 5 8 1k 日) ，任意补充p 一1 个独立的x 。的线性方程构成m 个独立的线性方程并获得唯一一套解x 。时，做出的y 的预测结果不变。 3 4 样本数据数量化处理从上节对数据量化处理的推导过程可以看出，在对样本数据进行数量化以前，必须对数据按定的规律进行分类。比如对表3 3 2 中，字段安装日期 ( i n s t d a t e ) ，为1 9 9 8 一卜5 ，而我们感兴趣的只是复印机的安装年份，以复印机的安装年份为自变量，看随着时间的推移，复印机性能的变化。因此，我们必须对此字段进行数量化处理，只选择数据字段中的年份。对于其他字段，我们同样面临类似的问题。下面，我们对表3 1 1 中的每个字段进行逐分析。 ( 1 ) 用户编号( u s e r i d ) 用户编号字段是作为在a c c e s s 中机器信息表( tm a c h i n e ) 和用户信息表 ( t _ u s e r ) 相关联的关键字。在选取与因变量相干字段进行查询时为防止数据重浙江工业大学硕士学位论文壅塑塾丝堡焦星墨竺竺茎竺塑墨兰苎型箜苎皇苎三兰生塑竺墅塑望墅墅塑生型垦! 堡丝复而选择的，不作为统计分析的自变量，而只是作为每一资料条目的识别符，对此字段，我们不做处理。 ( 2 ) 区域分布( a r e a s o r t ) 区域分布字段是确定客户复印机分布性质的字段，字段值有0 1 ( 市内) 、0 2 ( 市郊) 、0 3 ( 市外) 和0 4 ( 其他) 。复印机处于不同的地域环境，其故障率可能会有些差别。比如在市内的复印机使用频率一般要比市郊或市外高，其故障发生的可能性就大一些，然而市内的操作工人一般要比市郊或市外的操作工人对复印机熟练，所以误操作引起的故障可能性要小一些。在表3 , 2 2 中，区域分布代码为0 2 ( 市郊) 。设区域分布字段为自变量x ，。共有4 中不同的情况：z ? ，x “，z j ”，f ”。其信息可由表3 4 1 表示区域分自变量z 布代码市内( x ；”)市郊( x ：2 )市外( z h其他( x 引) 0 2 表3 4 1 区域分布自变量的量化 ( 3 ) 机器型号( m o d e l ) 从机器型号表( tm o d e l ) 中可以得知，公司的复印机主要有2 5 个机型： x 0 0 1 x 0 2 5 。但是有些机型维修记录很少，比如x 0 0 5 共有6 5 条维修记录，此机型的维修记录不能达到选择样本要求的数量，即使对它进行分析，也不可能得出具有代表性的结果。因此，在本论文中我们选择了维修记录大于5 0 0 条的共 1 0 个机型进行分析( 表3 4 2 ) 。型号 x o o lx 0 0 3x 0 0 4x 0 0 6x 0 0 8x 0 0 9x 0 1 8 x 0 1 9x 0 2 1x 0 2 2 记录条数 5 0 l o1 3 9 32 6 1 42 9 6 28 1 63 2 5 81 5 5 21 2 6 43 8 1 0 7 3 8 总计 2 3 4 1 7 表3 4 2 机器型号的选择上表可以看出，共2 3 4 1 7 条记录，包括了所有维修记录( 2 6 1 7 7 ) 的绝大部分，而且其他机型维修记录很少，在此不予统计分析。对表3 2 2 中的例子，在进行数量化计算以前，我们可以表示如下浙江工业大学硕士学位论文复印机维修信息系统统计解

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（机械电子工程专业论文）复印机维修信息系统统计解析数学模型的建立.pdf

文档简介

温馨提示

最新文档

评论

（机械电子工程专业论文）复印机维修信息系统统计解析数学模型的建立.pdf

文档简介

温馨提示

最新文档

评论

相关文档