版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、优化建模技术和机器学习理论的新发展摘要 化工、炼油、冶金等制造业生产过程、新产品研制,以及经营管理的优化能给企业带来巨大的经济效益。优化成功的前提是需要建立能预报优化控制条件的数学模型。用机器学习技术从已有的数据中抽提出有用信息,是建立有效数学模型的关键。本文回顾了优化建模技术及其理论基础的几个发展阶段,指出从线性建模到非线性建模,从追求经验风险极小化到追求实际风险极小化,从采用单一算法到建立多种算法相结合的信息处理平台,从单纯根据古典统计数学到参照新发展的统计学习理论,使优化建模技术由粗到精,由低级到高级,在生产过程、新产品研制和经营管理的优化中发挥更大作用。关键词 化工;优化;建模NEW
2、PROGRESS OF TECHNOLOGY OF MODELLING ANDTHEORY OF MACHINE LEARNINGAbstract The optimization of industrial production process, preparation of new products and enterprise management can make large economic profit for the enterprises dealing with the production of chemical, petrochemical or metallurgica
3、l products. The key problem of optimization works is to make models for the prediction of optimal condition of production, testing or management. So it is necessary to extract useful information from known data sets. In this paper, the history of development of optimization technology is reviewed. I
4、t is emphasized that the change from linear modeling to nonlinear modeling methods, the change from empirical risk minimization to real risk minimization, and the change from traditional statistical mathematics to newly proposed statistical learning theory, are the chief trends making modelling and
5、optimization technology more advanced and more effective for improvement of the works in modern enterprises. Keywords: Chemical industry, optimization, modelling现代化工、炼油、钢铁等大、中型企业的生产过程包括复杂的物理、化学变化,这些变化必须靠多种数据指标的监控,才能使生产的综合效益达到最优。现代企业的集约经营也要以多种数据为基础才能正确决策。这都需要从大批复杂数据中抽提有用信息,建立反映客观规律的数学模型。采用计算机数据处理技术,进
6、行“机器学习”(Machine learning),是建立数学模型的必要手段。新产品开发是现代企业活力的重要泉源。新品试制通常需要作大批实验。如能缩短新产品的研制周期,常能给企业带来重大经济效益。通过在试制过程中建立数学模型,进行试验设计,常能较快地达到研制目标,使新产品能更快投产。生产过程难免有时出现故障,在出现故障时能及时发现,正确诊断其原因从而消除故障,也要靠总结故障出现的规律,建立发现、诊断故障的数学模型,从而顺利处理故障,恢复正常生产。产品质量和信誉是现代企业的生命线,许多产品的质量要在长期使用中才能显露出来。为了保证产品质量和可靠性,还必须把好产品检验关。如何能从短期测量察觉产品长
7、期性能?这也需要通过数据处理,找出短期测试指标和长期使用特性的关联,建立数学模型,使产品检验更加有效。必需强调指出:虽然上述几个方面都需要通过机器学习建立数学模型,但各个方面供应的数据特点各异,数据处理的难点也不同,不可能千篇一律用统一的计算策略去解决。举例:企业管理和经营需要的数学模型要从极大量数据资料中总结规律(迄今我们处理的数据最多的项目来自某跨国公司优化产品维修管理工作的委托,该项目要求从一百多万套数据中总结规律),而新产品开发与此相反,希望从尽量少的实验数据中就能总结出下一步应该作什么条件实验效果最好。又如:工业生产记录难免有较多的“信息垃圾”(包括物料不平衡、生产不稳定、仪表出错等
8、造成的不反映问题本质的数据),因此“去噪”就成为大问题。而试验设计一般不需要去噪。如此等等。这就要求我们建立一个能应付各种不同要求的“算法库”和“软件模块库”,以应付各种不同的需要。所有这些都说明:各种数据处理方法和各种数学模型的建立与正确运用,是现代企业生存和发展不可或缺的重要环节。我国大中型企业的信息管理经历着一个从粗放到精细的过程。多数企业迄今的信息管理系统及其运用与国际上的现代企业尚有差距。在我国“入关”和国际竞争日益加剧的今天,加强包括数据处理在内的信息管理,已经是刻不容缓之举(1)。另方面,今天许多国内大中型企业纷纷建立信息网络和数据库,安装DCS系统,实现了先进控制,又已为我国企
9、业采用更先进的优化控制技术创造了有利条件。我国化工、炼油企业开展优化工作的历史,可以追溯到三十余年前。当时我国化工界曾用线性回归法总结生产规律以改进操作,在若干化工、炼油厂取得了改进生产的显著效果。多年来,线性回归、正交设计等传统优化技术在我国工业界深入人心,广泛采用,起到了对原来较粗放的生产技术相当大的改进作用。但是多数化工、炼油、冶金等生产过程都或多或少带有非线性,都将其当成线性问题处理难免有偏差,其优化效果也就受很大限制。从上世纪八十年代开始,能处理非线性的人工神经网络和多种模式识别分类方法出现在优化领域,使优化控制效果提高了一步。我们和我国石化、钢铁、有色冶金等企业合作,也解决了一大批
10、生产优化问题,取得了相当大的经济效益(2)(3)。但使用时间一长,也暴露了这些做法的不足之处。首先,当时的多数工作都基于靠人工控制的离线调优,技术管理粗放,优化见效后较难坚持,特别是当原料改变、设备大修、原有的数学模型不再适用以后,优化效果多半难以为继。而近年来一些建模以后建成优化(开环指导或在线控制)专家系统的优化项目则坚持较好。这说明优化工作不能仅仅停留在科研合作的形式中,必须采取工程化的方式才行。这一阶段工作暴露的另一缺点,就是在建模和应用中遇到过拟合问题,其中人工神经网络的过拟合尤其严重。可惜时至今日,尚有不少技术人员只了解人工神经网络能处理非线性数据集的突出优点,而没有注意到它在已知
11、样本较少、数据点分布不均匀、噪声较大时过拟合可能造成预报的严重失误。我们曾推行的以分类为基础的模式识别优化方法过拟合虽然相对小些,但单靠分类而不对目标值定量预报,也有其局限性。好在当时我国生产管理本来比较粗放。这种“以粗对粗”的做法倒也能风行一时。在上世纪九十年代期间,受国际合作的影响,我们对优化建模及其应用的客观规律作了一些力所能及的总结,提出了“复杂数据处理”的概念,接受了海外专家关于优化工作必须“二次开发”也就是必须“工程化”的思想,并在实践中取得了一批成果(4)。但是一直到我们学习和掌握了近年来计算机学界已广泛接受,化学化工界尚未普遍采用、优化领域中尚鲜为人知的“统计学习理论”(5)后
12、,对我们过去经历过的优化工作的发展过程和今后的发展方向才算从基础理论上有了较系统的理解。在本文中,我们试图运用我们掌握的新的理论认识。对优化建模的理论和实践作一次综述。是否有当,尚希同行指正。1 机器学习的数学本质“机器学习,就是从指定函数集 f (x,a), aL, 中选出能最好地逼近训练集数据,或对未知样本预报最有效的函数,作为数学模型“(5)。由此可见,机器学习的结果,总是囿于原来指定的函数集的范围。例如:如果是线性回归,指定函数集限于线性函数,则数据处理的结果只能是线性方程。即使客观的规律是非线性的,也只能“削足适履”描写成线性规律。其实,化学,化工,冶金等领域的数据集,一般或多或少都
13、带有非线性。以我们过去做过的若干优化项目为例,如果我们以目标值和影响因子间相关系数大于0.9,或以PLS线性回归的预报残差(样本平均归一化值)小于0.3为“近似线性”的判裾,则“近似线性问题”也只占少数(见表1)表 1 若干优化建模用数据的非线性举例Table 1 Some examples of non-linearity in the models for optimization优化问题相关系数PLS预报残差铋系高温超导体性能优化0.4690.830稀土绿色荧光粉性能优化0.8470.307顺丁橡胶性能优化0.8940.215氧化铝生产溶出率优化0.2820.930镍氢电池阴极性能优化0
14、.2570.956卷烟生产碎丝率优化0.7590.497汽车部件电镀质量优化0.7630.454镀锡钢板耐蚀性优化0.7180.567由表1可看出,即使是将近线性包括进去,能用线性函数近似表达的例子也是少数。应当指出:线性回归方法在数据确实是近线性、数据分布服从高斯分布、且噪声很小时,确是一种有效的回归算法。当数据确实符合这些条件时,用线性回归处理数据是好办法。主张线性回归的人们往往说:当非线性函数限制在不大范围时,就接近线性规律。这在数学上是对的。但许多优化问题的工作范围是由客观需要定的,不能任意划小。因此常常不能忽视非线性特征。我们经历的许多优化实例也说明非线性并非总是可以忽略的:安阳钢铁
15、公司硅钢片原为低规格产品。该厂用线性回归配合钢铁专家为提高产品牌号攻关数年,取得一定效果,但始终未达到产品全部为高挡品的目标。后来与我们合作,改用能处理非线性数据的模式识别方法建模,一举达到100%出产高挡品的目标,在生产现场根据数学模型建专家系统后实现了长期稳产高挡品。南京炼油厂若干用线性回归优化过的装置,用模式识别分类法再优化,发现仍有很大的优化潜力。上世纪九十年代初,宝山钢铁公司转炉炼钢炉龄数据,用线性回归得的结论和生产实际情况也不符合。图1a,b,c三个图分别表示三种不同对象的线性回归计算值和实际值的对比。可以看出:图1a(VPTC陶瓷半导体的制备工艺条件和性能的关系)处理的数据确实是
16、近线性的,所以计算值和预报值符合较好。我们可以认为在此线性回归是可以用来近似建模的;图1b(某铝厂氧化铝溶出率优化用数据集)表示数据带有很强的非线性,若硬用线性回归处理计算误差很大,实际上不能用线性算法总结规律;图1c(氧化铟薄膜厚度和工艺条件的关系)是介乎前二者之间的情况。可以看出,虽然用线性回归也可勉强建模,但若用二阶函数集建模会更好些。 (c)(b)(a) 图 1 线性回归建模的三种不同结果Fig.1 Three typical results of modeling by linear regression图1b,c的情况,就是机器学习理论中“欠拟合”(underfitting)的典型
17、事例。所谓欠拟合,是因为客观存在的规律和指定函数集中所有的函数都不吻合,所建模型的拟合与预报效果都不好的情况。由此可见:线性回归在一定情况下是可用的,但不能滥用。必须找到一种有效、可靠的判别算法,以决定一套数据是否可用线性回归处理。我们推荐用PLS算法的平均预报残差(归一化值)为判据。例如:小于0.3或0.2(根据计算精度要求定)可判为近线性数据集,可采用线性回归建模。但是必需指出:即使是能用线性回归建模的情况,线性回归仍可能并非最准确可靠的算法。一个原因是:线性回归的理论基础还存在一个缺陷:它忽略了“经验风险”和“实际风险”的区别。因而也会或多或少有某种“过拟合”(overfitting)发
18、生。虽然过拟合在此没有某些非线性算法(特别是人工神经网络)那样严重。2. “经验风险”和“实际风险”的区别是产生“过拟合”的原因既然指定函数集太小(例如只包括线性函数),不能包括适合训练数据集内在规律的函数时会产生欠拟合。人们自然想到应该扩大指定函数集的范围,争取把训练集的规律包括进去。因为训练集的规律我们不可能予知(若已知,就没有机器学习的必要了),人们自然想到要把指定函数集扩大到“包罗一切”的程度。这样从数学上就提供了两种方法:(1)根据Weierstrass定理,一切连续函数都可用无穷项的多项式逼近,因此人们企图在线性函数后面添加高阶项来改善拟合程度,这就是多项式的非线性回归;(2)根据
19、数学论证,三层人工神经网络也能拟合任何函数,因此人工神经网络提供了一种极强的数据拟合手段。由于认识到工业过程中非线性相当普遍存在和线性优化算法的局限性,近十余年来人工神经网络等非线性算法在化工优化控制、故障诊断等方面已广泛应用(6)(7)。但人工神经网络等非线性优化算法也并非十全十美。虽然采用能涵盖一切的指定函数集(至少从理论上说)能将训练集的客观规律“套”进去,可是这样一来又产生了“过拟合”的毛病。这可从几个角度去理解:(1)既然拟合精度大大提高了,就会不但把训练集中蕴藏的规律拟合进数学模型,而且也会把训练集中数据的测量误差也拟合进了数学模型。这样一来拟合效果虽好,在预报中就难免有较大失误了
20、;(2)既然指定函数集包括极广,就可能有不止一种函数能相当近似地拟合训练集,其中也可能会有预报能力并不好的函数在内。须知:在多维空间能通过(或近似通过)有限个点的曲线有无穷多个。上述两种情况在训练样本比较少或噪声比较大的情况下特别严重。在这种情况下误报风险比较大。这就是“小样本难题”。用统计学习理论可以论证“过拟合”产生的根源:在算法设计中忽略了“经验风险”和“实际风险”的差异。传统的统计数学认为:数据处理只要能找到能很好拟合已知数据(训练集)的函数,即令“经验风险”最小,就能保证所得的数学模型预报能力最强。但这一假设并无严格的理论依据。统计学习理论证明:“经验风险”最小不等于数学模型的实际预
21、报风险最小。在指定函数集范围扩大,或数据处理算法的复杂度加大的情况下,虽然拟合可以大为改善,但同时预报能力并不一定能改善,有时可能反而变坏,产生“过拟合”。统计学习理论的目的之一就是寻找压制过拟合的规律和途径。尽管有过拟合的弊病。多项式非线性回归和人工神经网络在工业优化控制,故障诊断和产品检验等方面仍然广泛应用并相当有效。这是因为工业问题往往能提供较多的数据,因而过拟合不太严重,而优化效果常常好于线性算法的缘故。美国软件市场上流行的人工神经网络优化软件如Process Advisor, Process Insight等都在包括炼油工业在内的化工、冶金生产过程优化方面广泛应用。但据了解,美国生产
22、芯片的Intel公司是采用以非线性回归为基础的软件作优化工作的,据说该软件预报功能较强。这可能是由于多项式项数不很多时,过拟合不如人工神经网络严重之故。但据有关人员告知:当芯片质量的影响因素太多时,用多项式回归会遇到回归式项数太多的“维数灾难”,可见单靠非线性回归也是不够的。图2表示人工神经网络过拟合造成预报失误一例(某铝厂氧化铝溶出率数据,规定溶出率大于90%者为“优类”,人工神经网络预报的优区比实际的大得多)。失误的部分原因,是由于样本分布不均匀(工业数据一般分布都极不均匀),人工神经网络的拟合是以平均残差最小为判据,因此照顾密集点多,对稀疏点的误报就很严重了。ANN误报优区实际优区bc图
23、2 人工神经网络误报一例Fig.2 An example of wrong prediction by ANN正因为人工神经网络预报不十分可靠,而工业控制在误报时可能造成严重后果,因此,工业应用时常采用保险措施。如美国俄亥俄州某钢铁厂采用产生式专家系统对人工神经网络的预报根据专家知识进行“过滤”,防止不合理的误报。当然这种过滤方法弄不好也会在某种程度上限制了优化控制的效果。我们推荐的方法之一,是将模式识别分类和人工神经网络结合,以限制过拟合的危害(8)。3. 模式识别优化算法及其改进模式识别优化算法追求将模式空间分成“优区”和“劣区”,要求生产控制在“优区”,并利用投影方法界定优区。在上世纪八
24、十年代曾在我国以离线调优的形式广泛推广。从机器学习理论对这种方法分析看,这一方法需要改进和提高。与上面叙述的对训练集定量建模预报的算法相反,上世纪八十年代我们在石油化工,钢铁等行业推广的“模式识别调优技术”以“优”“劣”两类样本在多维空间的分区分布为依据,求出保证生产工况维持在优区的两类样本点分布区间的分界面的方程,据以优化生产。在推广初期,我们主要靠Fisher法、PCA、PLS、LMAP 等算法作二维投影图,根据投影图上两类点分布区分界线确定分类数学模型,据以优化生产。图3为利用此法优化某铝厂氧化铝净溶出率时作的投影图一例。“1”: 优类样本 “2”: 劣类样本图 3 氧化铝净溶出率优化工
25、作作图一例Fig.3 An example of projection maps used in optimization for leaching rate of alumina我们的工作表明:虽然此种优化做法确有一定效果,但从原理上看,此种做法尚需要改进与提高,因为:(1)采用一张两类点分类比较好的投影图上的分界线方程为优化判据,虽然常可将两类点分开,但这和多维空间中的两类点分布区之间的“最佳分界面”并不一致,因而难免使优化结果偏离最佳工况;(2)当有时优化目标只能定性地区别为两类,而无法定量表征时,采用0、1或1、2两种目标值,模式识别只作分类而不作定量预报是很自然的,甚至可算是一个优点
26、。但对于有连续目标值的优化项目,用“1”、“2”两类信息代替信息量更大的目标值,显然造成有用信息的流失。而且在两类分界附近,硬将分界两侧差别极小的点划成两类也未免勉强。为了弥补上述第一个缺点,我们提出了通过“逆映照”算法,试图将几个侧面投影图的优区各投影点“逆投影”到多维空间,以建立多维空间的优区数学模型。其后我们又提出分级投影和由分级投影的“自动矩形”构成的“超多面体”模型。随著模式识别优化技术的不断改进,为我们建立各种模式识别优化算法和其它机器学习算法互相取长补短,系统的数据处理平台创造了条件(8)。4. 支持向量机算法的应用效果我们的研究工作已经证明:在处理噪声不大的实验或观测数据方面,
27、特别是小样本数据集的机器学习方面,支持向量分类和支持向量回归和传统算法相比,都常能显示明显的优越性,在工业生产过程的优化建模方面这种新算法的应用前景如何呢?初步计算实践表明:支持向量机用于规模不大的工业数据集,例如样本数百个、影响因子数十个的数据文件,即使噪声较大,用SVC或SVR也能得到很好的数学模型。非但如此,用SVR留一法还能起去噪声的作用:用留一法预报时,离群点(outlier)往往是预报误差最大的样本。据此可通过删去离群点的方法改进建模。至于新产品试制和故障诊断等工作,因是小样本问题,应用支持向量机的好处是显而易见的。5. 建立综合运用多种算法的处理数据平台综合运用多种算法,针对复杂
28、数据的不同特点,把各种算法组织成统一的信息处理流程,是我们处理数据、建立预报能力强的数学模型的关键。如上所述,已有的各种数据处理算法各有其特有的长处和短处,根据它们的特点适合于处理不同类型的数据。因此,正确的做法是将多种算法组合起来,取长补短,组成一套完整的数据处理流程。以适应不同性质的数据处理的需要。这里所说的多种算法的综合运用,包含下列两方面内容:(1)建立一系列初步判别算法,测试数据集的某些特性并据此判别它适合于何种算法。例如:用PLS法预报残差判别是否适合于线性回归处理,又如:设计了专门的算法将数据文件按数据结构分为“偏置型”和“包容型”两大类,规定各用不同算法作自变量筛选等;(2)将
29、不同算法组合在一起成为有特色的新算法。例如:将最佳投影法和多项式逐步回归法结合起来,将少数最能描述数据结构的原始自变量线性组合代替原有自变量作多项式逐步回归,可以用较少的可调参数更确切地拟合训练数据集。这种类似于“投影寻踪回归”的算法能减少经验风险和避免因可调参数太多造成的过拟合。由多种算法模块组成的信息处理流程大致分下列几个主要数据处理步骤:(1)数据文件有用信息量的评估:拿到要建模的数据后,先要评估一下它是否含有足够多的有用信息,是否有从中建模的可能。在以前的工作中,我们主要通过考察样本点在多维空间的可分性来作判别。现在根据统计学习理论,我们改用留一法建模预报的正确率和实际上也带有留一法预
30、报考察性质的KNN法预报正确率来判别数据文件是否蕴藏了足够的有用信息。(2)数据文件的自变量筛选:传统的模式识别采用各个自变量对两类样本分类的贡献为判据决定各自变量的取舍。我们改用各自变量对留一法预报正确率的贡献为判据决定各自变量的取舍。(3)数据文件的样本筛选:在数据文件噪声较大,分类不清或离群点(outliers)较多时,可试用KNN或 SVR等算法将留一法误报或误差特别大的样本剔除,以利建模。(4)数据文件的简单统计分析:通过目标值与各自变量的相关分析,双自变量投影图等简单算法,求得对数据集结构的初步了解,为选择合适的建模算法提供参考。(5)参照简单统计分析结果和优化对象的专业领域知识,
31、从投影分类开始,在有优化目标的课题中继以定量建模。得出能满足优化需要的数学模型,并拿到实际中应用。6几个典型机器学习建模的新案例(1)铂重整车间溶剂油增收优化模型:以前采用Fisher法解决此问题,只能得到分类判别模型。详情见文献(3)。现在采用支持向量回归,可得定量预报的结果。溶剂油采出量可表达如下式(各变量均为归一化值): y = 0.045X1 0.036X2 + 1.127X3 + 0.309X 4+ 0.268X5 0.293此处y为溶剂油产量。X1为回流量,X2 为回流温度,X3 为溶剂油塔塔底温度,X4为第35层塔板温度,X5为汽提塔的塔底温度。可以看出,提高溶剂油塔的塔底温度对
32、增产溶剂油最有效。这和优化实践结果是一致的。(2)某跨国公司机械维修优化模型:某跨国公司生产复印机,委托数十个分销机构销售和维修。因产品售后保修一年,每年保修的人工费和零件费达数千万美元。据该公司统计:某些分销区单机平均维修费远低于另一些分销区,为了优化维修费开支,要求我们用机器学习方法处理各区的维修记录,找出“先进地区”节省维修费的“先进经验”。数据处理确实得出有意义的结果。我们发现:某种贵重的复印机部件的寿命,与它周围几个低价小部件有关。如果在机器维护中适当勤换小部件,其局部成本增加不多,但能大幅度提高贵重部件的寿命,从而降低总体成本。这一成果表明:机器学习建模不仅可用于生产过程优化,对经
33、营管理优化也能取得巨大的经济效益。(3)某跨国公司汽车零件寿命优化模型:我们曾协助某公司处理汽车零件使用寿命的研究。总结各种防腐蚀手段对零件寿命得影响。结果表明:用支持向量回归建模,比用人工神经网络建模的预报误差小得多。参 考 文 献(1)Bao Fei(鲍斐),The strategic direction of development of information technology in Yanshan Petrochemical Company(试论燕化公司信息技术发展的战略方向),Petrochemical industrial technology(石化技术),2001,8(3):133 (2) Chen Nianyi(陈念贻):Pattern recognition a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 给学校投资的合同范本
- 网络直播解约合同范本
- 美丽乡村绿化合同范本
- 老年公寓赠与合同范本
- 职工餐桌订购合同范本
- 聘用医务人员协议合同
- 肉鸡饲料销售合同范本
- 肥料合作协议合同范本
- 药材种苗销售合同范本
- 装修前物业的合同协议
- JBT 6697-2023 农林拖拉机和机械 电气设备 基本技术规范 (正式版)
- 白内障超声乳化人工晶体植入手术配合课件
- 婴幼儿托育服务与管理的职业生涯规划职业目标自我分析职业定位实施计划
- JCT2460-2018 预制钢筋混凝土化粪池
- 蒋婷婷-《书包里的故事》
- 《针灸治疗》课件-第六节 剧痛证-泌尿系绞痛
- 保健食品广告审查表
- 冀教版五年级数学上册《综合与实践》教学设计
- 健身房会计账务处理
- 中南大学湘雅二医院神经外科重点专科申报书内容
- 2023版浙江评审卫生高级专业技术资格医学卫生刊物名录
评论
0/150
提交评论