(分析化学专业论文)化学计量学方法用于化工过程优化和构效关系研究.pdf_第1页
(分析化学专业论文)化学计量学方法用于化工过程优化和构效关系研究.pdf_第2页
(分析化学专业论文)化学计量学方法用于化工过程优化和构效关系研究.pdf_第3页
(分析化学专业论文)化学计量学方法用于化工过程优化和构效关系研究.pdf_第4页
(分析化学专业论文)化学计量学方法用于化工过程优化和构效关系研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(分析化学专业论文)化学计量学方法用于化工过程优化和构效关系研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 化学计量学是一门新兴的化学分支学科,它应用数学、统计学以及其他基 于逻辑学的方法来分析化学数据,是分析化学的重要组成部分之一,而数据挖 掘在其中扮演了十分重要的角色。本文将化学计量学方法应用于若干化工过程 优化和化合物构效关系研究,主要的研究内容和研究成果分为二个部分: l化工过程优化以及智能控制越来越受到企业的关注,实践证明它是提高企 业竞争力和经济效益的必要手段之一。本文将化学计量学方法中的数据挖 掘技术应用于铝电解槽寿命预测的研究和芳烃抽提装置中抽余油中芳烃含 量优化的研究。( 1 ) 在支持向量机应用于铝电解槽寿命预测的研究中,找 到了影响铝电解槽寿命主要工艺参数并成功完成了预报,创造性地开发了 铝电解槽寿命专家系统,实现了对铝电解槽的寿命从经验判断向科学管理 和定量预测的过渡。该技术项目已顺利通过中国有色金属工业协会的鉴定, 有关技术成果被认定为国际先进水平;( 2 ) 在芳烃抽提装置中抽余油中芳 烃含量优化的研究中,将优化工作分两个优化阶段:第一阶段将抽余油中 苯含量的平均值由2 3 降低到1 o ;第二阶段将抽余油中苯含量的平均 值由1 降至o 8 。两个阶段中分别找到了不同阶段影响抽余油中芳烃含 量重要的工艺参数,先后建立了定性和定量模型并给出了优化方案,并成 功地应用到生产中。由合作公司提供的效益报告显示,仅自优化方案实施 以来的两年时间内,已经实现经济效益4 5 0 多万元。本工作有很高的应用 研究价值,在同行业具有很大的推广价值。 2药物构效关系目前也是药物工作者和医学工作者关注的研究热点之一。本 文将预报能力强、且特别适用于小样本集的支持向量回归( s v r ) 算法用于黄 酮类化合物醛糖还原酶抑制活性的构效关系研究,建立了s v r 定量模型, 并对4 8 个黄酮类化合物醛糖还原酶抑制活性进行了留一法预测,相对误差 0 , 0 6 2 2 ,明显好于多元线性回归( m l r ) 和偏最小二乘法( p l s ) 方法的预测。 关键词:化学计量学,支持向量机,铝电解槽寿命,抽余油中芳烃含量,过 程优化,构效关系 v 上海大学硕士学位论文 c h c m o m e t r i c si san e wd i s c i p l i n ei nc h e m i s t r yt h a ta p p l i e dm a t h e m a t i c a l , s t a t i s t i c a la n do t h e rl o g i c - b a s e dm e t h o d st oa n a l y z ec h e m i c a ld a mi np a r t i c u l a ri n a n a l y t i c a lc h e m i s t r y t h i st h e s i sf o c u s e so nt h ea p p l i c a t i o nr e s e a r c ho f c h c m o m e t r i c s m e t h o d si nc h e m i c a lp i o c 七s so p t i m i z a t i o na n ds t n l c t o r c - a c t i v i t yr e l a t i o n s h i p ( s a r ) o f c o m p o u n d s t h er e s e a r c hc o v c t st w om a i np a r t s : 1 c h e m i c a lp r o c e s so p t i m i z a t i o ni sa ni n d i s p e n s a b l em e a n st oi n c r e a s ec o m p e t i t i o n p o w e ra n de c o n o m i cp r o f i to fc h e m i c a lc n t c r l 耐s e s i nt h i sw o r k , c h c m o m e t r i c s m e t h o d sa r ca p p l i e dt os o m ec h e m i c a lp r o c e s so p f t m i z a t i o n s ( 1 ) t h el i f e e x p e c t a t i o no fa h m i n i u me l e c 仃o l y s i sc e i l sa r ep r e d i c t e ds u c c e s s f u l l yb a s e d0 1 1 t h em a i nt e c h n i c a lp a r a m e t e r sf o u n d a ne x p e r ts y s t e mo fl i f ee x p e c t a t i o no f a l u m i n i u me l e c t r o l y s i sc e i l si sc r e a t e d ( 2 ) t h eo p t i m i z a t i o no ft h eq u a n t i t yo f a r o m a t i c sh y d r o c a r b o ni nr a f f m a t eo n - i sd i v i d e di n t ot w os t e p s :f i r s t , t h e a v e r a g eq u a n t i t yo fa r o m a t i c sh y d r o c a r b o ni nr a f f m a t eo i li sd e c r e a s e df r o m 2 3 t o1 a n dt h e ni ti sd e c r e a s e dt 00 8 t h eq u a l i t a t i v ea n dq u a n t i t a t i v e m o d e l sa r e 吼u n 场r i z e d a n dt h eo p t i m a lp r o j e c t si ne a c hs t e pa r eg i v e no u t t h e o p t i m a lp r o j e c t sb r o u g h tm o r et h a n4 ,5 0 0 ,0 0 0 r m bi nt h ec o m p a n y 2 t h es t u d yo fq u a n f i 枷v es t r u c t u r e - a c t i v i t yr e l a t i o n s h i pf q s a r ) i s 叩eo ft h e f o c u s e si nm e d i c a lr e s e a r c h i nt h i st h e s i s , s u p p o r tv e c t o rm a c h i m ( s v m ) i s a p p l i e dt os a ra n a l y s i so fc o m p o u n d s i nt h ep r e s e n tw o r k , s u p p o r tv e c t o r r e g r e s s i o n ( s v r ) a l g o r i t h mi su s e dt ob u i l ds a r m o d e lo ft h ea l d o s cr e d u c t a s e i n h i b i t o r ya c t i v i t yo f 4 8f l a v o n e s t h er e s u l t ss h o wt h a tt h ea v e r a g eo fr e l a t i v e c r r o ro fs v rm o d e li so 0 6 2 2 ,i ti sl e s st h a nt h o s eo fm u l 卸l el i n e a rr e g r e s s i o n ( m l r ) a n d 牟i n i a ll e a s ts q u a r e s ( p l s ) m e t h o d s t h e r e f o r e ,t h es v ri s 趾 e :f f e c t i v et o o lo f c h e m o m e t r i c sw i t hg r e a tp o t e n t i a lf o rq s a r a n a l y s i s v i 上海大学硕士学位论文 k e y w o r d s :c h e m o m e t r i c s , s u p p o r tw m o rm a c h i n e ( s v m ) ,a l u m i n i u me l e c t r o l y s i s c e l l s ,t h eq u a n t i t yo fa r o m a t i c sh y d r o c a r b o ni n 船伍珊忙o i l ,c h e m i c a l p r o c e s so 删o n ,s t r u c t u r e - a c t i v i t y p r o p e r t yr e l a t i o n s h i p ( s a r s p r ) 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:( 乏么,鼬期:2 :12 占。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) n 日期:乏:! :! :,夕 上海大学硕士学位论文 第一章绪论 从2 0 世纪7 0 年代末开始,分析化学进入了其发展史的第三次巨大变革1 1 1 。以 计算机应用为主要标志的信息时代的来临,给科学技术的发展带来了巨大的活 力。分析化学快速发展到分析科学阶段,与现代分析化学密切相关的概念是化学 计量学、传感器过程控制、自动化分析、专家系统、生物技术和生物过程,以及 分析化学微型化所要求的微电子学,显微光学和微工程学等。化学计量学 ( c h e m o m e t r i c s ) 是由瑞典化学家s w o l d 和美国化学家b i l k o w a l s k i 于7 0 年代 共同创建起来的一门新兴化学分支学科,它应用数学、统计学和计算机科学的工 具和手段设计或选择最优化学量测方法,并通过解析化学量测数据以最大限度地 获取化学及相关信息,数据挖掘技术在其中扮演了十分重要的角色。计算机和互 联网的快速发展,使得化学行业积累了海量的化学、化工信息,虽然这些化学信 息为人们探索自然界的奥秘提供了基础,但近年来,人们在利用数据库对化学、 化工问题进行研究时,逐渐认识到海量数据的处理十分困难,更具价值的规律性 信息和知识还隐藏在数据内部。如何从化学、化工数据中发现更多、更有价值的 化学、化工规律正逐步成为化学、化工专家关注的焦点。海量化学信息的积累对 化学工作者是一个难得的机遇,应该结合先进的计算机等先进工具,充分利用这 一条件,积极挖掘有用的化学信息总结规律以推动化学学科的发展。 1 1 数据挖掘的目的和意义 化学是一门与生产、试验紧密联系的学科。进入2 1 世纪后,随着化学科技 研究水平和应用设备自动化程度越来越高,化学生产和试验中的信息数据急剧增 加,其中相当一部分数据被搁置而未被充分利用,因此如何有效地建立数据库并 利用这些数据挖掘出规律,已成为一个迫切需要解决的重要课题。徐光宪先生在 国家自然科学基金委员会成立十五周年庆祝大会上的讲话中指出田:。从科学发 展史看,科学数据的大量积累,往往导致重大科学规律的发现。1 9 世纪6 0 年 代的化学积累了数十种元素和上万种化合物的数据,门捷列夫把这些元素按原子 量的大小次序排序,发现它们化合物的性质有周期性交化,因而在1 8 6 9 年提出 了元素周期律,为以后发现新元素和波耳建立原子模型指明了方向。2 0 世纪3 0 上海大学硕士学位论文 年代,积累了1 0 0 多万种化合物的数据,结合量子化学的发展,导致鲍林提出共 价、电价和氧化值的定义,以及0 键、嚣键、杂化轨道、电负性、共振结构等 概念,总结出化学键理论,发表论化学键本质这本经典著作,对2 0 世纪化 学的发展起了非常重要的作用。现在截至到1 9 9 9 年1 2 月3 1 日,美国化学文摘 登记的分子、化合物和物相的数目已超过2 3 4 0 万种,比鲍林总结化学键理论时 扩大了十余倍,但全世界的化学家似乎还没有充分利用这一化学文选宝库来总结 规律。这是世纪之交的难得机遇,不可交臂失之”。因此如何抓住这个机遇挖掘 其中规律,提出有价值的化学理论是化学工作者追求的目标。另外,从化学数据 中发现更多、更有价值的化学规律也可以产生巨大的经济和社会效益: ( 1 ) 我国的化工行业起点比较低,目前行业利润投入比与国外先进企业还存在 较大的差距,而且化工行业工况一般都比较复杂,普遍存在多因子、高噪声、非 线性、非高斯分布和非均匀分布等难题,利用计算机等先进工具对化工过程进行 优化控制,挖掘有效规律是企业在不进行装置重整的前提下提高企业竞争力和经 济效益的有效方式之一,也是国内企业赶超国际先进企业的必要手段。虽然提升 企业的生产水平可以从设备改造、工艺改进等方面着手,这些措施可以取得很好 的效果,但周期长且投资大,而利用控制技术和计算机软件技术对生产操作进行 优化,实施简便、见效快、投资回报率高,正越来越得到业界的重视。化工生产 过程涉及到许多复杂的物理、化学变化,常常很难通过机理来建立模型,即便建 立了模型,其精度也很低,多半难以用来指导生产。此外,工业生产过程中存在 许多可变因素和干扰( 原料性质、设备状态、操作工况的变化,生产环境和生产 系统自身的干扰) ,数学模型通常是在某一特定条件下建立的,因而仅仅在小范 围内适用,在实际复杂多变的生产中应用困难。随着计算机和过程系统工程的发 展,工业生产自动化程度越来越高,生产数据采集和存储越来越经济便利,对于 一个中等规模的石化生产装置,其d c s ( d i s t r i b u t e dc o n t r o ls y s t e m ) 系统的 仪表位号点数约5 0 0 点,若每分钟保存一个生产数据,每天将有7 0 万个生产数 据,一年可达2 5 亿个数据。这些数据记录了生产过程的特征、性能、变化等, 是生产装置的本质反映。利用数据挖掘技术可以从工业生产数据中寻找规律,并 用这些规律指导企业的生产过程,从而达到优化生产过程以提高企业的效益。 ( 2 ) 药物构效关系的研究已经成为化学计量学的一个十分重要的分支,并随着 2 上海大学硕士学位论文 数据挖掘方法的不断发展得到了飞快的发展。药物构效关系的研究将结构信息、 理化参数与生物活性进行分析计算,建立合理的数学模型,研究结构活性( t t 质) 之间的量变规律,为药物设计、先导化合物结构改造提供理论依据,为攻关 医学难题以及治疗顽固性疾病奠定良好的理论基础,使药物设计更趋于合理化。 因此,药物构效关系的研究同样有很好的经济和社会效益。 1 2 国内外研究现状 1 2 1 化工过程的控制与优化 石油、冶金等化工企业是我国的基础支柱产业,在我国国民经济中占有举足 轻重的地位。与世界石化工业生产水平相比,我国的石油和化学工业还有不小的 差距。例如,每加工一吨产品所需的现金操作费用反映了企业生产成本水平,2 0 0 3 年炼油现金操作费用,世界平均水平为1 1 7 元吨,世界先进水平为8 6 元吨, 我国约为1 3 0 元吨,分别高出1 1 和5 1 。乙烯生产的现金操作费用,我国为 1 4 2 美元吨,比世界先进水平高出2 4 ,比亚太地区高出5 。因此,利用工业 优化技术提高劳动生产率和资源利用率,全面提升我国石油和化学工业的盈利能 力和竞争能力,对于我国石油和化学工业的可持续发展有十分重要的意义。 近年来,分布式控制系统( d c s ) 已经广泛应用于我国大中型石化装置,为 试点和推广国内外新技术打下了基础。目前世界上已有多家公司推出了石化优化 软件,应用领域遍及主要石化装置。先进控制( a d v a n c e dp r o c e s sc o n t r o l ,a p c ) 技术已在我国几十个生产装置实施,如常减压、催化裂化、催化重整、加氢裂化、 聚丙烯、聚乙烯等等。根据c h e m s h a r e 公司的调查结果,在已有d c s 系统基础上 实施先进控制的投资收益比为1 :4 ,在先进控制基础上实现装置实时优化的投资 收益比也约为l :4 。因此,先进控制和实时优化控制挖潜增效效果明显。基于数 据挖掘的工业优化技术已在国外受到高度重视,应用的案例日益增多。数据挖掘 技术用于生产优化可与先进控制、实时优化控制互为补充,相得益彰。 2 0 世纪7 0 年代初,i s e n h o u r 和k o w a l s k i 开创性地将模式识别方法引入化 学领域,处理谱分析数据获得成功【3 棚。2 0 世纪8 0 年代以来,陈念贻等将计算机 模式识别优化技术应用于化工、炼油生产过程,即用数据挖掘技术处理化工、炼 3 上海大学硕士学位论文 油生产过程的数据,从中找出节能、节约原料、提高质量、增加产量的优化途径, 该技术已成功用于顺丁橡胶项目优化1 5 j 、乳液法聚氯乙烯聚合反应过程优化 6 1 、 合成氨反应的数据分析及丁二烯聚合反应的数据分析和优化【7 】等。在炼油工业 中,陈念贻等嗍将模式识别优化技术用于炼油工业并在许多工序取得实效,将该 技术用于常减压蒸馏,可使汽油收率增加;用于铂重整,可提高溶剂油、乙苯回 收率;用于延迟焦化,可提高汽油、柴油收率;用于加氢裂化,可提高航空煤油 的收率并改善其质量;用于重油加氢裂化,可提高液体产物收率;用于催化裂化, 可提高汽油收率等。近年来,陈念贻、陆文聪等人又将新近发展的数据挖掘算法 一支持向量机算法应用于化工生产优化过程【9 】。国外也有学者将人工神经网络用 于化工过程的稳态、动态建模及生物传感器数据解释【1 哪;利用分类和回归树算 法处理单丝尼龙纤维过程的数据,从而提高产品质量f l l 】;n a s c i m e n t o 等人成功 地将基于人工神经网络的优化算法应用于双螺杆挤压反应器中尼龙6 6 聚合反应 过程的优化及乙酸酐生产过程的优化【1 2 l ;y u 等人用增强人工神经网络方法模拟 实时多变量化工过程并取得明显效果f 1 3 j ;i r i z u k i 等1 朋报道了将基于神经网络和 模糊集控制技术的混合控制系统用于石油炼制厂的转化过程,从中总结操作工的 丰富控制经验,使生产过程更加平稳,再沸器耗能明显下降。a b o u - j e y a b 等【1 5 】 运用简化的模拟和预报控制算法优化限值响应的多变量稽馏过程,提高了产品的 产量,明显提高了经济效益。s c h m u h l 等1 1 6 1 将结构参数方法和多目标优化技术用 于石油加氢裂化过程设计,基本解决了多目标设计和复杂体系的系统分析问题。 使用人工神经网络进行化工过程危险状态早期检测及确认和对批量化工生产过 程进行故障诊断也有报道【1 7 柳,还有学者1 2 0 将数据挖掘技术用于石油炼制过程 ( 流化床催化裂化) 的故障诊断。 1 2 2 化合物构效关系研究 化合物的性质活性是化学的基本研究内容之一。化学家们普遍认为,化合 物所表现出来的各种性质活性与化合物的结构密不可分,即性质活性是结构的 函数。这也是结构一性质活性关系( s t r u c t u r ep r o p e r t y a c t i v i t yr e l a t i o n s h i p , s p r s a r ) 的基本假设,它们之间的关系如图1 1 所示。结构一性质活性关系也 是化学的一个研究热点1 2 1 捌。1 8 4 2 年,德国化学家k 0 0 p 圈】认为一系列相关化合 4 上海大学硕士学位论文 物的物理化学性质可以由它们在一个矩阵中的位置得到预测,进而人们发现,化 合物拓扑结构是决定其化学性质的重要因素。2 0 世纪4 0 年代起,化学家开始发 现分子和其它化学物质可以很方便地用多种不同的矩阵表示t 2 s , 2 0 q ,化学图的概念 及拓扑指数( 图论指数) 伫7 矧的引入使表征分子结构并进行化合物的构效关系研 究有了一个基本工具。 图1 1 分子的构效关系 近年来,随着化学计量学的发展,s p r s a r 的研究提高到了一个新的水平。 一方面,表征分子的结构参数不断丰富渊:另一方面,一些新的建模方法也被 引入到s p r s a r 的研究中【3 0 3 。 1 3 数据挖掘技术 - 现代社会己进入一个信息化的时代,扑面而来的大量信息给人们带来方便的 同时也带来了许多新的问题:第一是信息过量,难以消化;第二是信息真假难以 辨识;第三是信息安全难以保证;第四是信息形式不一致,难以处理。面对这些 难题,数据挖掘技术应运而生,并显示了强大的生命力。 一般说来,数据库里的知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k d d ) , 是指从大量的数据中提取出有效模式的非平凡过程,该模式是新颖的、可信的、 有效的、可能有用的和最终可以理解的1 3 2 】。而数据挖掘被认为是k d d 中的一个 步骤,是指利用某些特定的知识发现算法,在一定的运算效率限制下,从数据库 中提取出感兴趣的模式【3 3 】。近十年来,数据挖掘技术无论在理论上还是在实用 5 上海大学硕士学位论文 技术上,都已取得了较大的进展3 “1 1 ,同时也开发出了各种专用或通用的商业数 据挖掘软件 4 2 - 4 0 3 。在化学领域内,数据挖掘理论和算法的发展,极大地促进了化 学计量学和化学信息学等新学科的发展。 1 3 1 数据挖掘的任务 数据挖掘的两个高层次目标是预测和描述f 4 7 a s 。预测的基本任务包括分类、 回归、时间序列分析和预测。描述的基本任务包括聚类、总结、关联规则和序列 发现。下面就各个基本任务分别做详细介绍: ( 1 ) 分类:分类是用一个函数把各个数据项映射到某个预定义的类。由于在考 察数据前类别已经确定,因此分类通常被认为是有人指导学习过程。 ( 2 ) 回归:回归是利用从已有数据中总结出回归模型,来预测未知变量值。回 归假设几种已知的函数适合拟合目标值,然后找出拟合已知数据结果最佳 的函数模型,通常是根据不同类型的误差分析来决定最佳的回归函数模型。 ( 3 ) 时间序列分析:时间序列分析是利用一系列已知的值和它们的属性来预测 将来的值。时间序列分析所用的值是依赖于时间的。时间序列分析有三种 基本功能,距离度量可用于决定不同时间序列数据的相似程度,曲线的结 构用于检查数据的特性,还可以应用历史时间序列曲线预测未知值。 ( 4 ) 预测:通过对数据分析处理,估计一组数据中某些丢失数据的可能值或一 个数据集合中某种属性值的分布情况,一般利用数理统计的方法,找出所 要预测的属性值,并根据相似数据的分析,估算属性值的分布情况。 ( 5 ) 聚类:聚类是一种常见的描述工作,搜索并识别个有限的种类集合,从 而描述数据。简单地说,就是识别出一组聚类规则,将数据分成若干类。 这些种类可能相互排斥而且是穷举的( 无遗漏的) 。由于聚类并非是预先定 义好的,因此聚类通常被认为是无人指导的学习过程,要求领域专家对所 产生的聚类规则的意义进行解释。 ( 6 ) 总结:总结是从用户给定的数据中挖掘出( 以不同的角度或在不同的层次 上) 平均最小最大值、总和和百分比等。挖掘结果采用交叉表、特征规 则、统计曲线图等来表示。 ( 7 ) 关联规则挖掘:指从用户给定数据库中挖掘出满足一定条件的依赖关系。 6 上海大学硕士学位论文 若两个或多变量之间的取值有某种规律性则称为关联。关联可分为简单关 联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。 ( 8 ) 序列发现:序列发现和关联规则相似,其目的也是为了挖掘数据之间的联 系,但序列发现的侧重点在于分析数据间的前后序列关系。 1 3 2 数据挖掘的常用方法及技术 数据库技术只是将数据有效地组织和存储在数据库中,并对数据作一些简单 分析,大量隐藏在数据内部的有用信息无法得到。而机器学习、模式识别、统计 学等领域却有大量提取知识的方法,但若没有和实际应用中的海量数据结合起 来。很大程度上只是对实验数据或学术研究发挥作用。数据挖掘从一个新的角度 将数据库技术、机器学习、模式识别( p a t t e r nr e c o g n i t i o n ,p r ) 和统计学等结 合起来,从更深层次中挖掘存在于数据内部有效的、新颖的、具有潜在效用的乃 至最终可理解的模式。数据挖掘和相关技术之间的关系可用图1 2 表示。 图1 2 数据挖掘的相关技术 ( 1 ) 数学统计方法m l :主要用于完成总结知识和关联知识挖掘,利用统计学、 概率论的原理对关系中各属性进行统计分析,建立一个数学模型或统计模 型,以找出它们之间的关系和规律。常用的统计方法包括判别分析、因子 分析、相关分析、回归分析、偏最小二乘回归( p l s ) 和聚类法等。 ( 2 ) 模式识别方法1 5 0 】:模式识别是数据挖掘的主要方法之一,是一种借助于计 算机对信息进行处理、判别分类的数学统计方法。模式识别方法大致可以 分为统计模式识别和句法模式识别两大类。统计模式识别将每个样本用特 征参数表示为多维空间中的一个点,根据“物以类聚”的原理,同类或相 7 上海大学硕士学位论文 似的样本点间的距离应较近,不同类的样本点间的距离应较远。这样,就 可以根据各样本点阀的距离或距离的函数来判别、分类,并利用分类结果 预报未知。统计模式识别是工业优化中的常用方法。 ( 3 ) 人工神经网络方法【5 i 】:人工神经网络方法( a r t i f i c i a ln e u r a ln e t w o r k ,a 州) 用于分类、聚类、特征挖掘、预测和模式识别。神经网络方法模仿动物的 脑神经元结构,以m - p 模型( 由m c e u l l o c h 和p i t t s 提出) 和h e b b 学习规 则为基础。在本质上是一个分布式矩阵结构,通过对训练数据的挖掘,逐 步计算( 包括反复迭代或累加计算) 神经网络连接的权值。目前,在数据 挖掘中常用的网络是b p ( b a c kp r o p a g a t i o n ) 网络。当然,人工神经网络 还是正在发展的学科,某些理论尚未真正形成,如收敛性、稳定性、局部 最小值和参数调整等问题。对于b p 网络常遇到的问题是训练速度慢,可能 陷入局部最小,以及“过拟合”或“欠拟合”等。人工神经网络具有分布 式存储信息、并行处理信息、推理以及自组织学习等特点,并且对非线性 数据具有较强的拟合能力,解决了诸多其它方法难以解决的问题。 ( 4 ) 遗传算法i s 2 1 :遗传算法( g e n e t i ca l g o r i t h m , g a ) 主要用于解决全局优化 问题,适用于分类和关联规则挖掘等。遗传算法是一种基于达尔文进化论 中基因重组、突变和自然选择等概念的算法,具有随机性和自适应性等特 点。遗传算法从一个初始规则集团( 如知识基因) 开始,逐代地通过交换 对象成员( 杂交、基因突变) 产生群体( 繁殖) ,评价并择优复制( 适者生 存,不适者淘汰) ,逐代积累计算,最终得到最优或近似最优的知识集。 ( 5 ) 决策树【5 3 】:决策树技术主要用于分类、聚类和预测的预测建模技术。它利 用信息论中的互信息( 信息增益) 寻找数据库中具有最大信息量的字段, 建立决策树的一个结点,再根据字段的不同取值建立树的分枝,在每个分 枝子集中重复建立下层结点和分枝,这样便生成一颗决策树。接着对决策 树进行剪枝处理,再把决策树转化为规则,利用这些规则可对新事例进行 分类。典型决策树方法有分类回归树( c a r t ) 、i d 3 和c 4 5 等。 ( 6 ) 粗糙集( r o u g hs e t ) 方法【蚓:用于数据简化、数据意义评估、对象相似 或差异性分析、因果关系及范式挖掘等。粗糙集理论是p a w l a k 在8 0 年代 提出来的,用于研究非精确性和不确定性知识的表达、学习、归纳等方法 8 上海大学硕士学位论文 的。其主要思想为:在数据库中将行元素看成对象,列元素是属性,把对 象的属性分为条件属性和决策属性,按各属性值是否相同划分等价类。等 价关系r 定义为不同对象在某个( 或几个) 属性上取值相同,这些满足等 价关系的对象组成的集合称为该等价关系r 的等价类。 ( 7 ) 支持向量机方法f 5 5 】:支持向量机( s u p p o r tv e c t o rl t a c h i n e ,s v 渺方法主 要用于有限数据的分类、回归和预报建模。早在2 0 世纪6 0 年代,以数学 家v a p n i k 为代表的学派就开始努力建立一套能保证从有限样本得出预报 能力最强数学模型的“统计学习理论”( s t a t i s t i c a ll e a r n i n gt h e o r y , s l t ) ,并于1 9 9 2 年和1 9 9 5 年先后提出分类和回归的支持向量机算法。支 持向量机的基本思想可以概括为:首先通过非线性变换将输入空间变换到 一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性 变换是通过定义适当的内积函数实现的。s l t 和s v m 算法在很大程度上解 决了模型选择、过拟合、小样本、非线性、维数灾难、局部最小点等问题。 ( 8 ) 可视化技术【蚓:可视化是数据挖掘的研究方向之一。可视化数据分析技术 拓宽了传统的图表功能,用直观图形式将信息模式、数据关联或趋势呈现 给决策者,使之能交互分析数据关系,如把数据库中多维数据变成多种图 形对揭示数据总体状况、内在本质及规律至关重要。可视化技术将入的观 察力和智能融入数据挖掘系统,极大提升了系统挖掘的速度、层次和内容。 1 3 。3 数据挖掘的过程 数据挖掘是综合运用不同算法和各种知识的探索式和反复进行的复杂过程。 它涉及到多步骤、各系统间的交互、特殊解决方案及各步骤间的反复过程等。数 据挖掘的整个过程仍然是以人为中心并涉及到许多专业知识,比如统计学、领域 知识、数据库、可视化、编程等。数据挖掘的整个过程可用图1 3 表示: 9 上海大学硕士学位论文 图1 3 数据挖掘的一般过程 1 4 论文的组织结构及内容 本文研究了基于数据挖掘的工业优化软件d m o s ( d a t am i n i n g0 p t i m i z a t i o n s y s t e m ) 在化工过程优化中的应用及数据挖掘算法一支持向量机算法( s u p p o r t v e c t o rm a c h i n e ,s ) 在化合物构效关系中的应用。对化工过程优化与化合物构 效关系研究提出了一些新的思路和方法。本文各章研究的主要内容分别为: 第一章为绪论,简要介绍了本研究工作目的和意义、数据挖掘在化工过程优 化及药物构效关系中的研究现状及进展和数据挖掘技术原理与常用方法。第二章 主要介绍支持向量机算法预测电解槽寿命的研究。第三章介绍基于数据挖掘 的优化系统( d a t am i n i n go p t i m i z e ds y s t e m , d m o s ) 软件在抽余油中芳烃含量 优化中的应用。第四章介绍s v m 算法在黄酮类化合物醛糖还原酶抑制活性的构效 关系研究中的应用。第五章是结论与展望。 l o 上海大学硕士学位论文 参考文献 【1 】l a i t i n a ni - la , a n a l c h e m ,1 9 8 0 ,5 2 ,6 0 5 a 【2 】徐光宪2 1 世纪的化学是研究泛分子的科学化学科学部基金成果报告会文集( 庆祝国 家自然科学基金委员会成立十五周年( 1 9 8 6 2 0 0 1 ) ,北京:2 0 0 1 ,1 1 :3 9 【3 】l s e n h o u rtl ,j u t spc a n a l c h e m 1 9 7 1 。4 3 :2 0 a 【4 】k o w a l s l dbi t a n a l c h e m ,1 9 7 5 ,4 7 :1 1 5 2 a 【5 1 张未名,陈念贻,李再综自动化学报,1 9 8 9 ,1 5 ( 1 ) f 6 】程兆年,汤锋潮,罗学才张未名,陈念贻模式识别法在化工调优中的应用化工学 报,1 9 9 0 。5 :5 6 8 - 5 7 4 【7 】陈念贻,李重河,钦佩化学模式识别优化方法及其应用科学通报, 1 9 9 7 。4 2 ( 8 ) :7 9 2 - 7 9 6 【8 】陈念贻模式识别优化在化工中的应用化工进展,1 9 8 7 ,2 :7 【9 】陈念贻,陆文聪支持向量机算法在化学化工中的应用计算机与应用化学,2 0 0 2 , 1 9 ( 6 ) :6 7 3 - 6 7 6 【1 0 b h a tn 、m i n d e r m a npa ,m c a v o yj r ,t w a n gns m o d e l i n gc h e m i c a lp r o o e s $ s y s t e m s v i an e u r a lc o m p u t a t i o n i e e ec o n t r o ls y s t e m sm a g a z i n c ,1 9 9 0 ,l o ( 3 ) :2 4 - 3 0 【1 l 】m a s t r a n g e l ocm p o r t e rjm d a t an l i n t n gi nac h e m i c a lp r o c e s sa p p l i c a t i o n i e e e i n t e r n a t i o n a lc o n f e r e n c eo ns y s t e m s ,m a n , a n dc y b e r n e t i c s 1 9 9 8 ,3 :2 9 1 7 - 2 9 2 1 【1 2 】n a s c i m e n t oc ao ,g i u d i c ikg u a r d a n it n e u r a ln e t w o r kb a s e da p p r o a c hf o ro p t i m i z a t i o n o f i n d u s t r i a lc h e m i c a lp r o c e s s c o m p u t e r sa n dc h e m i c a le n g i n e e r i n g , 2 0 0 0 ,2 4 :2 3 0 3 - 2 3 1 4 【1 3 】y udl ,g o m mjb e n h a n c e dn e u r a ln e t w o r km o d e l i n gf o rar e a lm u l t i v a r i a b l ec h e m i e d p l _ i d 嘲s n e u r a lc o m p i n g a p p l i c a t i o n s , 2 0 0 2 ,1 0 :2 8 9 - 2 9 9 0 4 i r i z u k i 巧t s u t a k is ,t a n i 正f u r u h a s h ize x t r a c t i o no fo p e r a t i n gk n o w - h o wo fe x p e r i e n c e d o p e r a t o r su s i n gn e u r a ln e t w o r k sa n di t sa p p l i c a t i o nt op i da n dn e m o - f m z yh i e r a r c h i c a l c o r a r o l l e r i e e ei n t e r n a t i o n a lc o r l f e t m l c eo ns y s t e m s , m a n , a n dc y b e r n e t i c s 1 9 9 9 , 3 :2 7 4 - 2 7 9 【1 5 】a b o u - j e y a bra ,g u p t ay 只g e r v a i sjkb r a n c h ipa ,w o oss c o n s t r a i n e dm u l t i v a r i a b l e c o n t r o lo f ad i s t i l l a t i o nc o l u m nu s i n ga s i m p l i f i e dm o d e lp r e d i c t i v ec o n t r o la l g o r i t h m j o u r n a l 圭塑查兰塑主兰垡丝苎 o f p r o c e s sc o n t r o l , 2 0 0 1 ,l1 :5 0 9 - 5 1 7 【l6 】s e h m u h lj ,a l l , l l n a l mi t , m u l l e ri - i , a a l r l m a n l nks l r u e t u r a lp a r a m e t e ra p p r o a c h a n d m u l t i e r i t e r i ao p t i m i z a t i o nt e c h n i q u e sf o rc o m p l e xc h e m i c a le n g i n e e r i n gd e s i g n c o m p u t e r s e h e m e n g n g ,1 9 9 6 ,2 0 ( s u p p l ) :s 3 2 7 s 3 3 2 i t ln e m n a n nj d r b e 喀gs e l a l u t e rs e a r l yd e t e c t i o na n di d e n t i f i c a t i o no f d a n g e r o u ss 饿e s i n c h e m i c a lp l a n t su s i n gn e u r a ln e t w o r k s j o u r n a lo fl o s sp r e v e n t i o ni nt h ep r o c e s si n d u s t r i a l , 1 9 9 9 ,1 2 :4 5 1 - 4 5 3 【1 8 】r u i zd ,n o u g u e sjm ,c a l d e r o nz ,e s p u r i aa p u i g j a l ml n e u r a ln e t w o r kb a s e df r a m e w o r k f o rf a u l td i a g n o s i si nb a t c hc h e m i c a lp l a n t c o m p u t e r sa n dc h e m i c a le n g i n e e r i n g , 2 0 0 0 ,2 4 : 7 7 7 7 8 4 【1 9 】g o m mjb ,w i i l i a m sd a nl l d a p t i v en e u r a ln e t w o r k f o ro i l - l i n ei e a m i n ga n dd i a g n o s i so f p r o c e s sf a u l t s i e e ec o l l o q u i u mo nq u a l i t a t i v ea n dq u a n t i t a t i v em o d e l l i n gm e t h o d sf o r f a u l td i a g n o s i s ,1 9 9 5 ,9 1 - 9 5 【2 0 】m y l a r a s w a m yd ,v e n k a t a s u b r m a n i a nv ah y b 耐f r a m e w o r kf o rl a r g es c a l ep i o c i e s sf a u l t d i a g n o s i s c o m p u t e r st h e m e n g n g ,1 9 9 7 ,2 1 ( s u p p l ) :s 9 3 5 一s 9 4 0 【2 1 】k a r e h ew ,d e v i l l e r sj p r a c t i c a la p p l i c a t i o n so f q u a n t i t a t i v es t r u c t u r e - a c t i v i t yr e l a t i o n s h i p s ( q s a r ) i ne n v i r o n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论