(物理化学专业论文)数据挖掘技术在环境科学及构效关系中的应用研究.pdf_第1页
(物理化学专业论文)数据挖掘技术在环境科学及构效关系中的应用研究.pdf_第2页
(物理化学专业论文)数据挖掘技术在环境科学及构效关系中的应用研究.pdf_第3页
(物理化学专业论文)数据挖掘技术在环境科学及构效关系中的应用研究.pdf_第4页
(物理化学专业论文)数据挖掘技术在环境科学及构效关系中的应用研究.pdf_第5页
已阅读5页,还剩79页未读 继续免费阅读

(物理化学专业论文)数据挖掘技术在环境科学及构效关系中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

顷l 论文 数据挖掘技术在环境科学及构效关系中的应用研究 2 0 0 5 年2 月 摘要 数据挖掘 d a t am i n i n g 是从大量的 不完全的 有噪声的数据中 提取隐 含存其中的 人们事先不知道的 但又是潜在有用的信息和知识的过程 作为一 门多学科的交叉技术 数据挖掘因其应用前景广阔而受到学术界和工业界的广泛 关注 本文将数据挖掘技术应用于若干环境科学和构效关系的研究 主要研究内 容和研究成果如下 一 采用分段交叉建模方法建立了滤纸烟度测量数据与不透光烟度测量数据 相互转换数学模型 本工作结果有助于解决两种柴油车排气烟度测量方法交替过 程中出现的标准不延续 历史数据再利用和测量数据的比较等问题 可为柴油车 排气污染防治监督管理工作提供科学 有效的技术支持 二 机动车排气遥感监测技术在我国起步较晚 遥感监测到的数据由于离散 性大 可利用率很低 数据挖掘技术结合具体的遥测数据分析处理情况 对各种 建模方法进行优选和综合应用后 以k n n 和a n n 建立了高排放车遥测筛选数 学模型 结果表明 1 k n n 低怠速模型的建模正判率不低于8 9 3 租用车 辆的验证正判率不低于7 5 o 路检车辆的验证正判率不低于5 0 o a n n 低怠 速模型的建模正判率不低于7 5 0 租用车辆的验证正判率不低于6 6 7 路检 车辆的验证正判率不低于5 0 o 2 k n n 高怠速模型的建模正判率不低于 8 2 0 租用车辆的验证正判率不低于7 1 4 路检车辆的验证正判率不低于 5 0 a n n 高怠速模型的建模正判率不低于6 6 3 租用车辆的验证正判率不低 于5 0 o 路检车辆的验证正判率不低于5 0 o 所建模型显著提高了高排放车 的遥测筛选正确率 三 将数据挖掘新算法一支持向量分类 s v c 用于芬太尼衍生物结构与镇 痛活性关系的研究 运用h y p e r c h e m 软件计算了1 4 个该类药物分子的量子化学 参数 s v c 留一法交叉检验模型对芬太尼衍生物镇痛活性的预报正确率为9 3 明显高于p c a 方法 8 6 a n n 方法 5 7 和k n n 方法 7 1 结果表明 适合于小样本集的s v c 方法适用于芬太尼衍生物结构与镇痛活性关系的研究 是一种有潜力的s a r 分析方法 关键词 数据挖掘 支持向量分类 环境科学 遥感 构效关系 坝i 论文 数据挖掘拽术在环境科学及构效关系中的应用研究 a b s t r a c t d a t am i n i n gi sa l l a n a l y t i cp r o c e s sd e s i g n e dt oe x p l o r ed a t ai ns e a r c ho f c o n s i s t e n tp a t t e r n sa n d o rs y s t e m a t i cr e l a t i o n s h i p sb e t w e e nv a r i a b l e s a n dt h e nt o v a l i d a t et h ef i n d i n g sb ya p p l y i n gt h ed e t e c t e dp a t t e r n st on e ws u b s e t so fd a t a i th a s b e e nr e c o g n i z e da sak e yr e s e a r c ht o p i ci nd a t a b a s ea n dm a c h i n el e a r n i n g i th a sa l s o a r o u s e dw i d ei n t e r e s to fs c i e n t i f i co ri n d u s t r i a lc i r c l ef o ri t sl a r g ep o t e n t i a la p p l i c a t i o n t h i st h e s i sf o c u s e so nt h ea p p l i c a t i o nr e s e a r c ho fd a t am i n i n gi ne n v i r o n m e n t a l s c i e n c e sa n ds t r u c t u r e a c t i v i t yr e l a t i o n s h i p s a r s t u d i e s t h ew o r ka n dc o n t r i b u t i o n s a r el i s t e da sf o l l o w i n g 1 u s i n gc r o s s s e g m e n tm o d e l i n gm e t h o d t h em a t h c o n v e r s i o nm o d e l sw e r eb u i l t t oc o n v e r s eb e t w e e nt h es m o k e d e g r e e o ff i l t e r p a p e r t y p ea n dt h a to f l i g h t t i g h t t y p e t h ew o r kw a sh e l p f u lt os o l v es o m ep r o b l e m si nt h ea l t e r n a t i o n o ft w om e a s u r e m e n t s t h ec o m p a t i b i l i t yo fd i f f e r e n ts t a n d a r d s t h e r e u s eo f h i s t o r y d a t aa n dt h e c o m p a r i s o n o fm e a s u r e m e n td a t a t h es c i e n t i f i c m a n a g e m e n to f p r e v e n t i n gt h ep o l l u t i o no f d i e s e lv e h i c l ew a sa v a i l a b l eb yu s i n g t h em a t h c o n v e r s i o nm o d e l so b t a i n e d 2 r e m o t es e n s i n gi saw a yt om e a s u r ep o l l u t a n tl e v e l si nav e h i c l e se x h a u s tw h i l e t h ev e h i c l ei st r a v e l i n gd o w nt h er o a d r e m o t es e n s i n gi sa l li m p o r t a n ta d v a n c e i nt h et e c h n o l o g yo fo n r o a de m i s s i o n st e s t i n gb e c a u s ei ti sf a s t m o b i l e a n d u n o b t r u s i v e h o w e v e r t h en e wt e c h n o l o g yh a sn o tb e e nu t i l i z e de f f e c t i v e l y b e c a u s et h ed a t ai sd i s c r e t ea n dc o m p l e x i nt h i sw o r k s e v e r a lm o d e l i n gm e t h o d s w e r eu s e dt os u m m a r i z et h er e g u l a r i t i e so fm e a s u r e m e n t so fr e m o t es e n s i n g t h e s c r e e n i n gm o d e l sf o rh i g he m i s s i o no fv e h i c l e sw e r eb u i l tb yu s i n gk n e a r e s t n e i g h b o r k n n a n da r t i f i c i a ln e u r a ln e t w o r k a n n m e t h o d s t h er e s u l t s s h o w e dt h a t 1 o nt h ec o n d i t i o no fl o wi d l es p e e d b yu s i n gk n n m e t h o d t h e s c r e e n i n ga c c u r a c i e si nm o d e l i n g t e s t i n ga n dp r a c t i c a la p p l i c a t i o nw e r eh i g h e r t h a n8 9 3 7 5 0 a n d5 0 r e s p e c t i v e l y s i m i l a r l y b yu s i n ga n nm e t h o d t h e s c r e e n i n ga c c u r a c i e si nm o d e l i n g t e s t i n ga n dp r a c t i c a la p p l i c a t i o nw e r eh i g h e r t h a n7 5 6 6 7 a n d5 0 o r e s p e c t i v e l y 2 f o rh i g hi d l es p e e d b yu s i n gk n n m e t h o d t h es c r e e n i n ga c c u r a c i e si nm o d e l i n g t e s t i n ga n dp r a c t i c a la p p l i c a t i o n w e r eh i g h e rt h a n8 2 o 7 1 4 a n d5 0 r e s p e c t i v e l y s i m i l a r l y b yu s i n ga n n m e t h o d t h es c r e e n i n ga c c u r a c i e si nm o d e l i n g t e s t i n ga n dp r a c t i c a la p p l i c a t i o n w e r eh i g h e rt h a n6 6 3 5 0 a n d5 0 0 r e s p e c t i v e l y 3 s u p p o r tv e c t o rc l a s s i f i c a t i o n s v c a san o v e la p p r o a c h w a se m p l o y e dt o i n v e s t i g a t es a ro ff e n t a n y ld e r i v a t i v e sb a s e do nt h em o l e c u l a rd e s c r i p t o r st h e n 碗 j 论文 数据挖掘技术在环境科学及构效关系中的应用研究 d e s c r i p t o r sw e r ec a l c u l a t e db yu s i n gt h es e m i e m p i r i c a lm e t h o dp m 3a n d m o l e c u l a rm e c h a n i c sm e t h o dm m s u p p l i e db yt h eh y p e r c h e mp a c k a g eb y u s i n gl e a v e o n e o u tc r o s s v a l i d a t i o n t e s t t h ea c c u r a c i e so fp r e d i c t i o nf o r a c t i v i t i e so ff e n t a n y ld e r i v a t i v e si ns v c p r i n c i p a lc o m p o n e n ta n a l y s i s p c a a n nm a dk n nm o d e l sw e r e9 3 8 6 5 7 a n d7 1 r e s p e c t i v e l y t h er e s u l t s i n d i c a t e dt h a tt h ep e r f o r m a n c eo fs v cm o d e lw a sb e t t e rt h a nt h o s eo fp c a a n na n dk n nm o d e l sf o rt h i sr e a lw o r l dd a t as v cc a r lb eu s e dt oi n v e s t i g a t e s a ro ff e n t a n y ld e r i v a t i v e sa n dc o u l db eap r o m i s i n gt o o li nt h ef i e l do fs a r r e s e a r c h k e yw o r d s d a t am i n i n g s u p p o r tv e c t o rc l a s s i f i c a t i o n e n v i r o n m e n t a ls c i e n c e r e m o t e s e n s i n g s t r u c t u r e a c t i v i t yr e l a t i o n s h i p i i i 原创性声明 本人声明 所呈交的论文是本人在导师指导下进行的研究工作 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已发表 或撰写过的研究成果 参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意 签名 如 日期竺兰 口 本论文使用授权说明 本人完全了解上海大学有关保留 使用学位论文的规定 即 学 校有权保留论文及送交论文复印件 允许论文被查阅和借阅 学校可 以公布论文的全部或部分内容 保密的论文在躺密后应遵守此规定 签名 盟导师签名 日期 纱万弓 9 颐l1 龟文 数据挖掘技术在环境科学及构效关系中的应用研究 1 1 数据挖掘技术的提出 第一章综述 早在1 9 8 2 年 趋势大师约翰 奈斯比 j o h nn a i s b i t t 在他的首部著作 大 趋势 m e g a t r e n d s 中就提到 人类正被信息淹没 却饥渴于知识 随着数 据库存储技术和计算速度的提高 科学研究者意识到 数据库存储的大量数据 除了可以用于检索之外 还可以利用机器学习的方式来分析数据 从而挖掘出大 量的隐藏在数据背后的知识 这种思想后来形成了被称为 知识发现 的新科学 领域 知识发现 k d d k n o w l e d g ed i s c o v e r yi nd a t a b a s e s 是在积累了大量数 据后 利用各种数据挖掘算法来分析数据库中存储的数据 从中识别出有效的 新颖的 潜在有用的及最终可以理解的知识 人们可以利用这些知识来改进工作 提高效率和效益 而数据挖掘 d m d a t am i n i n g 技术是k d d 中一个最为关 键的环节 是在数据集合中寻找模式的决策支持过程 3 它能从大量的 不完全 的 有噪声的实际应用数据中 提取隐含在其中的 人们事先不知道的 但又是 潜在有用的信息和知识的过程 经过近2 0 年发展 数据挖掘技术渐渐发展成为 成熟的技术 并在实际应用中取得了很好的效果 传统的化学是实验科学和经验科学 几百年来化学家们做了无数实验 从得 到的大量数据中摸索经验 取得了许多成就 2 0 世纪以来 由于实验物理 如 各种光谱技术 分子束技术 波谱技术等等 和理论物理 如量子力学 统计力 学等 的长足进步 以及生命科学 环境科学 地球科学 化学工程和材料科学 发展对化学的需要 化学家所研究的物系范围更加拓宽 尤其在新材料和新药物 的开发上 实验工作曰益增大 导致积累的数据已达到惊人的数量 用传统的手 册加以罗列已经不够用 于是大批的数据库应运而生 数据库技术的发展虽然解 决了海量数据的存储和数据检索的效率问题 但人们逐渐认识到海量化学数据的 利用十分困难 效率低下 而且从中难以获得有价值的指导性意见 另一方面 更多带有规律性的信息和知识又经常被大量原始化学数据淹没 因此运用数据挖 掘技术 对从多种渠道采集来的大量数据进行计算机处理 通过去粗取精 去伪 存真 由此及彼 由表及里的信息加工 抽提有用信息 发现自然规律 从而可 以用计算机辅助手段发现化学中的半经验和经验规律 预测事物发展趋势等 1 1 2 数据挖掘的过程 数据挖掘是一个以人为中心 需要人的指导和干预的过程 浚过程从大型数 据库中挖掘先前未知的 有效的 可实用的信息 并使用这些信息做出决策 它 包含以下几个环节 1 坝l j 论文 数据挖掘技术在环境科学及构效关系中的鹿用研究 1 准备数据 数据挖掘的任务是从数据集合中发现模式 它的处理对象是存储在本地或远 程数据库中的大量数据 这些数据一般不适合直接进行数据挖掘 事先还需要做 些准备工作 包括数据的选择 选择相关的数据 净化 消除噪音和冗余数据 推测 推算缺失数据 转换 离散值数据与连续值数据之间的相互转换 数据 值的分组分类 数据项之间的计算组合等 数据缩减 减少数据量 如果数据 挖据的对象是数据仓库 d w d a t aw a r e h o u s e 这些预处理工作在生成数据仓 库时就应该准备妥当 数据准备是否做得好将影响到数据挖掘的效率 准确度和 最终模式的有效性 2 数据挖掘算法的选用 数据挖掘算法的选用是数据挖掘过程中最关键的步骤 也是技术难点所在 目前采用较多的挖掘算法有回归 决策树 分类 聚类 粗糙集 关联规则 神 经网络 遗传算法等 根据数据挖掘的目标来选取相应算法 对数据进行分析 得到可能形成的知识模型 数据挖掘算法的好坏将直接影响到所发现知识的质 量 3 评估和表现知识 数据挖掘得到的模式 可能是没有实际意义或没有实用价值的 因此需要对 他们进行评估 从中挑选出可用的 有效的模式 然后用易于理解的方式给用户 解释这些模式 评估方法可以根据用户的专业知识和实践经验 也可以直接用数 据来检验其准确性 4 优化知识 用户理解的 并被认为是符合实际和有价值的模式就是知识 形成了知识以 后 还要对它们做一致性检查 找出它与以前得到的知识互相冲突的地方 择优 汰劣 使知识得到优化 5 运用知识 运用数据挖掘所得知识有两种方法 一种只需依据知识本身所描述的关系或 产生结果 就可以对决策提供支持 另一种则要求对新的数据运用知识 并对由 此产生的新知识做进一步运用 数据挖掘过程可能需要多次的循环反复 每一个步骤一旦与预期目标不符 都要回到前面的步骤 重新调整 重新执行 上述的步骤仅仅是大体上的 而我们在处理化学化工数据时 根据经验摸索 出一套综合运用多种数据挖掘方法 进行复杂数据信息处理的流程 图卜1 表示 的就是我们实验室目前采用的一个大体通用的流程 帧上论文 数据挖掘技术在环境科学及构效关系中的应用研究 2 0 0 5 年2 月 数据文件输入 数据文件评估 超多面体模型判据 最近邻留 法扣l 据 非线性回归判据 数据结构分析 拓扑类型判据 近邻分析 近线性分析 时间序列分析 f i s h e r 指数 相关分析 单因子分析 双困子分析 多因子分柝 自变量筛选 投票法 熵法 建模 o m r h o m r o m r 回归 o mr a n n 样本筛选 子空间分割 死区分割 离群点删除 优区优化灵敏度优区预报模块o m r o m r a n n 边界具体分析图剖面图 回归方程结构参数 方程建议 图卜1 复杂数据信息处理通用流程图 1 3 数据挖掘算法介绍 大部分数据挖掘技术都以统计推理的方法为基石 该技术发展至今 已经形 成了多种成熟的算法 其常用的方法有回归 r e g r e s s i o n 模式识别 p a t t e r n r e c o g n i t i o n 人工神经网络 a r t i f i c i a ln e u r a ln e t w o r k a n n 决策树 d e c i s i o n t r e e 5 1 关联规则 a s s o c i a t i o nr u l e 和遗传算法 g e n e t i ca l g o r i t h m g a 1 等 除此之外 还有支持向量机 3 模糊集合 f u z z ys e t 1 及粗糙集 r o u g hs e t 1 0 1 等其它方法 各方法因其原理不同 所得结果有时并不一致 但都能够在不 同侧面反映事物的本质 因此 在数据挖掘过程中多种方法的交互与混合应用 可能会比单一方法更能有效地挖掘出所需要的知识 更进一步 多种方法的结合 又催生出许多崭新的方法 坝 论文 数据挖掘技术在环境科学及构效关系中的应用研究2 0 0 5 年2 月 采用某些算法建模之后 为了考查这样建立的数学模型的有效性和可靠性 基本上有两类方法进行检验 最有说服力的 当然是用已建立的数学模型预报未 知 然后用实验或生产过程加以证实 另一类更为方便的方法 就是预先留一部 分已知样本不参加训练 然后用求得的数学模型对其作预报加以验证 喑十常用 的方法称为 留一法 l e a v i n go n eo u t m e t h o d 即每次取去一个样本 以其余 样本作为训练集 并将求得的数学模型对取去的这个样本作预报 再依次对每一 个样本都预报后 将预报成功率 平均值 作为预报能力的指标 当样本很多时 留一法 工作量很大 此时可采用 留n 法 比如 留十法 或 留四分之 一法 等检查其预报能力 以下仅对本文涉及的若干数据挖掘方法作一概念性介绍 有关具体算法可以 参阅文献 2 1 3 1 统计回归 回归方法是一种传统而又十分有效的方法 该方法一般包括了几个方面 第 一 根据因变量与一个或者多个自变量的实际观测值 依经典的数理统计理论 建立因变量对一个或者多个自变量的回归方程 一元或者多元 线性或者非线 性 第二 检验 分析各个自变量对因变量的综合线性影响的显著性 第三 检验 分析各个自变量对因变量的单纯线性影响的显著性 选择仅对因变量有显 著线性影响的自变量 建立最优回归方程 即自变量筛选过程 第四 在上述的 计算基础之上 评定各个自变量对因变量影响的相对重要性以及测定最优回归方 程的偏离度等 最小二乘法 多元线性回归 多元非线性回归 逐步多元线性回归 逐步多 元非线性回归 以及偏最小二乘法回归 p l s 等等都属于回归方法 1 3 2 模式识别o 删 模式识别由于具有通过互不相同的观测值定义关系的能力而独特地适用于 不同领域的多种研究 被认为是数据信息采掘技术的主要方法之一 在化学和相 关学科中的应用包括光谱数据分析 电化学 材料科学 复杂混合物的分类 化 学实验模型化 从分子结构预测化合物性质等领域 它只要寻找互不相同的数 据组间的关系 在有了一些可用的观测值之后 即可用于评价它们的质量 模式识别方法大致可分为统计模式识别 s t a t i s t i c a lp a t t e mr e c o g n i t i o n 和 句法模式识别 s y n t a c t i cp a t t e r nr e c o g n i t i o n 统计模式识别将每个样本用特征 参数表示为多维空间中的一个点 根据 物以类聚 的原理 同类或相似的 样 本 间距离应较近 不同类的 样本 间距离应较远 这样 就可以根据各点问 的距离或距离的函数来判别 分类 并利用分类结果预报未知 该方法由于特点 鲜明 易于掌握 在化学化工界有着广泛的应用 是材料设计 工业优化和工业 渗断的一种基本的 常用的方法 后者与前者的区别 就在于对象不同 句法模 式识别是以模式结构信息为对象的识别技术 应用领域也与统计模式识别不一 卿j 论文 数据挖掘技术在环境利学及构效关系中的应用研究2 0 0 5 年2 月 采用某些算法建模之后 为了考查这样建立的数学模型的有效性和可靠性 基本上有两类方法进行检验 最有说服力的 当然是用已建立的数学模型预报未 知 然后削实验或生产过程加以证实 另一类更为方便的方法 就是预先留一部 分已知样本不参加训练 然后用求得的数学模型对其作预报加以验证 一 种常用 的方法称为 留一法 l e a v i n g0 n eo u t m e t h o d 即每次取去一个样本 以其余 样本作为训练集 并将求得的数学模型对取去的这个样本作预报 再依次对每一 个样本都预报厉 将预报成功率 平均值 作为预报能力的指标 当样本很多时 留一浊 上作量很大 此时可采用 留n 法 比如 留十法 或 留四分之 法 等检查其预报能力 以下仅对本文涉及的若干数据挖掘方法作一概念性介绍 有关具体算法可以 参阅史献 2 1 3 1 统计回归 回归方法是一种传统而又十分有效的方法 该方法一般包括了几个方面 第 根据因变量与一个或者多个自变量的实际观测值 依经典的数理统计理论 建 囡变量对一个或者多个自变量的回归方程 一元或者多元 线性或者非线 性 第二 检验 分析各个自变量对因变量的综合线性影响的显著性 第三 检骀 分析各个自变量对因变量的单纯线性影响的显著性 选择仅对因变量有显 著线性影响的自变量 建立最优回归方程 即自变量筛选过程 第四 在上述的 计算基础之卜 评定各个白变量对因变量影响的相对重要性以及测定最优到归方 程的偏离度等 最小二乘法 多元线性回归 多元非线性回归 逐步多元线性回归 逐步多 元非线性回归 以及偏最小二乘法回归 p l s 等等都属于回归方法 1 3 2 模式识别 模式识别由于具有通过互不相同的观测值定义关系的能力而独特地适用于 小i 刊领域的多种研究 被认为是数据信息采掘技术的主要方法之一 在化学和相 关学科中的应用包括光谱数据分析 电化学 材料科学 复杂混合物的分类 化 学实验模型化 从分子结构预测化合物性质等领域 它只要寻找互不相同的数 据组间的关系 在有了 些町用的观测值之后 即可用于评价它们的质量 模式识别方法大致可分为统计模式识别 s t a t i s t i c a lp a t t e mr e c o g n i t i o n 和 句法模式识别 s y n t a c t i cp a 仕e mr e c o g n i t i o n 统计模式识别将每个样本用特征 参数表示为多维空间中的一个点 根据 物以类聚 的原理 同类或卡目似的 样 本 间距离应较近 不同类的 样本 间距离应较远 这样 就可以根据各点矧 的距离或距离的函数来判别 分类 并利用分类结果预报未知 该方法由于特点 鲜明 易于掌握 在化学化工界有着广泛的应用 是材料设计 工业优化和工业 诊断的一种基本的 常用的方法 后者与前者的区别 就在于对象不同 句法模 式识别是以模式结构信息为对象的识别技术 应用领域也与统计模式识别不一 式识别是以模式结构信息为对象的识别技术 应用领域也与统计模式识别不一 坝 论文 数据挖掘技术在环境科学及构效关系中的应用研究2 0 0 5 年2 月 采用某些算法建模之后 为了考查这样建立的数学模型的有效性和可靠性 基本上有两类方法进行检验 最有说服力的 当然是用已建立的数学模型预报未 知 然后用实验或生产过程加以证实 另一类更为方便的方法 就是预先留一部 分已知样本不参加训练 然后用求得的数学模型对其作预报加以验证 喑十常用 的方法称为 留一法 l e a v i n go n eo u t m e t h o d 即每次取去一个样本 以其余 样本作为训练集 并将求得的数学模型对取去的这个样本作预报 再依次对每一 个样本都预报后 将预报成功率 平均值 作为预报能力的指标 当样本很多时 留一法 工作量很大 此时可采用 留n 法 比如 留十法 或 留四分之 一法 等检查其预报能力 以下仅对本文涉及的若干数据挖掘方法作一概念性介绍 有关具体算法可以 参阅文献 2 1 3 1 统计回归 回归方法是一种传统而又十分有效的方法 该方法一般包括了几个方面 第 一 根据因变量与一个或者多个自变量的实际观测值 依经典的数理统计理论 建立因变量对一个或者多个自变量的回归方程 一元或者多元 线性或者非线 性 第二 检验 分析各个自变量对因变量的综合线性影响的显著性 第三 检验 分析各个自变量对因变量的单纯线性影响的显著性 选择仅对因变量有显 著线性影响的自变量 建立最优回归方程 即自变量筛选过程 第四 在上述的 计算基础之上 评定各个自变量对因变量影响的相对重要性以及测定最优回归方 程的偏离度等 最小二乘法 多元线性回归 多元非线性回归 逐步多元线性回归 逐步多 元非线性回归 以及偏最小二乘法回归 p l s 等等都属于回归方法 1 3 2 模式识别o 删 模式识别由于具有通过互不相同的观测值定义关系的能力而独特地适用于 不同领域的多种研究 被认为是数据信息采掘技术的主要方法之一 在化学和相 关学科中的应用包括光谱数据分析 电化学 材料科学 复杂混合物的分类 化 学实验模型化 从分子结构预测化合物性质等领域 它只要寻找互不相同的数 据组间的关系 在有了一些可用的观测值之后 即可用于评价它们的质量 模式识别方法大致可分为统计模式识别 s t a t i s t i c a lp a t t e mr e c o g n i t i o n 和 句法模式识别 s y n t a c t i cp a t t e r nr e c o g n i t i o n 统计模式识别将每个样本用特征 参数表示为多维空间中的一个点 根据 物以类聚 的原理 同类或相似的 样 本 间距离应较近 不同类的 样本 间距离应较远 这样 就可以根据各点问 的距离或距离的函数来判别 分类 并利用分类结果预报未知 该方法由于特点 鲜明 易于掌握 在化学化工界有着广泛的应用 是材料设计 工业优化和工业 渗断的一种基本的 常用的方法 后者与前者的区别 就在于对象不同 句法模 式识别是以模式结构信息为对象的识别技术 应用领域也与统计模式识别不一 顺f 论文 数据挖掘技术在环境科学及构效关系中的应用研究 样 主要被采用于遥感图片处理 指纹分析 汉字识别等等方面 专家认为 由 于句法模式识别更便于处理图形和结构的信息 今后可能在有机分子设计和i q k 优化工作中的图象处理中获得应用 模式分类的概念可以表示为在特征空间的分区或由特征空间向决策空间的 映射 其最简单的分类问题是将样本分为互不相容的两类 即第一类样本包括所 有符合某种标准的样本 第二类样本包括所有不符合某种标准的样本 若在多 维空间中能找到一个超平面或超曲面能将二类样本的代表点分在两个区 则求该 超平面或超曲面的计算即称为 训练 t r a i n i n g 或 学习 1 e a r n i n g 所根据 的样本或样本点成为 训练点 t r a i n i n gp o i n t s 或 训练集 t r a i n i n gs e t 模式 识别计算也可 次将样本分为多类 当样本需作多类分类时 较常用的方法是先 将样本分两类 然后将分类后的每一类样本再用模式识别分两类 这种多次分两 类的方法 分类效果往往比一次分多类好 通过已知样本的有人管理分类 可以 求出某一类样本的判据 数学模型 模式识别方法有多种 其中传统方法有主 成分分析 p r i n c i p a lc o m p o n e n ta n a l y s i s p c a 最优判别平面方法 o d p 相 似分析法 s i m c a 聚类分析方法 线性及非线性映照 线性及非线性逆映照 等等 f i s h e r 法等 模式识别过程一般包括三个步骤 1 数据即观测值的收集表示和预处理 2 特征提取和选择 3 分类决策 1 3 3 人工神经网络o 人工神经网络的研究起始于2 0 世纪4 0 年代 是模仿人脑神经网络结构和功 能建立的一种信息处理系统 最初来源于人的大脑处理信息的模型 它是由数目 众多的 功能相对简单的功能单元 神经元 相互连接而成的复杂的非线性网络 其本质是建立一种输入和输出变量间的映射关系 无需预先给定输入输出间关系 的公式形式 以样本数据为基础 按照某种算法经过有限次迭代计算后即可获得 一个反映样本输入和输出数据问内在规律的数学模型 因此其具有输入输出数据 之间的数学模型并不需要显示且可以方便表达非线性关系的优点 基于此 化学 领域中的许多问题都可以应用神经网络的方法进行研究 主要表现在联想记忆 数据映射 数据建模 聚类分析等几个方面 人 神经网络的算法可分为两类 有管理的人工神经网络和无管理的人工神 经网络 有管理的人工神经网络的方法主要是对已知试样进行训练 然后对未知 试样进行预测 其典型代表是误差反向传输 b a c kp r o p a g a t i o n b p 人工神经网 络 无管理方法 也称自组织 s e l f o r g a n i z a t i o n 人工神经网络 对已知样本进 行训练前无需设定其类别 如k o h o n e n 神经网络和h o p f i e l d 神经网络 在诸多 算法中 目前应用最多 最成功的是前馈网络中的反向传播 b p 算法 它由 三个部分组成 输入层 隐蔽层和输出层 图卜2 为b p 网的基本结构 圆圈表 示神经元 坝 论文 数据挖掘技术在环境科学及构效关系中的应用研究2 0 0 5 年2 爿 人工神经网络的优点是 不用预先指定函数形式便能对包括强非线性在内的 各类数据文件进行拟合 建模和预报 人工神经网络目前还存在很多问题值得探 讨 如网络训练速度 过拟合 全局寻优 网络结构与网络预报能力等问题 尤 其是当过拟合时 很可能导致预测数学模型的不稳定 预测结果非常差 因为人 工神经网络拟合时将噪声也拟合进去 而且 当样本点在空间分布不均匀时 人 工神经网络往往由于迁就样本点密集区 从而导致样本点稀疏区或空白区的严重 误报 因此 在运用人工神经网络时 应尽可能地避免过拟合 输出 口 输出层 隐蔽层 输入岸 口口口口 输入 图1 2 b p 网基本结构 1 3 4 支持向量机方法 1 支持向量机方法是由俄国数学家v a p n i k 提出的 该理论有其独特的优点 是机器学习领域若干标准技术的集大成者 传统的机器学习算法都以经典统计数学的渐近理论为依据 该理论的大数定 理规定 统计规律只有在已知样本数无限多时才显露出来 但化学化工实际j i 作 中已知样本总是有限的 忽视这一矛盾是造成实际计算中过拟合弊病的重要原 因 针对经典统计数学这一弱点 v a p n i k 学派提出了 统计学习理论 和 支持向 量机算法 新算法既能处理非线性问题 又能抑制传统算法 如人工神经网络 等 常遇到的过拟合弊病 为解决传统方法中的 小样本 问题提供了一条有效 的解决问题的途径 该方法在分析化学的多变量校正 数据处理 商品检验 相 图和新化合物的计算机预报 新材料制备的实验设计 环境污染的建模和预报 以及分子设计 药物设计等领域的应用都有良好的效果 多数情况下所建的数学 模型较传统算法的结果有更好的预报正确率 显示出该方法在化学化工领域很强 的应用潜力 其原理将在第四章详述 1 4 数据挖掘技术的应用领域 数据挖掘技术具有广泛的应用领域 例如 6 坝l 论文 数据挖掘技术在环境科学及构效关系中的应用研究 数据挖掘技术可以应用于生物科学的研究 生物信息学是生物学与计算机科 学 信息学及应用数学交叉融合而衍生出的新兴边缘学科 数学用于生物学的研 究己有百年的历史 但计算机用于生物学的研究则是以分子生物学的发展为契机 的 目前其主要动力源于分子生物学中的基因组学分支 因为基因组学的研究涉 及了海量的且关系复杂的关于d n a 和蛋白质序列及结构数据的存储 处理和分 析 所以离开计算机的支持是绝对无法实现的 许多科学家已经运用如人工神经 网络 遗传算法 支持向量机等多种算法来进行蛋白质序列预测等研究 以阐述 和理解基因组学研究获得的大量数据中所包含的生物学意义m 1 0 1 数据挖掘技术在新杳才料中的研究 1 颞材料的探索和研制部分是用经验方法 或称为 炒菜 t r i a la n de r r o rm e t h o d 方法 即当要求提出后 凭经验决定材 料制备的配方和工艺 制各一大批样品 分析其成分 组织结构 测试其性能 若不符合需要 即另行试制 一般要反复多次才能成功 成功后还要摸索大量生 产的技术和工艺 才能逐步做到廉价大批量生产 这种方法虽然有一定效果 但 终究是事倍功半 费时费力 但如果将数据挖掘方法应用于新材料的研制或技术 开发中 研究材料结构与性能的关系 从而指导设计 则会大大解决 炒菜法 进行材料设计的盲目性问题 新材料 新物质的计算机辅助设计大致可以分为三 个层次 1 从量子化学 固体物理 结构化学等角度来探索材料的微观结构与 性能之间的关系 2 从相图 热力学和动力学性质出发 探索新型材料及其制 备方法的革新 3 运用数据挖掘方法和数据库结合 总结材料的结构与性质的 关系 配方及制备条件与材料性能或生产技术指标 如成品率 能耗等 的关系 等 实现材料制备 加工以及性能的优化 上海大学陈念贻 陆文聪等人在计算 机辅助材料设计上有一定成果 数据挖掘技术可以在环保中得到应用 我们以机动车的排气污染为例来说明 众所周知 随着我国w t o 的加入和国民经济的发展 我国机动车拥有量将 不断增长 机动车的排气污染也将日益严重 加强机动车排气污染的管理 已经 成为环保部门极其重要的工作 因此 研究机动车排气性能的分类和预报方法也 成为热点 着找到合理的评价机动车综合排气性能的方法 无疑将对加强我国机 动车排污管理工作起到积极的推动作用 目前 灰色预测方法已经应用于机动车 的综合排气性能评价中o 但该模型仍属于线性预测模型 适用于局部的 阶段 性的 线性的 数据处理 其应用有一定的局限性 因为机动车排污的主要指 标与其排气性能之间的关系是很复杂的 比如机动车排放的污染物呈非线性增长 的趋势 其对环境影响的模式是动态和非线性的 并且 随着主要污染物在环境 中排放量的不断增加和积累 这种关系将更加复杂 因此 机动车综合排气性能 可能不只是各种排放污染物效果测定值的简单线性组合 而是复杂的非线性关 系 我们提出了一种机动车综合排气性能的非线性评价模式 在此基础上 再利 用v a p n i k 等提出的模式识别新方法一支持向量机算法对这一评价结果进行分类和 预报 取得了很好的效果 删ij 论文 数据挖掘技术在环境科学及构效关系中的廊用研究2 0 0 5 年2 月 数据挖掘技术广泛应用在化学化工业 在我国化学化工界 以陈念贻教授 陆文聪教授为主的课题组将模式识别技术作为数据挖掘手段对冶金和化工行业 的生产过程进行优化 对各种试验数据进行处理 已取得了重要成果和良好的经 济效益 3 他们还采用该技术根据以往的实验数据预报未知三元合金系的性质 取得了很高的预报准确率 1 并建立了智能数据库系统 显示了该技术应用于化 工类科学研究的广阔前景 中科院上海药物所陈凯先院士 蒋华良研究员等在计 算机辅助药物分子设计 从分子和亚分子水平探索药物作用的机制和构效关系 基于药物与受体三维结构的合理药物设计研究等方面取得丰富成果 7 删 俞汝勤 教授和粱逸曾教授等在化学计量学方法及其应用研究方面颇有建树o 雨邵学广 教授等人在小波变换 遗传算法 免疫算法等方面的工作较为领先 j 在新算法支持向量机 s u p p o r tv e c t o rm a c h i n e 简称s v m 的应用方面 上海大学化学系计算化学研究室的陈念贻 陆文聪教授等人于2 0 0 2 年发表了一 系列关于s v m 方法在化学化工中应用的文章 这是支持向量机算法在国内化学 化一l 领域的首次报道 2 0 0 4 年陈念贻 陆文聪教授等人由w o r l ds c i e n t i f i c p u b l i s h i n gc o p t e l t d 发表了英文学术专著s u p p o r tv e c t o rm a c h i n ei n c h e m i s t r y 1 内容涵盖众多重要化学领域 引起了化学界的广泛重视 事实上 数据挖掘技术对提高我国相当部分传统产业的生产效率有巨大的潜 在效益 生产过程中产量忽高忽低 质量时好时坏是一个较为普遍的现象 通过 数据挖掘可以从繁杂的历史数据中找出影响产量或质量的因素并确定生产过程 中可控参数的优区范围 依据这些结果调整生产过程中的若干参数或局部工艺 可在不引进新设备 不进行额外试验 不中断生产过程的前提下提高产量和质量 具有成本低 周期短 不需停工的显著优点 非常适合我国国情 仅从这 点看 研究实用 可靠的数据挖掘技术具有深远的意义 近十年来 数据挖掘理论和算 法的进展 更是极大地促进了计算机化学 化学计量学和化学信息学等新学科的 发展 综上 在化学化工领域 作为人工智能与数据库交叉融合的数据挖掘技术已 在工业优化 化合物物性 或生物活性 预报 新材料 新产品研制 环境保护 质量检验 化学化工类智能数据库及专家系统 蛋白质结构功能等领域得到广泛 应用 此外 数据挖掘技术还广泛地应用于金融业 零售业 远程通讯业 政府 管理 制造业 医疗服务以及体育事业中 1 5 论文组织结构及内容 本文研究了数据挖掘技术在环境科学中的若干应用及数据挖掘新算法一支持 向量机算法 s v m 在药物构效关系中的应用 对环境科学中的一些新的领域做 了研究应用工作 对化合物构效关系研究提出了一些新的思路和方法 本文各章 的主要内容分别为 8 坝 一论文 数据挖掘技术在环境科学及构效关系中的应用研究 第一章为综述 简要介绍了数据挖掘技术及其在环境科学 构效关系等中的 研究现状及进展 第二

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论