




已阅读5页,还剩118页未读, 继续免费阅读
(计算机应用技术专业论文)基于多维数据分析的神经网络与分布式计算研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学博士学位论文 中文摘要 人工神经网络技术以其大规模并行处理 分布式存储 自适应性 容错性 等优点吸引了众多领域科学家的广泛关注 被广泛地应用于生物 电子 计算 机 数学等领域 随着网络通信技术和互联网的飞速发展 分布式计算成为影 响当今计算机技术发展的关键技术力量之一 在现代社会和经济发展中得到越 来越广泛的应用 这两项技术都离不开数据 而大量的数据来自数据仓库存储 的多维数据 这两项技术都需要数据分析 都会涉及多维矩阵 因此 研究基 于多维数据分析的神经网络与分布式计算有着重要的意义 使得本研究工作得 到国家自然科学基金的支持 本文的工作主要分为以下四个方面 在多维数据分析与多维矩阵研究方面 针对数据仓库中进行多维数据分析 处理的重要性 引入多维矩阵的概念 对应用最广泛的立体阵 讨论了它的运 算性质 为在神经网络和分布式计算中的应用打下基础 在基于多维数据分析的神经网络研究方面 首先构造了一种无监督学习的 凸约束神经网络模型 该网络具有特殊结构 能实现数据压缩与还原过程 经 过训练后可以表示信息的主要特征 其次研究了一种贝叶斯神经网络 运用广 义朴素贝叶斯方法来处理连续变量 构造一种正交多项式核函数对其先验分布 的密度函数进行估计 进一步研究了密度函数及其导数的核估计的优良性 然 后针对全要素生产率研究 构造了 个分岔神经网络 实现了利用随机前沿面 模型进行t f p 测度 最后 构造了一种通过相互影响而使输出结果一致的半监 督异构神经网络来计算t f p 贡献率 并且详细地讨论了该神经网络的结构与算 法 在基于多维数据分析的分布式计算研究方面 首先针对结构方程模型改进 了偏最d 乘算法 构造了确定性算法 其次研究了多对象结构方程模型 采 用分布式计算来计算结构方程中每组的系数 使用带凸约束的广义线性模型建 立新模型 给出了多对象结构方程模型的算法 然后研究了多元非参数回归曲 线漂移模型 使用分布式计算进行多元曲线漂移模型销售曲线的预测 最后研 究了若干具体的分布式计算的应用 包括一般分布函数表的m o n t ec a r l o 分布式 计算 蛋白质分子构造的分布式计算问题以及m o s 管寿命分布的负指数矩估计 与分布式计算 最后 作为基于多维数据分析的神经网络与分布式计算的综合应用 本文 介绍了我们团队研发的大型应用系统 顾客满意指数测评分析系统 它基于 武汉理工大学博士学位论文 数据仓库与 n e t 技术开发 采用无监督学习的凸约束神经网络模型架构 实现 了基于远程方法调用的分布式计算 i 关键词j 多维数据分析 多维矩阵 人工神经网络 分布式计算 数据仓库 武汉理工大学博士学位论文 a b s t r a c t a r t i f i c i a ln e u r a ln e t w o r kt e c h n o l o g yi sat o p i cc o n c e r n e db ys c i e n t i s t si nm a n y d o m a i n s b e c a u s eo fi t sc h a r a c t e r i s t i c ss u c ha sm a s s i v ep a r a l l e lp r o c e s s d i s t r i b u t e d s t o r a g e s e l f a d a p t a b i l i t y f a u l t t o l e r a n ta n ds oo n i th a sb e e nw i d e l ya p p l i e di n m a n yf i e l d ss u c ha sb i o l o g y e l e c t r o n i c s c o m p u t e rs c i e n c e m a t h e m a t i c sa n ds oo n w i t ht h er a p i dd e v e l o p m e n to fn e t w o r kc o m m u n i c a t i o nt e c h n o l o g ya n di n t e r n e t t h e d i s t r i b u t e dc o m p u t i n gh a sb e c o m eo n eo ft h ek e yt e c h n o l o g i e si n f l u e n c i n gt o d a y s d e v e l o p m e n ti nc o m p u t e rt e c h n o l o g y a n di th a sb e e nu s e di nm o d e r ns o c i e t ya n d e c o n o m i cd e v e l o p m e n t b o t ho ft h et e c h n o l o g i e sn e e dd a t a h o w e v e r l o t so fd a t a c o m ef r o mt h em u l t i d i m e n s i o n a ld a t as t o r e di nd a t aw a r e h o u s e b o t ho ft h e t e c h n o l o g i e sn e e dd a t aa n a l y s i s w h i c hw i l li n v o l v em u l t i d i m e n s i o n a lm a t r i x t h e r e f o r e i th a si m p o r t a n tm e a n i n gt os t u d yt h ea r t i f i c i a ln e u r a ln e t w o r k sa n d d i s t r i b u t e dc o m p u t i n gb a s e do nm u l t i d i m e n s i o n a ld a t aa n a l y s i s s oo u rr e s e a r c hw a s s u p p o r t e db yn a t i o n a ln a t u r a ls c i e n c ef u n do f c h i n 乱 t h i sd i s s e r t a t i o ni sd i v i d e di n t of o u rp a r t sa sf o l l o w s t h ef i r s tp a r tf o c u s e so nt h es t u d yo fm u l t i d i m e n s i o n a ld a t aa n a l y s i sa n d m u l t i d i m e n s i o n a lm a t r i x w ei n t r o d u c et h ec o n c e p to fm u l t i d i m e n s i o n a lm a t r i x a c c o r d i n gt on e c e s s i t yo fu s i n gm u l t i d i m e n s i o n a ld a t aa n a l y s i si nd a t aw a r e h o u s e t h e nw ed i s c u s st h ep r o p e r t i e so fc u b i cm a t r i xw h i c hh a st h em o s tw i d e l y a p p l i c a t i o ni nm u l t i d i m e n s i o n a lm a t r i x s ow ee s t a b l i s hb a s i sf o ra p p l i c a t i o ni n n e u r a ln e t w o r ka n dd i s t r i b u t e dc o m p u t i n g t h es e c o n dp a r tf o c u s e so nt h es t u d yo fa r t i f i c i a ln e u r a ln e t w o r k sb a s e do n m u l t i d i m e n s i o n a ld a t aa n a l y s i s a tf i r s t w ep r o p o s e sak i n do fu n s u p e r v i s e dl e a r n i n g n e u r a ln e t w o r km o d e l 析t l lc o n v e xc o n s t r a i n tw h i c hh a ss p e c i a ls t r u c t u r ea n dc a n r e a l i z et h ec o m p r e s s i o no fd a t aa n dr e d u c t i o np r o c e s s 耶1 em a i nc h a r a c t e r i s t i c so f t h en e u r a ln e t w o r kc a nr e p r e s e n ti n f o r m a t i o na f t e rb e i n gt r a i n e d s e c o n d l y w es t u d y ak i n d o fb a y e sn e u r a ln e t w o r k s a n da d o p tg e n e r a ln a i v eb a y e st oh a n d l e c o n t i n u o u sv a r i a b l e s t h e n p r o p o s eak i n do fk e r n e lf u n c t i o nc o n s t r u c t e db y o r t h o g o n a lp o l y n o m i a l sw h i c hi su s e dt oe s t i m a t et h ed e n s i t yf u n c t i o no fp r i o r d i s t r i b u t i o ni nb a y e sn e t w o r k f u r t h e r m o r g m a k er e s e a r c h e si n t oo p t i m a l i t yo ft h e k e r n e le s t i m a t i o no fd e n s i t ya n dd e r i v a t i v e s t h i r d l y a i m i n ga tr e s e a r c ho ft o t a l f a c t o rp r o d u c t i v i t y t f p w ec o n s t r u c taf b r kn e u r a ln e t w o r kt oi m p l e m e n tt f p 武汉理工大学博士学位论文 m e a s u r eb ys t o c h a s t i cf r o n t i e rm o d e l f i n a l l y i no r d e rt oc o m p u t et f pc o n t r i b u t i o n r a t e w ep u tf o r w a r dak i n do fs e m i s u p e r v i s e dh e t e r o g e n e o u sn e u r a ln e t w o r k sw h i c h m a k e so u t p u tr e s u l t sc o n s i s t e n tb yi n t e r a c t i o n a l s ow ed i s c u s st h ec o n s t r u c t i o na n d a l g o r i t h mo ft h i sn e u r a ln e t w o r k i nd e t a i l t h et h i r dp a r tc o n c e r n sd i s t r i b u t e dc o m p u t i n gb a s e do nm u l t i d i m e n s i o n a ld a t a a n a l y s i s f i r s t l y w ep r o p o s ea ni m p r o v e dp a r t i a ll e a s ts q u a r ea l g o r i t h mi ns t r u c t u r a l e q u a t i o nm o d e l s e m w h i c hc o n s t r u c t s ad e t e r m i n i s t i c a l g o r i t h m t h e n m u l t i g r o u ps t r u c t u r a le q u a t i o nm o d e li sa n a l y z e da n dd i s t r i b u t e dc o m p u t i n gi s a d o p t e dt oc a l c u l a t ea l lt h ec o e f f i c i e n t s f u r t h e r m o r e au n i f o r mm o d e li sb u i l tu s i n g t h eg e n e r a l i z e dl i n e a rm o d e lw i mc o n v e xc o n s t r a i n ta n da na l g o r i t h mf o rt h e m u l t i g r o u ps e mi sp r e s e n t e d m o r e o v e r w ep u t f o r w a r dt h em u l t i v a r i a t e n o n p a r a m e t r i cr e g r e s s i o nc a l v ed r i f tm o d e l a n da p p l yd i s t r i b u t e dc o m p u t i n gt o f o r e c a s tt h es a l ec u r v eo fm u l t i v a r i a t ec u r v ed r i f tm o d e l a tl a s t w ea p p l yd i s t r i b u t e d c o m p u t i n gt os e v e r a lf i e l d s w h i c hi n c l u d em o n t ec a r l od i s t r i b u t e dc o m p u t i n gf o r g e n e r a ld i s t r i b u t i o nf u n c t i o nt a b l eo fp r o b a b i l i t yo fs t a t i s t i c s d i s t r i b u t e dc o m p u t i n g f o rm o d e l i n gt h ed e c o m p o s i t i o np r o d u c t so fap r o t e i na n db o o t s t r a pa n a l y s i so f m o s f e tl i f ed i s t r i b u t i o n i ln e g m i v eo r d e rm o m e n te s t i m a t ea n di t sd i s t r i b u t e d c o m p u t i n g t h ef i n a lp a r ti sa ni n t e g r a t e da p p l i c a t i o no fn e u r a ln e t w o r k sa n dd i s t r i b u t e d c o m p u t i n gb a s e dm u l t i d i m e n s i o n a ld a t aa n a l y s i s t h i s d i s s e r t a t i o ni n 仃o d u c e s c u s t o m e rs a t i s f a c t i o ni n d e xm e a s u r ea n a l y s i ss y s t e mw h i c hi sal a r g ea p p l i c a t i o n s y s t e md e v e l o p e db yo u rt e a m t h es y s t e mi sb a s e do nd a t aw a r e h o u s ea n d n e t t e c h n i q u e u s e st h es t r u c t u r eo fu n s u p e r v i s e dl e a r n i n gn e u r a ln e t w o r km o d e lw i t h c o n v e xc o n s t r a i n t a n dr e a l i z e sn e t w o r kr e m o t ec a l c u l a t i o na n dd i s t r i b u t e d c o m p u t i n g k e yw o r d s m u l t i d i m e n s i o n a ld a t aa n a l y s i s m u l t i d i m e n s i o n a lm a t r i x a r t i f i c i a l n e u r a ln e t w o r k s d i s t r i b u t e dc o m p u t i n g d a t aw a r e h o u s e 独创性声明 本人声明 所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人 已经发表或撰写过的研究成果 也不包含为获得武汉理工大学或其它教育机构的 学位或证书而使用过的材料 与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意 签名 一 日期 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留 使用学位论文的规定 即学校有权保 留 送交论文的复印件 允许论文被查阅和借阅 学校可以公布论文的全部或部 分内容 可以采用影印 缩印或其他复制手段保存论文 保密的论文在解密后应遵守此规定 签名 一 导师签名 武汉理工大学博士学位论文 1 1 研究背景 第1 章绪论 本课题来源于导师主持的国家自然科学基金研究项目 消费心理分析中的 顾客满意指数模型计算问题 国家自然科学基金研究项目 基于多维矩阵的智 能计算相关研究 国家软科学研究项目 r d 投入贡献率的测算与优化研究 和导师主持的国家科技部中小企业技术创新基金项目 基于数据仓库的多维数 据分析系统m d a s 下面从四个方面来分析本课题目前国内外研究现状 1 多维数据分析的国内外研究现状 建立在数据仓库基础上的联机分析处理 o l a p 的核心是多维数据分析 多维数据分析的关键是有效地计算多个维集合上的聚集 数据立方体是为输入 数据的聚合定义的框架结构 是多维数据库数据在维模型中的一种表述 数据 立方体是由维和事实来定义的一类多维矩阵 能够让用户从多个角度探索和分 析数据 对数据立方体进行多维计算和优化 是当前研究的一个热点 对数据立方体的研究 文献 1 非形式化地提出了数据立方体的概念 认为 是s q l 中g r o u pb y 子句的一般化 文献 2 给出了多维数据库的一个非形式化 模型 但没有把数据立方体的节点和数据立方体的概念进行严格区分 带来了 处理上的复杂性 而且在有关数据立方体间的连接等操作的讨论上也存在着不 足 文献 3 使用了和文献 1 一致的数据立方体的概念 研究了在数据立方体中 选择哪些节点进行实体化的问题 近年来国内也展开了对数据立方体的研究并 取得一些成果 文献 4 定义了数据立方体 提出了一个支持多维分析语义描述 的形式化工具 数据立方体代数 但对维层次以及基于维层次的钻取操作未 深入探讨 文献 5 以偏序和映射为基础 提出了一种能够充分表达数据仓库复 杂数据结构和语义的多维数据模型 并提供一个以o l a p 操作为核心的操作代 数 但由于在操作定义中包含了完全的维层次细节 当维结构被改变时 o l a p 操作不得不重新定义 文献 6 给出了一种关于关系代数的计算方法 对于立方 体格的生成 有递归的b u c 算法 对于维上带层次的分层的立方体格的生成 文献 7 给出了一种h b u c 算法 文献 8 从使用的角度出发 给出了一种总体上 的操作型数据增量生成多维数据立方体格的方法 文献 9 提出了一种数据立方 体的数据泛化算法 在多维计算方面 许多学者从多个方面进行了研究 文献 1 0 提出了e a g e r a g g r e g a t i o n 和l a z y a g g r e g a t i o n 的思想 在进行查询时 存在 武汉理工大学博士学位论文 大量的g r o u p b y 和j o i n 操作 为了优化查询过程 提出了将两种操作相互进行 转换的想法 加快了涉及多个视图的聚集查询过程 在日常工作中 经常要对 一些数据流进行分析 处理 为了对这些数据流进行实时分析 往往需要大量 的主存空间及多次对数据流进行扫描 这对于一些实时性较强的处理是不可取 的 为了节省主存空间及扫描次数 文献 1 1 提出了将数据流进行分簇处理的 方法 该算法能有效地对一些数据流进行实时处理 对于多个数据流 可用多 维索引树进行存储 为了防止维数量增加所带来的灾难 就需要对维数量进行 转换 对于这种转换可以采用多种方法 如离散傅立叶变换 离散小波变换等 上述方法大多是将重点放在低层次数据流的分析上 而事实上 对于各种预测 决策支持系统而言 更重要的是把握数据流的整体趋势及规律 文献 1 2 在这 方面作了一些探讨 提出了把握数据流的整体趋势及规律的方法 文献 1 3 在 文献 1 2 提出的方法的基础上进行了一些扩充 并综合地运用这些方法 为时 序数据的聚集提供了一个较为完整的计算方案 可见 针对各种特定数学模型 的多维分析还有待进一步深入研究 2 数学模型及其多维表达的国内外研究现状 数学模型是用数学方法和算法来表达各种实际问题 数理统计发展至今 在模型和算法上已有了相当丰富的积累 并在各行各业广泛使用 传统的数理 统计模型一般采用二维矩阵表达 并以二维矩阵为基本单位进行运算 随着数 理统计的快速发展和广泛应用 二维矩阵表达在有些方面己不能很好地描述模 型本身 多维数据是客观存在的 没有采用多维矩阵表达时 数学模型的办法 通常有两个 一是在二维矩阵后面加括号 如x 表达二维 则x f 表达三维 二是将多个列数相同的二维矩阵上下叠放 形成一个三维矩阵 然而这些表达 方式难以推广到更高维数 数学界其实已经建立了多维矩阵及其运算的概念 三维矩阵的元素就记作 x r a 维矩阵的元素就记作五 随之而来的多维矩阵运算f q 题也进入了 研究轨道 1 9 8 0 年b a t e s 和w a t t s 在文献 1 4 中首次提出了立体阵及其方括号乘 法 此后 在有关的论文中常有引用 t s a i 在文献 1 5 中对有关运算进行初步整 理 我们在t s a i 的基础上又进一步进行了系统的总结 并作了许多扩充i l l 文 献 1 6 给出了立体阵的各种表示形式及立体阵乘法的定义 推导了其主要性质 对于高维数组 文献 1 7 提出一种多边矩阵的算法 矩阵的半张量积首次在文 献 1 8 中作了介绍 矩阵半张量积的本质是进行高维矩阵的运算 立体阵是它 的一个明显的特例 目前立体阵的数学表达还没有推广 常见的是非线性模型 上的应用 我们可以看到 随着数据仓库 多维数据分析 数据立方体等概念的发展 2 武汉理工大学博士学位论文 使用多维矩阵表达数据分析模型已经时机成熟 3 人工神经网络国内外研究现状 人工神经网络是 j j 新兴交叉学科 始于2 0 世纪4 0 年代 是人类智能研 究的重要组成部分 已成为脑科学 神经科学 认知科学 心理学 计算机科 学 数学和物理学等共同关注的焦点 由于人工神经网络固有的模拟大脑智能 的属性以及强大的计算能力 吸引了国际上许多优秀的科学家和一流的学术研 究机构 目前神经网络的研究已经进入更成熟的发展阶段 越来越多的心理学 家 神经生理学家 医学工作者 数学家以及计算机科学家联合起来 开展跨 学科的研究 以探讨神经网络的机理 功能以及相应的模型 并且尽量与应用 结合 神经网络的研究有两个大的趋势 一是在理论上向更复杂的神经网络系统 方向发展 表现在神经网络与模糊算法 进化算法的结合 神经网络与认知科 学的结合 神经网络与生物医学的结合 以及各种混合神经网络的出现 二是 神经网络的应用范围不断扩展 神经网络应用技术研究不断深入 它与多门学 科交叉 解决了很多传统科学解决不了的难题 为人类认识世界 开拓未知领 域 提高现代科学技术研究水平进而以科技带动生产力对国民经济的增长起到 了促进作用 是世界上公认的尖端前沿的技术研究领域之一 l 9 1 经济系统的复杂性 时变性和模糊性等特点使得传统经济计量模型所赖以 生存的方法论 受到日益强烈的冲击 无论是计划制订部门还是企业生产者 全面通晓复杂系统的所有性质的能力是不存在的 从行为推断出系统结构的能 力也是有限的 此外 对外界不断变化的经济环境的学习和适应能力也是现行 经济计量模型所无法描述的 而人工神经网络利用大量非线性并行处理器来模 拟人脑 借助于结构简单的处理器间错综复杂的联结关系来反映经济主体与外 界环境之间的协调和适应关系 利用形式上固定的结构间参数的动态调节来模 拟系统的时变性 它强调的是刺激反应方式所表现的系统输入与输出间关系的 黑箱式 研究方法 更注重对经济主体形象思维的模拟 2 0 因此 将神经网 络引入到经济学 对全要素生产率等方面的研究是非常必要的 4 分布式计算国内外研究现状 计算机网络技术的发展使相互独立的计算机通过网络集合成一个相互协调 的有机整体 基于网络的分布式计算有着巨大的计算潜力 良好的可扩展性和 灵活的体系结构 成为当今计算机技术发展的一个重要分支 分布式计算在科 学计算 数据处理等领域应用越来越广泛 全球气象变化 生命科学 生物学 与数学研究 太空探索 商业 金融 互联网业务等都离不开分布式计算的使 用 3 武汉理工大学博士学位论文 计算机网络的发展促使桌面p c 计算环境迅速的向分布式计算方向转移 由于受计算机处理器计算速度和有限存贮空间的限制 使用传统的单一p c 处 理分析这些超大规模的数据分析问题 往往会造成计算时间过于漫长 甚至无 法进行分析计算等问题 浪费了研究者大量时间 因此 需要我们将分布式计 算引入到计算量巨大 计算任务可以分解和计算结果可以合并等实际问题中去 以期达到利用现有网络和硬件资源 大幅度提高运算速度的目的 1 2 研究的目的和意义 本课题研究基于多维数据分析的神经网络与分布式计算问题 以多维矩阵 描述数学模型 以数据仓库的多维数据为数据源 以多元统计模型为基本模型 进行理论研究 同时开发相应的计算机应用系统 智能计算特别是神经网络计算 是目前计算机科学领域需要大力研究的重 点问题 对于促进计算机科学技术发展乃至促进人类生存模式的发展都有重要 的意义 神经网络计算离不开数据 而大量的数据都是以多维数据的形式存放 在数据仓库中 随着网络通信技术和互联网的飞速发展 分布式计算成为影响当今计算机 技术发展的关键技术力量之一 在现代社会和经济发展中得到越来越广泛的应 用 同样地分布式计算也离不开来自数据仓库存储的多维数据 这两项技术都需要数据分析 都会涉及多维矩阵 传统数据分析方法的数 学表达一般采用二维矩阵形式 即使遇到多维矩阵问题 也往往转化为二维矩 阵处理 这方面 数学表达应该跟上数据仓库技术的发展 本课题研究利用数学的多维矩阵分析理论 对一些涉及时序和p a n e ld a t a 的经典模型 包括导师提出或改进的一些模型 实现数学的多维矩阵表达 进 一步 研究并实现基于多维矩阵理论的数据分析与神经网络和分布式计算的程 序表达 这项工作将促进数据仓库 多维数据集 多维数据分析与人工神经网 络和分布式计算的协调发展 类似于布尔代数理论和计算机科学对接 也是一 次数学理论和计算机科学的对接 具有重要的科学意义 同时本课题将一些多维随机研究成果引入到神经网络和分布式计算 包括 利用导师提出的一种全空间连续且可微的多维正交多项式来改进贝叶斯神经网 络 利用导师提出的因变量也未知的凸约束评估模型建立无监督学习的交互投 影神经网络等 这些研究工作将促进神经网络和分布式计算的发展 也具有广 阔的应用前景 利用多维矩阵表达数据分析模型与实现神经网络和分布式计算 具体的意 4 武汉理工大学博士学位论文 义主要有八个方面 一是模型与算法表达更为简洁 二是可以将二维三维矩阵 表达推广至更高的维数 三是可以将许多原本没有想到要扩展到多维的二维模 型扩展至多维 四是可以发现更为深刻的数据内在联系 五是可以方便实现多 维数据可视化 六是可以方便实现数据仓库中的o l a p 操作后的数据分析与演 化计算 七是与计算机程序多维函数表达接轨 八是与数据仓库的多维数据集 表达相接轨 因此 研究基于多维数据分析的神经网络与分布式计算有着重要的意义 使得本研究工作得到国家自然科学基金的支持 1 3 研究内容 本文以多维矩阵为数学工具 开展以下三个方面的研究 先研究一些模型 的多维矩阵表达 并以此为基础研究人工神经网络与分布式计算 本课题的研究内容 1 多维数据分析研究 具体研究多维数据与多维矩阵 数据仓库中的多维数据集和多维数据分析 模型等 包括完成有关数学模型的多维矩阵表达 同时注意发现多维矩阵表达 的数学模型的运算性质和规律 为多维数据分析打下理论基础 建立合理的数 学模型多维矩阵表达方式 解决多维立体阵的计算问题 2 基于多维数据分析的神经网络的研究 具体研究一种全空间连续且可微的多维正交多项式与贝叶斯神经网络 因 变量未知的凸约束评估模型与无监督学习的交互投影神经网络等内容的研究 包括深入发掘提出的因变量也未知的凸约束评估模型 研究交互投影的最 小二乘估计与e m 算法的极大似然估计之间的关系 研究其大样本性质 并运 用于无监督学习的交互投影神经网络 深入发掘提出的全空间连续且可微的多维正交多项式的数学性质 改进贝 叶斯神经网络 发展利用样本知识推断先验分布的技术 研究将经验贝叶斯理 论移植到神经网络的途径与实现 深入发掘随机前沿面函数的特点 构造一个分岔神经网络 实现了利用随 机前沿面模型进行全要素生产率的测度 同时 给出了一个完整的计算全要素 生产率贡献率的方案 提出使用一种通过相互影响而使输出结果一致的半监督 异构神经网络 3 基于多维数据分析的分布式计算研究 具体研究多对象结构方程模型的分布式计算 多元曲线漂移模型销售曲线 5 武汉理工大学博士学位论文 预测的分布式计算以及若干针对具体问题的分布式计算 包括深入发掘提出的多对象结构方程模型及其基于单位约束的最d 乘新 算法 采用分布式计算得到结构方程中每组的系数 并使用带凸约束的广义线 性模型可以建立新模型 给出了多对象结构方程模型的算法 包括深入发掘提出的多元非参数回归曲线漂移模型 然后将分布式计算引 入到多元曲线漂移模型的销售曲线预测 包括一般分布函数表的m o n t ec a r l o 分布式计算 蛋白质分子构造的分布式 计算和m o s 管寿命分布的负指数矩估计及其分布式计算 上述两个方面的研究内容都是本文作者所在学术团队的研究成果 论文已 经发表并且被检索 最后 作为基于多维数据分析的神经网络与分布式计算的综合应用 本文 介绍了我们团队研发的大型应用系统一一顾客满意指数测评分析系统 它基于 数据仓库与 n e t 技术开发 采用无监督学习的凸约束神经网络模型架构 实现 了基于远程方法调用的分布式计算 该系统获得2 0 0 7 年湖北省科技进步三等 奖 1 4 论文的组织形式 根据本文的内容 论文的组织形式和章节安排如下 第一章是绪论 介绍了课题的研究背景 研究目的 研究意义和研究内容 第二章是引言 介绍了数据仓库的基本概念 了解数据仓库中进行多维数 据分析的重要性 进而引入多维矩阵的概念 对应用最广泛的立体阵 讨论了 它的运算性质 接下来两章是研究基于多维数据分析的神经网络计算 第三章首先提出一种无监督学习的凸约束神经网络结构 并利用凸集间交 互投影的迭代算法来实现凸约束神经网络结构的无监督学习 还介绍了贝叶斯 网络先验分布的估计及其基本表达形式 用正交多项式构造了一元到多元密度 及其导数的核估计 说明了连续性和光滑性 证明了收敛速度 第四章针对全要素生产率计算 构造两种新的神经网络模型进行研究 根 据随机前沿面模型的特点我们构造一个分岔神经网络 实现了全要素生产率测 度 同时 给出了完整的计算全要素生产率贡献率的方案 构造了一种通过相 互影响而使输出结果一致的半监督异构神经网络 接下来两章是研究基于多维数据分析的分布式计算 第五章改进了结构方程模型中的偏最小二乘算法 给出了确定性算法 研 6 武汉理工大学博士学位论文 究了多对象结构方程模型 采用分布式计算来计算结构方程中每组的系数 针 对销售曲线 提出多元非参数回归曲线漂移模型 应用分布式计算进行多元曲 线漂移模型销售曲线预测 第六章根据若干实际应用中的问题 运用分布式计算来解决 拓展了分布 式计算的应用领域 包括一般分布函数表的m o n t ec a r l o 分布式计算 蛋白质分 子构造的分布式计算问题以及m o s 管寿命分布的负指数矩估计与分布式计算 第七章是基于多维数据分析的神经网络和分布式计算的综合应用 介绍我 们研发的大型计算机应用系统 顾客满意度测评分析系统 第八章是研究工作的总结及对下一步工作的展望 全文研究内容关系如图l 一1 所示 神经网络多维数据分析 基于 随机 前沿 面模 型和 分岔 神经 网络 的t f p 测度 基于 m a l m q u l s t 函数 和无 监督 异构 神经 网络 的t f p 测度 贝叶 斯网 络先 验分 布密 度核 估计 的优 良性 一种 无监 督学 习的 凸约 束神 经网 络模 型 分布式计算 多对 象结 构方 程模 型的 分布 式计 算 多元 曲线 漂移 模型 销售 曲线 预测 的分 布式 计算 一般 分布 函数 表的 m o n t e c a r l o 分布 式计 算 基于多维数据分析的神经网络与分布式计算综合应用 图l l 全文研究内容关系示意图 7 蛋白 质分 子构 造的 分布 式计 算 m o s 管 寿命 分布 的负 指数 矩估 计及 其分 布式 计算 武汉理工大学博士学位论文 2 1 前言 第2 章多维数据分析与多维矩阵 数据仓库与进行数据分析和查询的联机分析处理是建立在多维数据模型的 基础上的 多维性是o l a p 的关键属性 多维分析是分析企业数据最有效的方 法 是o l a p 的灵魂 多维数据分析是指对多维分析组织起来的数据采取钻取 切片 切块 旋转等分析动作来剖析数据 使用户直观地理解 分析数据 最 终能多角度 多侧面地观察数据 深入地了解包含在数据中的信息 内涵 这 些多维分析组织起来的数据通常以数据立方体的形式表现出来 随着数据仓库 多维数据 多维数据分析概念的发展 使用多维矩阵表达 多维数据分析模型已经时机成熟 将多维数据集用多维矩阵来表达 不仅形式 简洁 而且可以利用多维矩阵的性质带来计算上的便捷性 用多维矩阵 立体 阵 来表达数学模型 实现计算 也是切实可行的 这不仅是数学上已经有了 多维矩阵分析理论 已经成功应用于非线性回归分析中 而且软件m a t l a b 已经 有了多维矩阵的运算函数 理论上的维数可以超过三维 似乎还没有限制 2 2 基于数据仓库的多维数据分析 数据仓库从多维的 逻辑的角度展示数据 因而形成多维数据集 多维数 据集中的一点表示了存在于多维空间中的多个维值限定的一个固化度量值 o l a p 的操作 如上钻 下钻 选择和切片等 是对多维数据集进行的多维数 据分析 下面我们就来介绍数据仓库的概念 数据仓库中的维 多维数据集 多维数据模型和联机分析处理 o l a p 2 2 1 数据仓库概述 随着计算机和网络的广泛应用 计算开始从两个不同的方向拓展 广度计 算和深度计算 广度计算是把计算机的应用范围不断扩大 同时实现广泛的数 据交流 另一方面对计算机的简单操作提出更高的要求 希望计算机能更多的 参与数据分析与决策制定等领域 特别是数据库处理分为操作型处理和分析型 处理 使原来以单一数据库为中心的数据环境发展为一种以数据仓库为基础的 8 武汉理工大学博士学位论文 体系化环境 2 1 数据仓库的定义及基本特征 数据仓库 d a t aw a r e h o u s i n g 的概念最早出现于2 0 世纪8 0 年代 而直到 1 9 9 3 年 号称 数据仓库之父 的w i l l i a m h i n m o n 在其论著 b u i l d i n gt h ed a t a w a r e h o u s e 一书中 首次系统地阐述了数据仓库的思想和相关理论 为数据仓 库的发展奠定了基石 他将数据仓库定义为 数据仓库是一个面向主题的 集 成的 非易失的 随时间变化的用来支持管理人员决策的数据集合 2 2 从定 义中我们可以发现数据仓库具有一些重要特征 面向主题性 数据集成性 数 据的时变性 数据的非易失性 数据的集合性和支持决策作用 1 面向主题性 数据仓库的面向主题表示了数据仓库中数据组织的基本原 则 数据仓库中的所有数据都是围绕着某一主题展开的 主题在数据仓库中可 以用多维数据库方式进行存储 在主题的划分中 必须保证每一个主题的独立 性1 2 3 1 2 数据集成性 它是指根据决策分析的要求 将分散于各处的源数据进行 抽取 筛选 清理 综合等工作 使数据仓库中的数据具有集成性 3 数据的时变性 数据的时变性就是数据应该随着时间的推移而发生变化 数据仓库需要不断捕捉主题的变化数据 将那些变化的数据追加到数据仓库中 去 数据的时变性不仅表现为数据的追加方面 还反映在数据的删除上 超过 一定期限的数据也需要删除 数据仓库中数据时变性还表现在概况数据的变化 上 4 数据的非易失性 数据的非易失性是指数据仓库中的数据不进行更新处 理 而是一旦数据进入数据仓库以后 就会保持一个相当长的时间 数据的非 易失性可以支持不同的用户在不同的时间查询 分析相同的问题时 获得同一 结果 避免了以往决策分析中面对同一问题 因为数据的变化导致结论不同的 尴尬 5 数据的集合性 数据的集合性意味着数据仓库必须按照主题 以某种数 据集合的形式存储起来 也就是必须围绕主题全面收集有关数据 形成该主题 的数据集合 全名正确的数据集合有利于对该主题的分析 6 支持决策作用 组建数据仓库的根本目的在于对决策的支持 高层的企 业决策者 中层的管理者等不同层次管理人员都可以利用数据仓库进行决策分 析 提高管理决策的质量 2 数据仓库的体系结构 数据仓库不是软件产品也不是应用程序 它是体系结构 体系结构按照优 先原则对方法进行的安排 这些原则使得通过客户机 网络和数据库软件而执 9 武汉理工大学博士学位论文 行业务过程成为可能 而这些业务过程也为处理基本业务的规则提供了启示 作为体系结构 数据仓库包含了许多产品 每一种产品都有除数据仓库操 作以外的功能 数据仓库体系结构提供一种模式 在这种模式中 应用程序之 间互相紧密连接 而且与硬件 操作系统 数据库 网络及接口软件集成起来 并与业务过程交叉引用口1 1 图2 1 数据仓库的体系结构 源数据 数据仓库来源于3 种事务系统 包括传统业务系统 e r p 企业 资源规划 系统和电子商务系统 仓库管理 在确定数据仓库信息需求后 首先进行数据建模 然后确定从 源数据到数据仓库的数据抽取 清理和转换过程 最后划分维数及确定数据仓 库的物理存储结构 这样就将无关联的数据转换到数据仓库中有明确主题的统 一数据视图中 仓库管理包括对数据的安全 归纳 备份 维护 恢复等工作 元数据库是元数据的集合 它描述的是数据结构 关键字 索引 转换规则 控制信息等 数据仓库 在获得原始数据后 先按辅助决策的要求 形成综合数据层 随着时间的推移 由时间控制机制将当前基本数据转化为历史数据层 分析工具 用于完成实际决策问题所需要的各种查询检索工具多维数据的 o l a p 分析工具 数据挖掘工具等 以实现决策支持系统的各种要求 2 4 1 3 数据仓库中的数据组织形式 数据仓库中的数据组织方式可分为虚拟存储方式 基于关系表的存储方式 和多维数据存储方式三种 1 虚拟存储方式 虚拟存储方式是虚拟数据仓库的数据组织方式 它没有专门的用来实现数 1 0 口四口曰 圄目 武汉理工大学博士学位论文 据存储的数据仓库 数据仓库中的数据仍然在原数据库中 只是根据用户的多 维需求及形成的多维视图 临时在源数据库中找出所需的数据 完成多维分析 这种组织方式较简单 花费较少 使用灵活 但同时也有一个很大的缺点 只 有当源数据库中的数据组织比较规范 数据完备且没有冗余 同时又比较接近 多维数据模型时 虚拟的数据仓库的多维语义才容易定义 2 基于关系表的存储方式 基于关系表的存储方式是将数据仓库中的数据存储在关系数据库的表结构 中 在元数据的管理下完成数据仓库的功能 这种方式的主要问题是 在多维 数据模型定义好后 从数据库中抽取数据往往需要编制复杂
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 应急办安全培训文件课件
- 2024年金属非金属矿山安全作业试卷附完整答案详解(易错题)
- 2024年自考专业(计算机网络)模考模拟试题(考点提分)附答案详解
- 拿货欠款合同(标准版)
- 个人淘宝店铺转让合同(标准版)
- 强化训练人教版9年级数学上册《概率初步》专项训练练习题(含答案详解)
- 中考英语总复习资料2
- 2025年绿色金融债券发行市场趋势与投资价值研究报告
- 2025年工业碳捕获与封存(CCS)应用案例:技术、市场、政策三维分析报告
- 养老院防汛应急预案范文(32篇)
- 关于医院“十五五”发展规划(2026-2030)
- 软件测试升职述职报告
- 室内装饰测量放线专项方案
- 基于移动互联网的智慧观光巴士服务平台
- 一文了解华为MTL流程和LTC流程z1222
- 医院护理品管圈:提高新生儿喂养后体位摆放执行率
- 弹簧-锥形弹簧的计算
- 肾主生殖理论及肾性不孕
- 【家庭教育的不足对小学生心理健康的影响问题探讨6500字(论文)】
- 青少年软件编程(Scratch)三级考试题库(变量 克隆 画笔)
- 注浆加固技术课件
评论
0/150
提交评论