已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目名称 大数据环境下基于Bayesian移动电子 商务平台项目风险研究 项目负责人(签名) 所在学校(盖章)_“研究类别”含义: 基础研究:指为获得关于现象和可观察事实的基本原理及新知识而进行的实验性和理论性工作,它不以任何专门或特定的应用或使用为目的。 应用研究:指为获得新知识而进行的创造性的研究,它主要是针对某一特定的实际目的或目标。 试验发展:指利用从科学研究和实际经验中所获得的现有知识、生产新材料、新产品、新装置、新流程和新方法,或对现有的材料、产品、装置、流程、方法进行本质性的改进而进行的系统性工作。 推广应用、科技服务:指与研究与发展活动相关并有助于科学技术知识的产生、传播和应用的活动。研究项目项目名称大数据环境下基于Bayesian的移动电子商务平台项目风险研究 研究类别21.基础研究 2.应用研究 3.试验发展 4.推广应用 5.科技服务依托的一级学科管理科学与工程成果形式论文起止时间2014年 10 月到 2016年 10 月经费申请总额 2 万元其他经费及其来源无项目负责人姓 名职 称工作单位电子邮箱项除目负组责主人要外成五员名姓名职称学位专业工作单位承担任务本人签名项目负责人近三年来承担的研究项目项目名称项目来源起止年月排名进展基于贝叶斯网络模型的软件项目风险分析算法校级2013.6-2015.51进展中中美合作教学中网络课程研究校级2008.11-2009.81已结题一种改进的基于能效的无线传感器网络分簇路由协议 校级2012.10-2015.104进展中项目负责人为第一署名人的代表性成果成果名称成果来源获得时间排名等级获得校级科研三等奖校级2012.41三等奖The Analysis of Electronic Commerce Project Risk with the Bayes Network IEEE2011.511 本项目研究意义及国内外同类研究工作现状(附主要参考文献及出处):研究背景:随着物联网和云计算这两大国家战略性新兴产业的不断发展,如何处理海量的信息以服务于社会的需求变得更为紧迫,数据挖掘技术成为推动两大新兴产业发展的核心技术。对于一些移动电子商务平台,存在支付不稳定的问题,数据挖掘更是可以带来更大的价值1。国外研究表明:从失败的教训中人们已经逐步的意识到风险管理的重要性。据IEEE的研究表明2:软件系统中50%-70%的风险可以被检测到,90%的风险可以避免,并且风险管理具有杠杆作用,投资回报率大概是700%-2000%。研究意义:探讨如何更好的进行移动电子商务平台项目的风险管理,以减轻项目风险所产生的损失,从而增加软件项目成功的机会。运用贝叶斯模型的意义在项目开发过程中的分类来分析项目中的不确定性。因此能够减少所带来的损失。以较小的风险管理成本确保移动电子商务平台项目的顺利实现。研究现状:国外侧重于从模型的角度对贝叶斯技术进行实验性研究,探索改进成效的信号技术,并取得了实质性进展。如Pillonetto3进行了动态的贝叶斯网络模型以图形的方式来表示。Adam J. L. Harris等运用贝叶斯分析表明使用多个指标来预测项目风险4。在大数据研究方面,目前,大数据的研究目前比较流行的是采用hadoop5进行大数据处理,尤其是在电子商务领域。国内在贝叶斯网络的研究起步较晚,在继承国外研究思路和理念的同时,也发展出适合中国的移动电子商务贝叶斯理论6。陈家清在加权线性损失下讨论一类广义指数分布刻度参数的经验贝叶斯检验问题。利用核密度估计函数构造单调的经验贝叶斯检验函数 7。焦鹏为提高朴素贝叶斯(Naive Bayesian)分类器的分类准确率,对朴素贝叶斯属性选择算法及假设属性概率值先验分布中的参数设置问题进行分析,提出将属性先验分布的参数设置加入到属性选择的过程中8。邱红兵讨论了贝叶斯线性无偏估计关于误差分布的稳健性,给出了未知参数的贝叶斯线性无偏估计是最优估计的充分必要条件9。在发展贝叶斯网络模型理论方法上,国内外学者做了大量工作,如蒋慧等学者基于迁移系统分析的线性混成系统安全验证,在利用贝叶斯网络对系统可靠性分析上有一定的可行性10。王宝龙基于贝叶斯网络测试性模型对不确定性测试问题进行了建模与分析,基于混合诊断模型对故障不确定性问题进行了建模与分析,并最终将贝叶斯网络测试性模型与混合诊断模型相融合。给出了一种兼容IEEE Std 1522的基于混合诊断贝叶斯网络模型的测试性指标预计方法,测试性指标预计结果的可信度明显提高11。王爱文提出了一种基于因果贝叶斯网络的风险建模与分析方法,所提方法由基于业务流程12分析的风险识别、基于贝叶斯因果网络的风险建模和关键风险事件识别三个主要步骤组成,有利于识别和评估风险事件间因果关系,为制订高效的风险应对计划提供可靠的依据。所提方法被应用于某公司国际采购风险分析中,取得显著效果13。运用贝叶斯网络进行分析是进行风险分析的常用方法,在许多领域里都得到了广泛的研究和应用14,尤其在数据缺失领域。杨德春针对数据缺失条件下构建贝叶斯网络难度大的问题,研究了贝叶斯结构学习算法,提出了将条件独立性检验和评分一搜索相结合的算法15。基于混合数据补全策略基础上提出一种在数据缺失下学习贝叶斯网络的算法一E-GSA算法。该算法力求在保证果精度的前提下,有效提高了算法的性能16。贝叶斯网络技术的理论发展和广泛应用为深入研究本课题中不同类别移动电子商务项目的风险分析研究奠定了良好基础。综上,国内外学者侧重于从实际的项目平台数据中分析提高项目成功率的方法,或研究单因素对中间过程的影响。通过现代多元统计方法、数据挖掘技术客观、定量地分析影响移动电子商务项目的综合影响因素的研究尚少17。参考文献:1 曹红苹. 我国移动电子商务现状,问题及对策研究 J. 商场现代化2008(27)2 Chiuso, Alessandro alessandro.chiuso,Pillonetto, Gianluigi giapi. A Bayesian approach to sparse dynamic network identification. Automatica. Aug2012, Vol. 48 Issue 8, p1553-1565. 13p.3 Adam J. L. Harris Magda Osman. The illusion of control: A Bayesian perspective J. Knowledge, Rationality & Action 615624, Synthese (2012) 189:29384 张振海.基于专家知识融合的贝叶斯网络结构学习方法J. 计算机工程与应用,2014(50).5 魏斐翡. ECLHadoop:基于Hadoop的有效电子商务物流大数据处理策略.J.计算机科学与工程. 2013年10月.6 焦鹏. 基于属性选择法的朴素贝叶斯分类器性能改进J.电讯技术, 2013(3).7 邱红兵.矩阵损失下贝叶斯线性无偏估计及其稳健性J. 华东师范大学学报(自然科学版), 2013(1).8 蒋慧. 基于迁移系统分析的线性混成系统安全验证J. 计算机工程与应用, 2013(49).9 王宝龙. 基于混合诊断贝叶斯网络的测试性不确定性建模与预计J. 弹箭与制导学报, 2013(33).10王爱文. 基于因果贝叶斯网络的风险建模与分析J . 系统工程与电子技术,2013(5)11 GuoL,Yang M,Fu z MA comparative anaIysis on risk assess methods for reliability work items in weapon system development评价方法比较分析J项目管理技术,20097(7):4144J,2009,7(7):4144(郭磊,杨敏,符志民装备研制可靠性工作项目风险综合)12 胡春玲.张贯虹具有缺失数据的贝叶斯网络结构学习算法研究 2008(02) 13 杨德春. 数据缺失下学习贝叶斯网络的E-GSA算法J. 计算机工程与设计,2013(7).14 SHEN Qi,WANG chisheResearch of Bayesian model based on missing data of biologyJMicroelectronics &computer,2011,28(7):110一11215张连文,郭海鹏贝叶斯网引论M北京:科学出版社,200616 Fox c R,clemen R Tsubjective probability assessment in decision analysis:partition dependence and bias toward the ignorance2005,51(9):1417143217 weber P,Medina 0 G,simonc,et a10verview on Bayesian networks applications for dependability,risk analysis and maintenance areasJ 2012,25(4):67168218 Prelec DA Bayesian truth serum for subjective dataJ 2004,306(5695):46246619贾娴.基于改进属性加权的朴素贝叶斯入侵取证研究J. 计算机工程与应用,2013年7月.20许培源基于贝叶斯模型平均方法的研究J东南学术,2014(1) 2 主要研究内容、目标、方案和进度及拟解决的关键问题:研究目标:随着云计算的快速发展,越来越多的电子商务服务应用面临处理大数据的要求,例如电子商务物流服务中顾客通过社会媒体发布而产生的大量数据。本课题旨在研究大数据环境下导致移动电子商务项目低成功率的影响因素,从纵向(单个影响因素不同水平的差异)、横向(不同影响因素的相对重要性)两方面定量分析影响因素对项目成功率的影响,对比分析开发过程中阶段性的指标特征。不仅能够对项目中存在的问题进行针对性的反馈,而且为风险投资公司提供客观、定量和有价值的数据。研究内容:1) 为提高电子商务物流大数据的处理效率,基于Hadoop设计了一种称为ECLHadoop的有效电子商务物流大数据处理策略,通过对大型移动电子商务网站样本数据的分析,建立风险评估对可能影响因素的逐步贝叶斯网络模型,检验后确定关键影响因素。2) 主要从风险分析的定义入手,引入贝叶斯网络的相关内容,从而深入到项目过程中使用贝叶斯网络模型,主要是针对项目中潜在的风险来建立贝叶斯网络模型,然后从置信网络更新来进行风险模拟分析,找到真正的原因所在。3) 贝叶斯网络的软件项目风险管理关键是如何针对一个潜在的风险来建立贝叶斯网络模型。基于软件项目的风险管理的特点以及软件度量的数据,采用两个阶段的建模方法,首先是基于专家经验和相关领域的知识,手工来建立一个贝叶斯网络模型。运用此模型进行风险评估以及风险分析。技术方案及路线:1) 获取样本本课题的原始资料来源于宁波仁智佰汇信息技术公司,基于Internet/Intranet移动电子商务平台,该项目物流大数据的获取采用基于Hadoop的有效电子商务物流大数据处理策略。该实验需要使用五台计算机,其中一台为元数据节点,另外一台为影子节点,其余三台为电子商务物流数据储存节点。每台计算机安装的是Linux操作系统和Hadoop分布式文件系统HDFS。表1电子商务物流大数据的数据放置路由表数据集数据块时间标记应用关联标记ABlock12013.5.11ABlock22013.5.12ABlock32013.5.22ABlock42013.5.31BBlock12013.5.20BBlock22013.5.30CBlock12013.5.10CBlock22013.5.10DBlock12013.5.31DBlock22013.5.32DBlock32013.5.32仿真实验1运用了来自于主要社会网络网站的电子商务物流服务相关数据。仿真数据的时间范围从2013年1月1日到2013年5月8日。在仿真实验1中,共进行了五次仿真实验,对添加了时间标记的ECLHadoop和无联接查询计算的Hadoop进行比较,两者的计算时间比较结果如图1所示。图1具有时间标记的ECLHadoop和无联接查询计算的Hadoop计算时间比较2) 贝叶斯建模过程针对软件项目潜在风险,手工建立贝叶斯网络需要以下过程:首先确定建模对象,确定好需要潜在的风险后,主要经过以下三个步骤对贝叶斯网络模型进行建立。第一步:针对潜在的风险,参照项目风险的指标体系,分析各个风险的影响因素,根据影响因素来辩证相互之间的关系,建立风险的关系图。第二步:为实体关系图中的实体创建类,类进行实例化,同时将构建连接转化为对象之间的联系,从而可以得到对象关系图。风险OOBN建模中的类是一个BN片段,对象图是建立在对象的建模框架的基础上对风险因素的细化研究。第三步:细化每一个对象中的内部BN片段来对概率参数进行确定,从而得到潜在的风险贝叶斯网络。3)贝叶斯模型求解过程在构建了OOBN,概率推理后得到求解模型。运用贝叶斯网络进行信用更新的经常使用的算法是Pearl算法18。Pearl算法的表达含义为:在给定的证据A后的任意的非证据结点B的后验概率分布为P(BA)为该结点的置信度Bel(B),一个节点的信度可以分解为两个参数:分别为因果性参数(B)和诊断性参数(B),从而该结点的置信度为Bel(B)= (B)(B),其中为常数。因果性参数(B)和诊断性参数(B)是根据B结点的第m个子结点来传播信息的。(B)的计算公式为:(B)=P(BN1,N2,Nn)其中为结点B在父结点集(Ni)下的条件概率,从父结点传递的信息为。(B)的计算公式为:(B)= 其中表示的是为结点B的第m个子结点传递的信息。贝叶斯网络的信用更新能力使得数据输入和模拟功能得到了保证。我们用一部分模型来模拟模型子网络的一部分,条件概率表来自于初值。模型结构如图2所示。H: 项目团队不稳定 I: 项目开发人员经验不足J:项目进度时间紧 K: 系统功能出错L:工期延误图 2置信度更新模型根据初值的条件概率表分别用表2,表 3,表 4所示表 2 H,I的条件概率表HI0.70.30.30.7表 3 I,J的条件概率表IJ0.80.20.20.8表 4 J, K,L的条件概率表KLJ0.70.30.80.20.30.70.20.8软件开发项目团队不稳定,因此对于H的概率分布为(0.9,0.1),运用如上的推理,对项目进行预测,计算方法如下:P(I)=(0.9,0.1)=0.66, P()=0.34 P(J)=(0.66,0.34)= 0.528+0.068=0.6 P()=0.4P(K)= (0.6,0.4) =0.42+0.12=0.54 P()=0.46P(L)= (0.6,0.4) =0.48+0.08=0.56 P()=0.44从上面的计算结果得知,系统功能出错和工期延误为0.46,0.44,项目开始启动之后发现项目人员经验不足,它的分布概率为(1,0),贝叶斯网络用这个事实来更新其他结点的置信度。根据Pearl算法,父结点的信息向子结点传播,需要的传播的是值。4)应用电子商务交易平台对软件指标体系进行借鉴以后,听取项目人员的意见后,得到数据库错误的风险E-R图。创建类以后,并进行实例化,建立两个对象,分别为数据库错误和操作错误。数据库错误的输入为数据库复杂度以及代码中的错误数据。数据操作错误对象的输入为数据库复杂程度以及操作出错的概率。电子商务交易平台工作流程比较清晰,数据库相互之间的连接也比较明确,开发人员对开发平台以及开发技术比较熟悉,因而数据库的复杂度比较低。系统与外界数据库的数据交换不多,因而错误数据侵入的可能性也不大,项目开发人员有比较丰富的开发经验,针对计算机应用能力一般的用户比较注重界面的设计,界面设计简单友好,便于操作。程序设计人员不太注重文档的书写,文档的质量为一般。Computer_virus(no,70%),Interface_design=high,Personnel_ability=high,Document_quality=media,Database_complexity=low 对数据库错误发生的情况进行预测。从贝叶斯概率推断工具Hugin,由概率推理得到数据库错误的风险发生情况为(High:3.5%,Medium:32%,Low:64.5%)。如果上述内容成立,则在数据库错误上风险比较低。根据贝叶斯网络一些概率假设来进行概率运算,从概率分布的结点出发,从上而下逐步计算来得到底层指标的概率。概率公式有:乘法规则:若M,N独立,P(MN)=P(M|N)P(N)=P(N|M)P(M),则P(MN)= P(M) P(N) 加法规则:P(MN)=P(M) +P(N)- P(MN) 贝叶斯法则:P (b|E) = 在调查中发现项目开发人员经验不足的可能性为0.6,则P(H)=0.6。由于知道了H的概率分布以后,运用精确推理的方法:P(I)=P(IH)P(H)+ P(I)P()=0.70.6+0.30.4=0.54, 则P()=0.46P(J)=P(JH)P(H)+ P(J)P()=0.80.6+0.20.4=0.56则P()=0.44基于I,J是独立的,可以得到:P(IJ)= P(I)P(J)=0.540.56=0.3,P(J)=P()P(J)=0.460.56=0.26P(I)= P(I) P()=0.540.44=0.24, P()=P()P()=0.460.44=0.2根据以上数据来推算出结点K的概率分布为:P(K)=P(KIJ)P(IJ)P(K)P()P(KJ)P(J)P(KI)P(I)0.30.80.20.20.70.26+0.30.24=0.53同理得到,结点L的概率分布为:P (L)= P(LJ)P(J)+ P(L)P()=0.80.8+0.20.2=0.68根据以上的数据推断得出,在项目开发人员经验不足的情况下,工期延误的发生的概率为0.53,系统功能出错的概率为0.68,因此整个项目中需要注意项目进度的安排以及系统功能的设计。以上推断的部分是一部分模型的预测,整个子网络的风险推断要复杂很多,同样数据结果的准确性会更高,可信度也会增加。通过计算来进行风险预测,可以估计到哪种风险最有可能发生,因此可以提前做好准备并能够较好地应对这些风险。后期软件生命周期的模型评价,主要通过AHP层次分析法。利用AHP层次分析法对项目进行风险评价:(1) 基于软件开发项目的生命周期,对风险建立层次结构,如图3所示:图 3层次结构模型(2) 建立各层次判断层次,根据调查问卷所得的资料进行汇总整理分析得出,得出第二层次相对于第一层次的判断矩阵。定义第一层表示为A,第二层为B,第三层为C。A_B:计算所得结果:CI/RI=0.0169,由于计算结果0.1,判断矩阵一致性达到了要求,满足了一致性。计算第三层次的相对权重。首先,构造第三层次的元素分别为C1,,C6,分别为风险因素:人员风险,开发环境风险,过程风险,技术风险,管理风险,需求风险。其次,对于B层次,即B1(软件编码)来说,风险的评价集合用V1,,V6, 来确定各个风险因素的概率,计算概率得到矩阵为B1=计算所得结果:CI/RI=0.0234,由于计算结果0.1,判断矩阵一致性达到了要求,满足了一致性。对于B2(软件测试)来说,风险的评价集合用V1,,V6,每个专家来确定各个风险因素的概率,计算概率得到矩阵为B2=计算所得结果:CI/RI=0.0110,由于计算结果0.1,判断矩阵一致性达到了要求,满足了一致性。对于B3(需求分析)来说,风险的评价集合用V1,,V6,每个专家来确定各个风险因素的概率,计算概率得到矩阵为B3=计算所得结果:CI/RI=0.0353,由于计算结果0.1,判断矩阵一致性达到了要求,满足了一致性。对于B4(软件设计)来说,风险的评价集合用V1,,V6,每个专家来确定各个风险因素的概率,计算概率得到矩阵为B4=计算所得结果:CI/RI=0.0139,由于计算结果0.1,判断矩阵一致性达到了要求,满足了一致性。对于第三层次的元素分别为C1,,C6,计算所得到的排序性向量的w值分别为用图4所示。图 4各个风险向量值图 5第二层次的权重向量值图 6软件编码中各风险权重向量值图 7软件编码中各风险权重向量值图 8需求分析中各风险权重向量值软件设计权重向量值以及各风险综合重要度,如图9所示图 9软件设计权重向量值以及各风险综合重要度根据以上综合分析,可以把风险因素的重要度划分为两个大类:以上分析可以看到项目生命周期内的各个阶段的重点控制的风险为,在需求分析阶段需要重点控制的风险为过程风险和技术风险。在软件设计阶段需要重点控制的风险为技术风险和过程风险。在软件编码阶段需要重点控制的风险为人员风险和需求风险。在软件测试阶段中需要重点控制的风险为过程风险和需求风险。只有明确了各个项目周期内各个风险控制的重点之后,才可以使得项目管理者能够认识到所面临风险的重点,对风险事件和各个风险因素做好事前控制。技术路线如下图所示:获取样本大数据处理建立模型模型求解项目投资项目应用进度计划:时间及阶段主要研究内容2014.4-2014.7(第一阶段)获取移动电子商务平台的原始样本,并对样本进行大数据处理。2014.8-2015.8(第二阶段)建立贝叶斯网络模型,模型求解。2015.9-2016.4(第三阶段)对样本分类为软件项目过程,对每个软件过程的数据及方案进行比较分析,得出有价值的有投资价格的结论,指导投资项目。拟解决的关键问题:根据公司现有的平台,利用Hadoop提取关键物流大数据。建立贝叶斯模型,得到有统计学意义的影响因素。研究每个影响因素的不同水平相对参照水平的优势比。(同一因素不同水平的比较)研究评价所有影响因素的相对重要性。(不同因素间相对重要性的比较)模型求解,并应用项目生命周期的各个环节中,得出结论,得出的数据用于指导投资。3 与本项目有关的工作条件(包括研究工作基础、实验条件等) 项目组成员科研经历项目负责人对大数据环境下的贝叶斯模型作过深入系统的研究,并已对原始数据进行预处理,确定进入建模的过程。项目主要成员王水教授长期从事计算机软件和数据挖掘等领域的研究工作,主持省级项目两项,参与省、市级项目多项,多次获得市科技进步奖,参与获得省科技进步二等奖1项,积累了丰富的研究经验,近年来以第一或通讯作者发表的与数据挖掘直接相关的论文7篇,其中2篇中文核心,5篇EI收录。项目主要成员杨昱昺副教授,多次主持、省市厅级项目,对项目的把握及完成有较丰富的经验。发表论文4篇,核心论文1篇,其中有3篇被EI收录。近几年中,专心深入研究不确定数据的挖掘及查询技术,获得宁波市教育成果奖一项。项目成员傅仕伟系统分析师,长期从事大型项目的开发研究,积累了丰富
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年菏泽辅警招聘考试题库及答案详解(各地真题)
- 2025年健康医疗保险合同范文
- 《知识产权法学(8)》2025-2025期末试题及答案
- 2025年绵阳辅警协警招聘考试备考题库附答案详解(考试直接用)
- 2025年阿克苏辅警协警招聘考试备考题库附答案详解(夺分金卷)
- 2025年西宁辅警招聘考试真题含答案详解(预热题)
- 2025年辖县辅警协警招聘考试备考题库有完整答案详解
- 2025年玉溪辅警招聘考试题库完整答案详解
- 2025年金华辅警协警招聘考试备考题库含答案详解(黄金题型)
- 2025年遂宁辅警协警招聘考试备考题库附答案详解(夺分金卷)
- 医院制剂研发课件模板
- 小学体育家长会课件
- 溃疡性结肠炎教学课件
- 植物盆栽线描课件
- 火场排烟培训课件
- 【艾瑞咨询】2024年中国健康管理行业研究报告494mb
- 培训机构周边安全管理制度
- 民航飞行员招飞心理测试题及答案
- 2025广东食品药品职业学院教师招聘考试试题及答案
- 校园周边环境的安全管理制度
- 统编版语文四年级上册 19 一只窝囊的大老虎 预习单( 有答案)
评论
0/150
提交评论