基于大数据的数据挖掘算法实现与应用毕业设计.docx_第1页
基于大数据的数据挖掘算法实现与应用毕业设计.docx_第2页
基于大数据的数据挖掘算法实现与应用毕业设计.docx_第3页
基于大数据的数据挖掘算法实现与应用毕业设计.docx_第4页
基于大数据的数据挖掘算法实现与应用毕业设计.docx_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

祝山 东 科 技 大 学祝本科毕业设计(论文)祝祝祝题 目基于大数据的数据挖掘算法实现与应用 祝祝祝祝学 院 名 称 数学与系统科学学院 祝专业班级 信息与计算科学11级1班 祝学生姓名 马春慧 祝学 号 201101051417 祝指 导 教 师 王永丽 祝祝祝祝祝祝祝祝摘要祝近年来随着数据库和计算机网络的广泛应用,加上使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增加。数据迅速增加与数据分析方法滞后之间的矛盾越来越突出,人们也希望能够在对已有的大量数据分析的基础之上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人民只能望数兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的,数据挖掘从大量的数据中提取出隐藏在数据之后的有用的信息,它越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大帮助。祝本文主要对数据挖掘的有关算法进行学习与应用。首先介绍了这些算法的基本思想与计算步骤,然后运用这些算法进行实际问题的求解。本文着重介绍的是关联规则的apriori算法和神经网络中的bp算法。对apriori算法,用其对当下高等学校排课的问题进行求解;对bp算法,则是用其解决了一个在政府投资项目的投资估算的问题。并对计算结果进行了分析比较。祝祝关键词: 数据挖掘,apriori算法,bp神经网络算法祝祝祝祝祝祝祝abstract祝in recent years, with extensive use of databases and computer networks, coupled with the use of advanced automatic data generation and collection tools, a sharp increase in the amount of data that people have. scientific research, business decisions or enterprise management data increase rapidly and data analysis method of the lag between the contradictions are becoming increasingly prominent, people also hope that in the analysis of the existing large amounts of data can be the basis of, but is currently owned by data analysis tool is difficult to the data were deep, making people have only a few look helplessly. data mining is to solve the problem of the conventional method of analysis, and for large-scale data analysis and processing of data mining from large amounts of data to extract useful information hidden in the data, adopted by more and more areas and achieved good results, and provide a big help for people to make a correct decision.祝this paper focuses on the relevant algorithms of data mining, and simply introduces these algorithms, and uses these algorithms to solve real problem. this paper mainly introduces the apriori algorithm and bp algorithm in neural network. in the apriori algorithm, using the apriori algorithm to solve the current higher school timetabling problem; bp algorithm is introduced, with its solves the a in government investment project investment estimation problem.祝祝keyword data mining; apriori algorithm; bp algorithm in neural network祝vii祝祝目 录祝祝ii摘要祝iii目 录祝vi1 绪论祝11.1 研究背景与意义祝11.2本文的主要工作祝42 关联规则与apriori算法祝52.1基础理论祝52.2 apriori算法在学生成绩中的应用祝102.3 apriori算法在遥感数据挖掘中的应用祝223 bp神经网络祝273.1 基础理论祝273.2 bp网络和bp算法祝313.3 案例分析祝344 结语祝40参考文献祝41致 谢 辞祝44祝44附录一 英文原文祝45祝51附录二 中文译文祝51附录三 程序代码祝55祝祝山东科技大学本科毕业设计(论文)祝1 绪论祝1.1 研究背景与意义祝就目前而言,关联规则挖掘技术已经被广泛应用在西方金融行业企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。现在银行天天都在开发新的沟通客户的方法。各银行在自己的atm机上就捆绑了顾客可能感兴趣的本行产品信息,供使用本行atm机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额,更高端的新信用卡,或者需要一个住房改善贷款,这些产品都可以通过信用卡账单邮寄给客户。当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时也可以显示出顾客会对什么产品感兴趣。祝同时,一些知名的电子商务站点也从强大的关联规则挖掘中的受益。这些电子购物网站使用关联规则中规则进行挖掘,然后设置用户有意要一起购买的捆绑包。也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。祝但是目前在我国,“数据海量,信息缺乏”是商业银行在数据大集中之后普遍所面对的尴尬。目前金融业实施的大多数数据库只能实现数据的录入、查询、统计等较低层次的功能,却无法发现数据中存在的各种有用的信息,譬如对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。可以说,关联规则挖掘的技术在我国的研究与应用并不是很广泛深入。祝近年来,电信业从单纯的语音服务演变为提供多种服务的综合信息服务商。随着网络技术和电信业务的发展,电信市场竞争也日趋激烈,电信业务的发展提出了对数据挖掘技术的迫切需求,以便帮助理解商业行为,识别电信模式,捕捉盗用行为,更好地利用资源,提高服务质量并增强自身的竞争力。下面运用一些简单的实例说明如何在电信行业使用数据挖掘技术。可以使用上面提到的k 均值、em 等聚类算法,针对运营商积累的大量用户消费数据建立客户分群模型,通过客户分群模型对客户进行细分,找出有相同特征的目标客户群,然后有针对性地进行营销。而且,聚类算法也可以实现离群点检测,即在对用户消费数据进行聚类的过程中,发现一些用户的异常消费行为,据此判断这些用户是否存在欺诈行为,决定是否采取防范措施。可以使用上面提到的c4.5、svm 和贝叶斯等分类算法,针对用户的行为数据,对用户进行信用等级评定,对于信用等级好的客户可以给予某些优惠服务等,对于信用等级差的用户不能享受促销等优惠。可以使用预测相关的算法,对电信客户的网络使用和客户投诉数据进行建模,建立预测模型,预测大客户离网风险,采取激励和挽留措施防止客户流失。可以使用相关分析找出选择了多个套餐的客户在套餐组合中的潜在规律,哪些套餐容易被客户同时选取,例如,选择了流量套餐的客户中大部分选择了彩铃业务,然后基于相关性的法则,对选择流量但是没有选择彩铃的客户进行交叉营销,向他们推销彩铃业务。祝 目前数据挖掘的应用领域包括以下八个方面,而每个领域又都有自己的应用领域和庇用背景。祝(1)金融。金融事务需要收集和处理大量的数据,通过对这些数据进行分析,发现其数据模式及特乱e,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,也可观察金融fh场的变化趋势。数据挖掘在金融领域的应用广泛,包括数据清理、金融市场分析预测、帐户分类、信用评估等。祝(2)医疗保健。医疗保健业有大鼍的数据需要处理但这个行业的数据不同的信息管理系统管理,数据以不同的格式保存,从总体看,数据是无组织的。在这个行业中,数据挖掘的关键任务是进行数据清理、预测医疗保健的费崩。例如gte实验室开发,它能进行多维分析,用了:分析gte的医疗保健数据,对比数据和预测数据,在定量范围内解释偏差,生成超文本报表。祝(3)市场业。市场业应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。祝 (4)零售业。零售业是最早运用数据挖掘技术的行业。目前,主要运用于销售预测、库存需求、零售点的选择、价格分析等。祝(5)制造业。制造业应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。祝(6)司法。数据挖掘也可应用于案件调杏、诈骗检测、犯罪行为分析等方面,这些都可以给司法t作带来巨大的利益。祝(7)工程和科学。存信息量极为庞大的天文、气象、生物技术等领域中,所获得的大量实验和观察数据靠传统的数据分析t具难以应付,因此,x寸功能强大的智能化自动分析上具要求迫切,这种需求推动rdm技术在科学研究领域的应用发展,目前l三获得了一些重要的研究成果,例如:jetpropulsion实验室利用决策树方法对上百万天体数据进行分析,帮助天文学家发现16个星的星体,效果要比人丁更快,更准确。祝(8)保险业。对受险人员的分类将有助于确定适当的保险金额度。通过数据挖掘町以得到埘不同行业、不同年龄段、不问社会层次的人,他们的险金应该如何确定。另外,还可进行险种关联分析,分析购买了某种保险的人是否又同时购买另一种保险,也可预测什么样的顾客将会购买新险种。总之,在选择一种数据挖掘技术的时候,应根据问题的特点来决定采用哪种数据挖掘形式比较合适。应选择符合数据模型的算法,确定合适的模型和参数,只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用。祝1.2本文的主要工作祝本文在之前学者研究的基础上,对数据挖掘及其应用做了更进一步的研究和讨论,并由关联规则和apriori算法引出两个具体的实例,分别为apriori算法在学生排课中的应用和在遥感数据中的应用以及bp神经网络及bp算法在投资估算中的应用。祝首先,简要介绍了数据挖掘的背景,现在社会属于一个信息爆炸的时代,各种信息数量庞大,因此人们对于信息的分析和整理成为了一个亟待解决的难题,而数据挖掘就能够从海量信息中找出有价值的信息去分析和总结,得出有利于人们解决问题的结论。关联规则与apriori算法属于数据挖掘中比较典型的一种算法,该算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库中所有的频繁项集,即支持度不低于用户设定的阀值的项集;第二步利用频繁项集构造出满足最小置信度的股则。其中,找出所有的频繁项集是算法的核心,最后得到的关联规则的总体性能由该步决定。祝最后,将算法应用于学生成绩分析和遥感数据分析中,使其数据更具有时效性,更加简洁明了。祝祝祝祝祝祝祝祝祝2 关联规则与apriori算法祝2.1基础理论祝2.1.1关联规则祝关联规则是由r.agrawal等人于1993年提出的,它反映了一个事物与其他事物之间的相互依存性和关联性。如果两个和多个事物之间存在一定的关联关系的知识发现构成,而且是单向的,它是对观察数据中初现的模式的简单归纳,而不是能够刻画出整个总体的强结论。祝设i=是项目的集合,称为项目。设d为事务t的集合,t是每个事务都有一个唯一的事务号。设x,y是一个i中项目的集合,并且一个关联规则是形如的逻辑蕴含式,规定在事物集d中支持度是事物集中同时包含x和y的事务数与所有事物数之比,反映规则的可靠程度。记为support(),祝support()=p()祝如果项集的支持度超过用户给定的最小支持度阀值,则称该项集为频繁项集。祝规则在事物中的置信度是指同时包含x和y的事务数与包含x的事务数(不考虑是否包含y)之比,反映规则的把握程度。记为confidence(),祝confidence()=p(y|x)祝同时满足最小支持度阀值和最小置信度阀值的规则成为强规则。给定一个事物集d,挖掘关联规则问题就是寻找支持度和置信度分别大于用户给定的最小阀值的关联规则。祝根据不同的标准,关联规则可以有以下几种分类方法:祝1. 根据规则所处理的类型值,可以分为布尔类型和量化类型。祝加工布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系。数值型关联规则对数值字段进行处理,直接对原始数据处理,或者将原始数据进行之后在处理。祝2. 根据规则中数据的层次可以分为单层关联规则和多层关联规则祝在单层关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同次的。在多层关联规则中,则对数据的多层性进行了充分的考虑。祝3. 根据规则中涉及的数据的维数,可以分为单维和多维的关联规则祝在单维关联规则中,只是设计数据的一个维,在多维关联规则中,要处理的数据将会涉及两个或多个维。祝4. 根据关联规则中收集到的数据是否是同一时间的,又可以分为带有时序性的关联规则和一般意义上的关联规则祝我们在用关联规则解决某一问题时一般遵循一下步骤:祝1. 任务:描述变量之间的关联关系;祝2. 结构:用概率表示的“关联规则”;祝3. 评分函数:支持度和置信度的阀值;祝4. 搜索方法:系统搜素方法(通常使用的是带有修剪的广度优先);祝5. 数据管理技术:多重线性扫描;祝祝2.1.2 apriori算法及改进祝apriori算法是挖掘关联规则的最典型算法,该算法将发现关联规则的过程分为两个步骤:第一步通过迭代,检索出事务数据库中所有的频繁项集,即支持度不低于用户设定的阀值的项集;第二步利用频繁项集构造出满足最小置信度的股则。其中,找出所有的频繁项集是算法的核心,最后得到的关联规则的总体性能由该步决定。祝该算法的思想简单描述为:祝(1)=large 1-item sets(是指频繁项集-1);祝 (2)for(k = 2; ; k+)do begin;祝=apriori_gen()(将进行连接操作生成候选k项集的集合);祝for all transactions td do begin;祝=subset(, t) (识别包含在事物t中的候选集);祝for all candidates c do;祝c.count+(支持度计算增值);祝end;祝end;祝=c| c.countminsup;祝end;祝answer = 。祝首先产生的频繁项集-1,然后是频繁项集-2,直到有某个r值使得为空,这时算法停止。这里在第k次循环中,先产生候选k项集的集合,中的每一个项集是对俩个只有一个项不同的属于的频集做一个(k-2)连接起来产生的。中的项集是用来产生频集的候选集,最后的频集必须是的一个子集。祝从以上分析中可以看出,最后可能会产生大量的候选集和迭代过程中需要大量的扫描数据库,是apriori算法运行效率不高的重要原因。为了提高算法的运算效率,mannila曾经提出过一个apriori算法的改进,即修剪算法。因为一个项集是频繁项集当且仅当它的所有子集都是频集。那么,如果中某个候选项集中有一个(k-1)子集不是频集,那么即可以通过修剪算法剪掉。正因为有了修剪算法可以显著降低计算所有的候选项集支持度。可以减少产生大量的候选项集。祝另一种解决方法是,可以另建一张辅助表f(以矩阵形式存储),用以存储这些信息,包含该记录的编号和它的字段长度。在随后的过程中,及时删除表中不可能出现在候选项集中的记录,即字段长度不大于将要生成的频繁项集-k,而且也不被包含在频繁项集中的记录。在每次的扫描时,只扫描表中存在的记录,不需要每条记录都扫描。祝改进算法主要从两方面提高了运行效率:祝因为计算机访问内存的速度比访问文件的速度快很多。所以将要查询的数据表出去放入内存中,存储为矩阵e,从而每次迭代过程中,程序不再需要每次都访问数据库,进行匹配,统计。而是直接访问内存中存储的矩阵,从而是运算速度增快。祝通过辅助表f,减少访问表e中记录的无效记录,从而使访问次数减少,提高运算速度。祝然而,在实际应用中,我们发现并不是所有被挖掘出的强关联规则都有意义或者都是有用的。例如,某一个调查机构帮一个谷类早餐零售商对5000名学生每天早上所从事的活动进行了一次调查。数据表明:60%的学生会在早上打篮球,75%的学生会在早上吃这家零售商的早餐,40%的学生会在早上既打篮球又吃这家零售商的早餐。假如我们设定最小支持度为0.4.,最小置信度为0.6。将产生一下关联规则:“(打篮球)(吃早餐)”,因为该规则的支持度为0.4,置信度为0.66均大于阀值。应该为一个强规则。但是,这个规则很容易让人误解,因为吃早餐学生的站所有被调查学生的75%,大于66。也就是,打篮球和吃早餐实际上是负关联的,有个项包含在某个项集中,会减少它包含在其他项集中的可能性。因此只凭支持度和信任度阀值未必总能找出符合实际的或者是有意义的规则。如果没有认识到这一点,就有可能在使用关联规则进行问题分析时出错。祝为了消除这种错误,应该在关联规则的置信度超过某个度量标准时,定义它为有意义的。因此,我们引入了增益(lift):祝lift() = p(y|x)/p(y) = p()/p(x) * p(y)祝lift = 1,前项和后项独立;祝lift 1,表明前后两项是正相关的,说明x和y实际同时发生的概率大于x和y独立时同时发生的随机概率;祝lift 1,表明前后两项是负相关。祝正如上例中lift(打篮球吃早餐)= 0.66 / 0.75 = 0.88 1,因此,尽管该规则的支持度和置信度都很高,但是规则是没有意义的。最终所要的关联规则必须是我们常识之外和意料之外的关联,而且该规则必须具有潜在作用。所以一个规则的最终取决于用户本身的判断和需求。祝2.2 apriori算法在学生成绩中的应用祝2.2.1 问题引入祝国内各高校评价学生学业以及综合苏辙都以学生的各科考试成绩为重要指标,各高校进过长期的运作都积累了存储了大量的学生成绩信息,但是各高校对这些成绩并不是很重视,对成绩的分析处理一般都还停留在古老的查询、统计的时代,例如统计优、良、及格、不及格的人数;计算平均分、标准差,计算绩点;统计绩点 。而对于学生取得的这些成绩与课程之间的关系有没有关联没有做深入的了解,没有发现这些存储的成绩是重要的排课依据。依然采取的人工排课方式,由教学院长或者各系主任编写,他们凭借多年的教学经验,再结合有关规定,来决定给学生开哪些课,以及课程顺序。这不免会有一定的主观性,忽略了多年来积累的学生成绩这一宝贵的资源。如果能够合理开发利用这些资源,利用数据挖掘的方法分析这些学生成绩,找到课程之间的相关关系,必将对课程的开设安排具有重要的指导作用。祝以国内某大学01届计算机专业学生在校四年的学习成绩为数据源,选取成绩数据库中计算机网络 、外语 、高等数学 、计算机基础 、 操作系统 、数据库原理等8门课程作为研究对象,找出某门课程对与其他课程的开设是否有影响,为学校教科老师以后排课提供参考,为以后学生选课提供依据。祝2.2.2 建模过程祝(1)数据清洗:祝原始数据库中包含全校各个专业、各个年级、各个学科的所有成绩,某些记录难免会有一些差错或者从经验上看没有关联的数据,为了便于进行数据挖掘,只选择01届计算机专业的学生的8门课程成绩作为挖掘对象,去掉其他所有不需要的字段,删除完全空白记录,如果某条记录中的某一两门课程成绩缺少,则该条记录缺少的成绩补为该科成绩的平均分,对于某条记录中的某门课程成绩有多于一个成绩的情况,则该门成绩按第一次成绩计算。则清洗后的数据表部分数据如表2-1所示。祝祝祝祝祝祝表2-1祝c语言祝操作系统祝c+程序设计祝外语祝计算机网络祝数据库原理祝计算机网络祝高等数学祝90祝94祝93祝93祝90祝93祝92祝93祝87祝89祝90祝87祝97祝90祝93祝90祝92祝90祝87祝92祝92祝89祝90祝89祝89祝96祝91祝65祝90祝62祝89祝87祝93祝90祝91祝92祝89祝90祝78祝76祝79祝63祝89祝90祝89祝91祝90祝93祝(2)数据转换:祝由于学生的数据都是由数值形式表示的连续的数,而编写的aprior算法程序是是处理离散数值的,因此,需要将所收集到的数据进行转化,转换为优、良、中、及格、不及格5个等级。将大于等于90分的成绩记为优用数字1表示,将大于等于80且小于90的成绩记为良用数字2表示,将大于等于70且小于80的成绩记为中用数字3表示,将大于等于60且小于70的成绩记为及格用数字4表示,将小于60的成绩记为不及格用数字5表示。将8门课程依次用大写字母a、b、c、d、e、f、g、h表示。转换后的数据格式如表2-2所示:祝表2-2祝id祝a祝b祝c祝d祝e祝f祝g祝h祝1祝a1祝b1祝c1祝d1祝e1祝f1祝g1祝h1祝2祝a2祝b2祝c1祝d2祝e1祝f1祝g1祝h1祝3祝a1祝b1祝c2祝d1祝e1祝f2祝g1祝h2祝4祝a2祝b1祝c1祝d4祝e1祝f4祝g2祝h2祝5祝a1祝b1祝c1祝d1祝e2祝f1祝g3祝h3祝6祝a3祝b4祝c2祝d1祝e2祝f1祝g1祝h1祝(3)数据挖掘:(该部分由程序实现)祝数据挖掘过程主要是利用apriori算法,采用广度优先的迭代搜素,首先找出频繁1-项集,用查找频繁2-项集,依次类推,直到求出所有的频繁项集。当发现某频繁项集的数目为零,则计算停止。最后,输出所有的项目的频繁集。设最小支持度为30%,产生频繁子集50个,从产生的频繁项目集中产生子集,根据关联规则挖掘算法原理,设置最小置信度60%,得到的关联规则15个,部分规则如表2-3所示:祝表2-3祝规则祝支持度祝置信度祝祝66.8祝89.2祝祝55.8祝87.2祝祝61.6祝79.8祝祝72.6祝85.7祝祝58.4祝76.5祝祝56.9祝83.4祝祝利用apriori算法程序查找频繁项集运行框图如图2-1:祝祝祝祝祝祝祝祝祝祝祝祝祝祝图2-1祝祝2.2.3 结果分析祝由得到的结果可知,有很多课程的相关关系和教学经验是相符的,例如,说明c语言成绩在8090分之间,c+程序设计也在8090分之间的支持度为66.8%,置信度为89.2%,说明学好c语言对写好c+程序设计起到关键作用,以后排课时可以将c语言排在前。祝又如上图中的第三条规则说明,外语成绩在7080分之间,c+程序设计成绩在8090分之间的支持度为61.6%,置信度为79.8%,第四条规则说明计算机基础成绩在7080分之间的支持度为72.6%,置信度为85.7%;这两个规则表示外语对学好计算机专业课也很重要。祝规则说明数据库原理成绩在80-90分之间,计算机网络也在80-90分之间的支持度为58.4%,置信度为76.5%,第六条规则说明c+程序设计在80-90分之间,计算机网络也在80-90分之间的支持度为56.9%,置信度为83.4%,这两个规则虽然可信度和置信度都较高,但实际究竟有没有关联还需要做深入的讨论。祝上面第二条规则说明计算机基础成绩在70-80分之间,高等数学在80-90分之间的支持度为55.8%,置信度为87.2,虽然支持度和置信度都达到了要求,但是根据老师多年的教学经验,这两者之间并没有很强的关系,因此在实际排课中我们要实际经验联系数据做出安排。祝2.2.4 模型改进祝在上面建模过程中,在数据转换时,将成绩离散化为1-5的值,这样每一门课都会有5个不同的表示,例如a1、a2、a3、a4、a5,10门课就会有50个不同的符号来表示每一个项目。虽然之中划分对于分析没门课程之间的联系会给出更加有利和详细的证据。但是,在扫描数据库时,我们需要扫描匹配50个符号。当课程数目较少时,这种做法的运行效率还是可以接受的,但是,实际情况中,每一个专业大学四年所学课程通常都是在三四十门以上。如果仍谈按照以上的方式进行数据处理,就会产生上百个项目,当学生人数又很多的时候,上百个项目,扫描数据库中上百条记录,程序的运行效率会很低。祝综上所述,为了兼顾程序的运行效率和得到确实可信的结果,当需要扫描大数据的数据库时,在数据转换时,不再将成绩按照标准划分成五个等级,而是将成绩划分为2个等级,如果成绩大于该科的平均分,则该成绩记为1,否则该科成绩记为0,结果如表2-4所示:祝表2-4祝c语言祝操作系统祝c+程序设计祝外语祝计算机网络祝数据库原理祝计算机网络祝高等数学祝90祝94祝59祝93祝90祝93祝92祝93祝87祝59祝90祝57祝97祝90祝93祝59祝92祝90祝87祝92祝92祝89祝90祝89祝59祝96祝91祝59祝90祝62祝45祝59祝93祝90祝91祝92祝89祝90祝78祝76祝79祝63祝59祝90祝89祝91祝90祝59祝表2-5祝c语言祝操作系统祝c+程序设计祝外语祝计算机网络祝数据库原理祝计算机网络祝高等数学祝1祝1祝0祝1祝1祝1祝1祝1祝1祝0祝1祝0祝1祝1祝1祝0祝1祝1祝1祝1祝1祝1祝1祝1祝0祝1祝1祝0祝1祝1祝0祝0祝1祝1祝1祝1祝1祝1祝1祝1祝1祝1祝0祝1祝1祝1祝1祝0祝然后再利用matlab程序,将该表导入内存中:祝data=xlsread(e:bookl);祝这样就将excel中的数据读入data中。祝将数据存储到计算机内存中,当运行apriori算法程序时,不需要每次都扫描数据库,只需扫描一次数据库文件,以后每次迭代中都只是扫描存储到计算机内存中的矩阵。加快了数据访问速度。祝模型改进之后,需要访问的数据量减少了一半以上,数据的访问次数也减少了很多,因此程序的运行效率会有显著的提高。这是今后在做大数据挖掘时,加快程序运行速度的一个解决办法。祝2.3 apriori算法在遥感数据挖掘中的应用祝2.3.1问题引入祝遥感影响数据属于空间数据,通过遥感影像数据结合其他数据来获取感兴趣的知识,在精确农业、土地规划、资源勘察、环境保护等领域有着非常广泛的应用。但是随着遥感平台的丰富和传感器技术的发展,获取的rsi数据量十分巨大,并且很多遥感数据是复杂且带有噪声的,加大了我们对其进行高效处理和提取有用知识的难度。因此,我们迫切需要一种新技术从这些海量的遥感数据中提取有效的信息。我们从一副遥感数据中提取了植被的覆盖类型,从空间数据库中查去过去一年中的降水量,有dem提取该地区的坡度图,预测该林区林火风险等级。祝2.3.2 问题求解祝1、数据处理祝首次,为了将关联规则用于遥感图像数据,需要对得到的数据进行离散化处理。即需要将图像数据转化为事物数据库的形式。经过查阅资料,对收集到的数据按下列标准进行离散化处理。祝祝祝祝表2-6植被覆盖分割标准祝植被覆盖度祝分块分割祝0,30祝v1祝31,60祝v2祝61,100祝v3祝祝表2-7坡度分割标准祝坡度祝分块分割祝0,35祝s1祝36,100祝s2祝祝表2-8降水分割标准祝降水量祝分块分割祝0,63祝r1祝64,100祝r2祝祝表2-9山火发生概率属性分割标准祝山火发生概率祝分块分割祝0,5祝f1祝5,10祝f2祝祝祝祝祝祝祝表2-10得到的事物数据库形式为祝id祝item祝0祝v3祝s1祝r1祝f1祝1祝v2祝s1祝r1祝f1祝祝祝祝祝祝1000祝v2祝s2祝r2祝f1祝祝祝祝祝祝2000祝v3祝s2祝r2祝f2祝祝2.数据挖掘祝利用apriorit算法进行数据挖掘:祝扫描数据库,对每个项进行计数,得到候选项集1.祝判断得到的每个候选项集的频数是否满足支持度,如果不满足支持度,将该项剪枝。祝将得到的剪枝后剩下的数据进行自连接,得到新的候选项集2。祝扫面数据库对每个项集进行统计计数。祝判断得到的每个候选项集的频数是否满足支持度,如果不满足支持度,将该项剪枝。祝将剪枝剩下的项集执行连接操作。祝循环执行,(4)(5)(6)。祝apriori算法执行完成得到了所有的频繁子集,但是,根据领域知识,本问题感兴趣的是什么情况下山火容易出现,因此,在本问题中,需要选择植被覆盖度、坡度、降水量为参量,山火发生概率为为结果参数。因此,得到的关联规则应该是植被覆盖度、坡度、降水量山火发生概率。祝对得到的频繁子集进行关联规则挖掘后得到的结果为:祝表2-11祝序号祝关联规则祝支持度祝置信度祝1祝v1,s1,r1f1祝16.7祝89.1祝2祝v3,s1,r1f1祝8.3祝70.8祝3祝v1,s1,r2f1祝17.8祝90.4祝4祝v1,s2,r1f1祝10.9祝67.3祝5祝v1,s1,r2f1祝17.7祝88.6祝6祝v3,s2,r1f1祝17.8祝90.7祝7祝v3,s1,r2f1祝7.9祝73.2祝8祝v3,s2,r1f1祝18.5祝99.1祝祝2.3.3结果分析祝从上表中可以发现,坡度高,降水量多容易发生林场火灾;坡度低,降雨量低,植被覆盖率低,发生林火的概率不是很大。祝将apriori算法引入遥感影像数据挖掘领域,对影像关联挖掘中的事物中的事物、项、基集、关联规则进行定义,考虑关联规则的支持度和置信度,提取感兴趣的知识点。祝祝祝3 bp神经网络祝3.1 基础理论祝3.1.1神经网络介绍祝神经网络是指用大量的简单计算单元(即神经元)构成的非线性系统,它在一定程度和层次上模仿了人脑神经系统的信息处理、存储及检索功能,因而具有学习、记忆和计算等处理功能。神经网络的一些显著特点包括:非线性映射能力;不需要精确的数学模型;擅长从输入输出数据中学习有用的知识;能够并行计算;易于软硬件实现等等。祝3.1.2 神经网络原理祝神经网络是由很多节点组成的,这些节点用某一种模式连接在一起,这些节点被称为神经元或单元,是十分简单的处理器。神经元的计算能力依靠两个原则:一是组合输入信号的规则;二是将组合的输入信号计算成输出信号的激励规则。输出信号通过连接权传送给其他节点,权通常会使正在通信的信号产生兴奋或抑制。神经网络最大的吸引力在于它可以从输入的数据中进行学习,这些数据应该是网络正常工作时期望处理的。祝虽然有很多不同类型的神经网络,但是他们都具有以下的共同特征:简单的处理节点;连接模式;网络传播信号的规则;组合输入信号的规则;计算输出信号的规则;修改权值的学习规则。祝简单处理节点:祝每个处理节点通常有两种权:一种是来自网络其他节点的输入权,另一种是传输到其他节点的输出权。但是,输入节点只有输出权,输出节点只有输入权。祝连接模式:祝连接模式是指节点的连接方法。在有点网络中,每个节点都可以和其他节点相连;还有的网络中,节点被安排成有序的层次结构,节点的连接只能是直接相邻的层的节点。连接是由权的参数表示的,权的三个参数分别是:权连接来自哪个节点;权连接到哪个节点;表示权值的一个数值。祝负权值会抑制连接到节点的活动,正权值会激活连接到的节点,权的绝对值指定了连接强度。祝连接模式由矩阵表示,矩阵中的项表示从节点j到节点i的权值。有时候在描述整个网络的连接模式时使用不知一个权矩阵,因为复杂的网络一般都会把节点层次化。祝网络控制信号的传播规则:祝对于一个特殊的神经网络结构类型,存在某个规则控制何时更新节点,信号何时送给其他的节点。其他的网络模型,会随机的选择一个节点更新,而对另外的一些网络结构,要求一组节点更新必须在另一组节点之前更新。祝组合输入信号的规则:祝组合输入信号的典型方法是对它们的值求加权和,即祝祝是节点j组合输入;是节点i的输出;n是输入的连接数。祝计算输出信号的规则:祝每一个节点都具有一个计算输出值的规则,这些值将传输到其他的节点或以输出结果的形式表现,该规则成为激励函数。输出的值称为节点的激励。其中最常用的激励函数是:二值阀值函数和sigmoidal函数。祝二值阀值函数将激励限制为1或0,常用于分类问题,取决于净输入与某个阀值。有时为了方便,在净输入值上增加一个偏差量,它是阀值的负值,在这种情况下,净输入有下式计算:,如果将偏差认为是来自一个激励总为1的节点的权,就可以将上式改写为:,取为1。输出的值在输入值大于等于0的时候为1,小于0的时候为0。祝sigmoidal函数是最常用的激励函数值之一,他的输出范围0,1。其次,它还是连续可微的,使得神经元的权值可以使用误差反向传播算法来调节。它的表达式为:。祝修改权值的学习规则:祝在学习开始,通常节点的安排是固定的,激励函数的选择也是固定的,在学习期间,任务是修正权值得到期望的输出。祝在训练开始,通常将权值设为很小的随机数。当第一个样本输入到网络时,网络是不会得到期望的结果的。网络的实际的输出与期望的输出的不同就构成了误差。这个误差可用来修正权值。规则就是一种误差修正规则。对于单输入权的输出节点,激励y与目标t的误差为:=t - y。输出节点的信号是x,规则表明,需要调整的量为:,为学习率,取值为实数。新权为:。祝祝3.1.3 神经网络的基本模型祝在这里我们主要介绍前馈神经网络结构和多层感知器模型。前馈神经网络是指拓扑结构为有向无环图的神经网络,在前馈网络中,各层的神经元接受前一层神经元的输入,并将本层的输出给下一层,没有反馈。除了输入层之外的隐藏层和输出层都会实现一定的运算,被称为计算节点。祝两层感知器网络,该网络只有输入层和输出层。输出层为计算节点,基函数取线性函数,激励函数取二值阀值函数。一般用于线性分类。祝多层感知器网络,该网络有一个输入层、一个输出层、和多个隐藏层,隐藏层和输出层为计算节点。多层感知器的基函数取线性函数,激励函数可以去多种形式。如果所有的计算节点都取二值阀值函数,则网络为多层离散感知器;如果所有的隐藏层都取sigmoidal函数,就是bp网。此时,网络权值和阀值可用误差反向传播学习算法学习。通常,bp网用来分类,则输出层节点一般用sigmoidal函数或二值阀值函数;用来函数逼近,输出层节点就应该选用线性函数。祝祝3.2 bp网络和bp算法祝3.2.1 bp算法简介祝反向传播算法将学习过程分为两个阶段:从输入层到学习层的整箱传播过程和从输入层到输入层的反向传播过程。在训练期间,每一个输入样本都有一个目标向量,训练的目标是找到一个网络权集。在训练开始前,给权赋较小的随机值。所有的隐藏层节点都取sigmoidal函数。直到所有的输出落在目标节点所指定的容许范围内,通常认为网络完成了学习任务。祝算法过程如下:祝while not stop祝stop = true祝for 每个向量祝执行正向传播找出实际的输出祝通过比较实际输出与目标输出获得误差向量祝if 实际输出不再容许范围祝stop = false祝end if祝执行误差向量的反向传播祝使用反向传播确定权的变化量祝更新权值祝end for祝end while祝祝3.2.2 bp算法的数学原理祝祝=祝假设有p个训练样本,对应的期望输出记为,节点i的信号是,是学习效率(权值调整的程度),是节点i同节点j相连接的权值改变量。学习的过程就是通过误差校正权值,使得接近。祝当一个样本输入到网络,产生输出时,均方误差应为各输出单元误差平方之和,即:祝祝并且.根据微分的链式法则,可以得到祝祝此处引入记号。祝因为有,所以有祝祝对于激励函数f,则输出为:祝祝倒数为:祝祝综合上面的计算有:祝祝由此可以得到一个节点权的该变量为:。祝上面给出的误差可用于节点,但是隐藏层节点的误差并不直接与目标输出有关。因此,对于隐藏层节点,误差可由下式给出:祝祝祝3.3 案例分析祝3.3.1 问题引入祝今年来,我国政府农业项目投资增长迅速,年度投资高达数千亿元人民币。在政府农业项目投资迅速增长的同时,陆续出现了一些不和谐现象。这些现象的出现有许多方面的原因,但是可行性研究阶段投资估算不准确是一个重要的原因。投资估算是工程项目在前期可行性研究阶段的重要工作环节,它对新建项目投资方案的决策起着重要的决定作用。同时,也决定着新建项目的经济和社会效益。根据给出的全断面掘进机tbm在挖掘隧道的过程中收集到的数据,做出分析,预测新建隧道单位的成洞米造价。祝3.3.2 建模过程祝(1)模型建立祝本章选用bp网络求解该问题,bp网络是一种多层网格结构,由输入层,隐藏层和输出层组成,各层之间采用全互连接,但是同一层单元间不互连接。祝网络隐藏层只有一层,即选用3层网络:输入层,一层隐藏层,输出层。因为3层网络已经满足任何要求,如果选用较多的隐藏层,会使网络结构庞大,需要较长的学习和训练时间才能是网络达到稳定。祝隐藏层单元个数按照柯尔莫哥洛夫定理,取值为2m+1。祝初始权值选用随机函数(-1,1)之间的随机数。祝节点输出函数选择sigmoid,将任何数据的输入都可以转化为(0,1)之间的数。祝(2)求解过程祝首先需要查阅资料,处理给出的数据。祝查阅资料根据工程特征因素量化描述。工程特征的选取应参照历史工程资料的统计和分析,根据专家的经验确定。通过对影响隧道工程的造价的因素分析,确定了隧道长度、围岩类别、tbm机类型、工时利用率、衬砌类型、衬砌方法、喷锚支护、道床类型8种因素作为工程特征,并根据下表将其离散化。祝表3-1祝特种数目量化值祝1祝2祝3祝4祝5祝6祝隧道长度(km)祝5以下祝5-10祝10-20祝20-30祝30-40祝40以上祝围岩类别祝i祝ii祝iii祝iv祝v祝vi祝tbm类型祝悬臂台车祝敞开式直径5m祝盾构式直径5m祝敞开式8-9m祝单顿式8-9m祝双护盾8-9m祝工时利用率祝10祝20祝30祝40祝50祝60祝衬砌类型祝i祝ii祝iii祝iv祝v祝6祝衬砌方法祝衬砌台车现浇祝衬砌台车预制祝tbm现浇祝tbm预制祝工厂制造祝祝喷锚支护祝不需要祝锚杆祝挂网祝锚杆挂网祝格栅挂网祝格栅锚杆挂网祝道床类型祝普通枕木祝普通整体道床祝加强枕木祝加强整体道床祝高强枕木祝高强整体道床祝祝祝离散化后的数据形式为:祝表3-2祝序号祝输入项祝输出项祝祝i1祝i2祝i3祝i4祝i5祝i6祝i7祝i8祝o祝1祝3祝5祝4祝2祝1祝6祝2祝1祝15.16祝2祝2祝3祝1祝5祝4祝2祝3祝1祝13.6

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论