




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
II第1章绪论11.1课题背景11.2目的和意义21.2.1课题目的21.2.2课题意义2第2章项目分析32.1功能性需求分析32.2非功能性需求分析32.3项目可行性分析42.3.1经济可行性42.3.2技术可行性52.3.3业务处理模型52.4项目需求分析52.5业务需求6本章小结6第3章数据模型设计73.1数据获取83.2数据预处理 103.3数据结构设计10本章小结11第4章数据分析124.1分析准备144.1.1环境搭建144.1.2模型选择164.2数据准备154.3分析过程174.4输入数据184.5输出数据184.6分析结果19本章小结19第5章分析模型评估205.1模型测试的概念205.2软件模型测试205.3模型测试计划23本章小结23结论24致谢错误!未定义书签。参考文献26附录1译文27附录2英文参考资料29附录3源程序核心代码31PAGE23PAGE23第1章绪论1.1课题背景根据企业内部和外部现有的基本数据,企业利用信息技术使数据适应所要解决的问题,将数据纳入数据库,并用适当的工具加以处理。利用在线实时数据分析和检索技术对数据进行分析,并向决策者提供已确定的潜在特征或预报模型,以支持决策进程和实现业务目标。逐渐引进综合入学和培训系统是我们时代和社会发展的当务之急,加强学科和职业之间的关系,社会对人才的需求越来越模糊,社会越来越要求培养人才。而具有丰富的基础知识和多重技能的复合型人才已成为社会的普遍需要。申请人在大学入学之前不太了解具体学科,这就使得挑选申请人的工作复杂化,从而使它们难以获得学科。我国许多大学进行了自己的改革和创新,并试行了一种新的“大规模”人才选择模式。这不仅使学生能够进入选择所有学科,而且,我们可以建立一个以提高初级教育质量为基础的跨学科体系,为学校提供真正所需要的综合型人才。在大类招生模式下,实现专业分流培养具有很大的意义。在当今社会教育发展的背景下,许多高校已经或即将开始实施按类招生这一新型的模式内容,例如上海交通大学、北京外国语大学等等。国内部分双一流的该校对此项改革的实施已达到初步试验阶段,例如计算机科学与技术、物联网、信息管理与信息系统等等专业统称为计算机类。学生在入学前只需要按类选择自己喜欢的类别,在经过一段时间的基础知识技能学习后,根据学习成绩、个人志愿、专业排名选择自己喜欢的专业。此项教育改革发展后有利于适当调整学生选专业难、选专业迷茫的问题。典型的数据分析工具将在构造了数据仓库后产生结果,而这些结果独立于在数据仓库上完成其他分析。还将产生预测和标识关系,对就业数据统计分析起到了促进的作用。数据库分析服务(SSAS)即用户利用可视化图形界面实现数据导入与导出。在SSIS环境下,同时以IntegrationServices支持机器码与托管程序代码。Micorsoft的SQLserver集成了数据挖掘组分析服务器,利用数据挖掘作为挖掘工具,将整理好的数据资源输入进去,在经过一系列的分析服务即可得到分析结果。1.2目的和意义在大类招生模式下,实现专业分流培养具有很大的意义。有利于提高学生的综合素质、创新能力、实践能力的培养,促进学生全面提高。1.2.1课题目的大部分高校实行新型大类招生后,主要目标是适应高等教育新型人才培养的发展需求,这种招生模式正处于发展和积累经验的时期。而成熟的制度还没有形成,其发展和实施受到不同条件的限制。实现专业分流培养具有很大的意义。有利于提高学生的综合素质、创新能力、实践能力的培养,促进学生全面发展提高。因此,我们应该在学院的指导下积极创造条件,尝试大类招生这种新型模式,逐步积累经验。用聚类算法和回归算法来实现专业推荐的内容。预测的目的是从原始记忆中自动获取给定数据的扩展描述,用来预测未来相关数据。分类输出的是同类的类别属性值。回归的结果输出的是相关联的值,聚类是一组个体相似性,可分为若干个不同的类别,即“物以类聚”。其目的是使属于同一类的属性值之间的相似度尽可能减小,分类课中的实例或数据对象与分类教师相比具有类别特征,而聚类实例没有需要聚类学习算法自动确定的特征。1.2.2课题意义为了学生能够更容易的选择专业,推出了按大类招生的一种新型模式。学生对选择的专业更贴切,更适合社会发展的需求。它们将在就业市场上更具竞争力和优越性。更能吊起从学校到专业选择的积极性。实现专业分流培养具有很大的意义。有利于提高学生的综合素质、创新能力、实践能力的培养,促进学生全面提高。加速实施一个大规模的人才培养单元,以实现以学生和教师为中心的教育目标。为学生提供实时学习和激励的主动行动。完善学院的教学管理机制,灵活和可变的教学管理,积极提倡以学生自主选择教学内容为中心的学分制度,根据主要入学所选择的大类类别,大幅度减少了选择专业困难的难题。许多专业被合并到一起招生,从而避免了招聘中长期存在的不平衡现象,并在某种程度上协调了各学院之间的招生情况,为良好的教育工作管理奠定了基础。
第2章项目分析项目分析即对功能性和非功能性需求进行详细分析的过程。典型的数据分析工具将在构造了数据仓库后产生结果,而这些结果独立于在数据仓库上完成其他分析。还将产生预测和标识关系,对就业数据统计分析起到了促进的作用。2.1功能性需求分析对高校学生就业数据进行获取、管理和分析。采用SSAS框架来代替传统的数据管理模式,结合AnalysisServices技术完成对数据的管理与更新,依据分析的数据得知专业推荐的结果,需求分析的主要内容包括本课题用户、数据的预处理、数据的分析。(1)本课题用户。主要是指即将进行专业分流的学生,把学生成绩以及个人志愿和获奖证书情况综合管理,以聚类分析为分析工具得出结果预测图,预测其可靠性。(2)数据的预处理。即对将复杂的、有噪音的、不规则的数据进行清洗以实现数据的准确性和高效性。(3)数据的分析系统的设计实质上是数据的分析,良好高效的数据分析能够简化系统中的繁琐问题,降低问题求解的复杂程度,便于使用者对所需要信息的管理与更新;同时系统的设计应当便于使用者的理解与使用。2.2非功能性需求分析系统非功能需求分析主要包括性能需求和安全需求,主要的内容如下:(1)性能需求项目应当具有一定的自我免疫能力,即自我修复能力,当数据发生部分错误或者更改时,系统能够恢复备份中的数据,并且将恢复的市场控制在2个小时之内;同时系统的响应速度要快,如果用户请求访问某一数据内容,系统的响应时间不应超过0.5秒钟;当使用者并发执行多项数据操作的时候,系统的响应时间不应高于1.5秒钟;除此之外,系统应当能够容纳上万名使用者对系统的请求访问操作,保证这些使用者在一定的时间段内可以同时地、正常地使用系统,完成数据的管理与使用。(2)安全需求数据存储安全:根据安全措施规划和安排的数据内容,配合技术协调发展,对安全保护加大投入,实现对处理业务数据的平台保护。个人数据的保护:必须在技术和监管层面确保数据隐私的安全。操作系统安全:操作业务支持系统、督查系统、非内部信息、决策支持系统、数据库存储安全系统等应用系统的需求,充分贴切保障系统建设的安全需求。安全组织和管理:建立安全监管体系和安全监管组织,包括政策管理、建立安全管理平台和安全评估。2.3项目可行性分析项目可行性分析即对经济可行性、技术可行性进行研究。通过项目分析内容的实现,对数据模型设计和分析实现需求分析的准备。2.4经济可行性经济可行性是指系统的设计是在高校的经济许可范围内,不能够超过学校的预支,在经济可行性的研究过程中,往往是由专业的经济技术人员进行研究与测试,通过对文献资料的查阅,获取得到相关经济许可极限与实际经济收支,进而得到精确地财务预判与支出,保证数据分析的实现不会超过学校的经济许可上限,因此满足实际的经济可行性。整体数据分析的经济情况如表2-1所示。表2-1数据分析经济情况序号项目人工(人·日)单价(元)合计(元)1可行性研究101000100002需求分析201000200003总体设计201000200004数据预处理的详细设计201000200005数据建模的详细设计301000300006数据分析的详细设计401000400007编码实现301000300008合计1700002.3.2技术可行性Microsoft在SQLServer2005发展了DTS(数据转换服务),通过DTS能将其他数据库的数据导入SQLServer2014中,它包含用于组建调试和密封的图形工具和向导,并提供用于调整数据、容器、转换等工具,期望能使集成工具更加高效运行。数据库分析服务(SSAS)即用户利用可视化图形界面实现数据导入与导出。在SSIS环境下,同时以IntegrationServices支持机器码与托管程序代码。与分类算法不同的是,通过对不同样本的相似性进行分类分析是聚类分析的常见办法。与训练数据集所要求的分类模型不相同,是以特定按类标记的样本集。而且在没有分类标记的数据上也可以搭建聚类关系模型,是一种无监管的学习算法。2.3.3业务处理模型整个过程包括任务发现、数据检索、数据清理、模型开发、数据分析和结果生成。(1)任务发现:通过与用户的反复交流,可以清晰地理解要完成的任务。(2)数据检验:熟悉数据结构的最根本数据量的重要性和不确定性,确定任务范围内的数据元素,确定数据元素和数据提取原则;并采用适当的方法完成对源数据库中相关数据的检索。同时,对原始数据的分析有助于更清晰地确定挖掘的目标。(3)数据清洗:把模拟得来的数据进行清洗,以便适应后续的数据处理模型,把后台内容、数据库元数据及相关模型工具相结合,同时根据挖掘成果确定数据的具体清洗准则。(4)模型开发:为模型选择以及数据分析建初始值的挖掘模型。(5)数据分析:系统的中心环节内容,包括对所选挖掘模型的详细说明和模型类别内容及相关属性值的确定。通过计算有关数据信息,测试出挖掘模型的相关联参数,确定模型的属性值。检查并评估领域模型。评价结果模拟出来后,挖掘模型需要得到进一步的加工。如果有必要我们必须返回到模型开始时来测试其他挖掘模型,并最终得到一个有效的领导模型。(6)结果生成:将数据分析结果可视化,挖掘结果可以采用文档、图形、报表等形式。图2-1以用户为中心的处理模型2.4项目需求分析建模、培训和测试过程是建立应用程序的最重要的部分,应用程序的开发是一个简单的编程过程。2.4.1业务需求数据储存库中的数据应在数据挖掘模型开发之前收集和清洗。MicrosoftSQLServer服务器可以显示或分析多变量数据的关系数据库和多维数据。最佳人选是一个有商业和技术技能的人。该模型的开发将受益于其统计背景,了解重要的业务问题,对数据和关系有极大的兴趣,并能够使用MicrosoftSQLserver工具来处理和存储数据。用户应该创建两个记录:一个用于模型的开发,另一个用于检查模型的准确性,可以从中选择最适合业务问题的模型。在创建和检测原型之后,可以搭建和检测当前的数据挖掘模型是否符合挖掘模型的标准。在将数据内容输入数据挖掘模型之前,如果有需要应该转换以实现这些步骤内容。2.4.2数据要求项目需求分析主要从学生成绩、专业排名情况、专业设置人数限制进行统计数据。用户可以搜索了解数据与企业关系的模型,并利用这些信息,在MicrosoftSQLserver中,最重要的数据挖掘功能是处理大型数据集的能力创建一个有效的随机样本并运行随机样本的数据挖掘应用程序。MicrosoftSQLServer允许模型在整个数据集上运行,从而消除了采样挑战,这意味着该算法对所有数据都有效,不需要创建示例集,从而提高最相似的结果。本章小结本章首先介绍以用户为中心的处理模型,在开发数据挖掘系统时特别强调对用户与数据库的交互的支持,整合了整个分析理论中各个环节的需求,为后期数据挖掘和分析奠定了基础。第3章数据模型设计3.1数据获取在数据获取阶段,首先要模拟三个数据表结构,即录取专业信息表、专业就业数据统计表、专业设置表。获取某实施大类招生的学生成绩信息,通过综合整理提取对大类招生的专业推荐有价值的字段。专业数据排名如图3-1所示。图3-1专业数据排名数据来源:麦可思-中国2016~2018届大学毕业生培养质量跟踪评价。其中绿牌专业指的是失业量较小,就业率、薪资和就业满意度综合较高的专业,为需求增长型专业,行业需求增长是造就绿牌专业的主要因素[16]。表3-1专业就业数据统计表排名专业专业大类1软件工程工学2机械设计制造及其自动化工学3电子工程及其自动化工学4电子信息工程工学5计算机科学与技术工学6网络工程工学7自动化工学8建筑学工学9车辆工程工学10土木工程工学数据来源大学生必备网,数据分析时间2019年6月21日[17]。表3-2专业设置表专业名称学生数教师人数物联网工程493网络工程906数字媒体技术406软件工程947计算机科学与技术936依据图3-1专业数据排名、表3-1专业就业数据统计表、表3-2专业设置表,构建专业就业数据统计表,如表3-3所示。表3-3专业就业数据统计表专业排名(编号)专业专业类别1软件工程计算机类2网络工程计算机类3物联网工程计算机类4数字媒体技术计算机类5计算机科学与技术计算机类3.2数据预处理数据处理是一个重要的步骤,可以通过数据转换或数据格式的简化来组织数据进行数据挖掘。模拟来的数据是复杂的、由于所收集的数据包含大量的噪音,不完整的数据,相对于其他数据来说采集来的数据不完整,无法以此为前提为数据挖掘模型做准备,因此必须对数据对象进行预处理,这些在数据分析研究中提到的。在打开项目之前,必须清楚地确定其性质。虽然最后的挖掘结果是无法量化的,挖掘工作的最终结果是不可预知的,但是数据定位理论是数据分析和挖掘的基础。相对于来说数据提取算法的结果是不正确的。数据转换根据理解分析数据属性的需要构造新的属性,或者规范化数据以在特定的数据间隔内删除它们。选择和排序进入数据挖掘阶段,通过建立一个数据挖掘模型,并实现一个完整的知识形成的相应算法,一部分数据被用来建立模型,其余的数据被用来分析模型,有些是分散的,有些是连接的,有些是混杂的,所以有些数据在分类前需要进行预处理。数据处理方法:缺少值处理、清理记录、补偿数据差异、不处理。鉴于源数据.xls类型,根据数据预处理需求,数据处理主要都在Excel中完成,具体步骤如下:删除不相关的列:将学制、上课院次、班级名称、课程性质、课程属性、学时、学制、学分、备注列等都删去。添加替换列:添加列:录取专业、志愿一、志愿二、是否有证书。(1)录取专业:录取到哪一个专业,用专业代号1-5替换。(2)志愿一:在Excel表中按1-5排名值填充,可参与分类计算。(3)志愿二:在Excel表中按1-5排名值填充,可参与分类计算。(4)是否有证书:1代表有证书,0代表没有证书。3.3数据结构设计以学号、学分绩点、录取专业、专业排名为主要字段;加之以结合学生志愿进行数据结构的设计。专业排名表经过预处理之后的数据结构表如表3-4所示。表3-4数据表结构字段类型描述约束条件能否取空值学号Char区分学生属性Null否性别Int区分性别Null否序号Int序号属性Null否学分绩点Char学生成绩Null否录取专业Varchar专业分析Null否志愿一Int个人志愿一Null否志愿二Int个人志愿二Null否是否有证书Varchar有证书为1没有0Null否本章小结本章介绍了数据采集和预处理的过程,从完整性和准确性两个方面来讲,经过清洗后的数据更具有准确性,通过聚类算法的实现能更清楚的显示出数据分析实现的过程以及分类的规范性。第4章数据分析数据分析过程是本项目的关键环节。理顺分析思路,保证数据分析体系结构化。本章内容实现了聚类算法的全过程,包括构造数据训练集及测试集的输出。4.1分析准备分类问题是一个普遍存在的问题,其应用具有普遍性。4.1.1环境搭建1.环境搭建的第一步是在在visioalstdio下创建新的分析项目,连接所需要的数据库并建立新的分析服务项目,建立新项目后,应建立数据源并将其连接到源数据库。环境搭建界面分别如图4-1、4-2所示。图4-1创建数据源视图图4-2AnalysisServices启动界面打开SQLServer服务器代理,将导入的数据源MicrosoftExcel表与创建分析服务数据库表mydb服务器进行连接,连接好的模型实现数据分析的服务。数据库连接表如表4-3所示。图4-3数据库连接表4.1.2模型选择(1)聚类通过找到使背概率p(X|Y)最大的Y类来对测试数据集X进行分类。分类算法实现过程如图4-4所示。图4-4分类算法实现过程(2)预测预测是指根据两个或多个变量之间的相互依赖关系,然后进行估计或掌控的函数模型。实施程序本项目主要用了决策树、神经网络、贝叶斯、聚类分析模型进行专业推荐。根据各分类方法的结果对比,确定使用聚类模型进行分类预测。SSAS挖掘模型列表如图4-5所示图4-5SSAS挖掘模型预测模型的实现:第一步是通过训练集建立预测属性的函数模型,第二步在模型通过检验后进行预测和控制。分类模型实现过程如图4-6所示。图4-6分类模型实现过程4.2数据准备数据准备主要包括:数据降维、数据规约、数据清洗、文本清洗、数据离散化。(1)打开对象资源控制器,新建立一个名为mydb的数据库,将模拟好的数据导入该数据库表中。准备mydb数据库如图4-7所示。图4-7准备mydb数据库(2)以MicrosoftExcel表形式存储数据,window7操作系统Excel表形式97-2003。SQLServer2008导入和导出如图4-8所示。图4-8SQLServer导入和导出4.3分析过程分类问题是一个普遍存在的问题,其应用具有普通性。(1)由于专业推荐是二分类,所以首选为聚类分类模型,其次为了对比预测结果的准确性,对于同一数据源应用其他的挖掘模型进行分类预测。创建聚类分析的挖掘服务如图4-9所示。图4-9创建聚类分析的挖掘服务(2)打开解决目标内容,进入到“数据源视图”模板,分析将要预测的就业数据信息。创建数据源视图如图4-10所示。图4-10创建数据源视图(3)在接收到数据内容后,我们必须将数据集分为70:30的训练集和测试集进行相应的测试和估量,创建一个测试集如图4-11所示。图4-11创建测试集4.4输入数据以学号为主键,姓名、学分绩点、是否有证书、志愿一、志愿二为输入数据,录取专业为可预测数据实现数据的输入。输入制定数据如图4-12所示。图4-12指定输入数据4.5输出数据输出数据挖掘分类矩阵模型,输出数据如图4-13所示。图4-13输出数据4.6分析结果以SQLServer2008分析服务为分析工具,任何支持将AnalysisServices作为数据源的BI工具都可以访问其SSAS作为数据输入、分析和预测的基本框架。由数据挖掘提升图分析可以看出,专业分流统计和理想模型之间相关联性趋于吻合,故适用于聚类分析方法。分析结果如图4-14所示。图4-14分析结果本章小结本章实现了数据分析的全过程,包括数据准备,数据输入、输出以及分析结果实现。根据学生成绩和学生个人志愿推荐适合的专业,以实现专业分流的目标。第5章分析模型评估本章说明了对分析模型评估的检测,将依据预测值与预测的可信度排序,选择最好的模型,根据模型图显示模型的预测结果,然后根据预测模型的可信度进行特定值处理或指定可信度范围。5.1模型测试的概念模型测试是在分析模型中对模型实现分类比较的过程。以检测模型是否能够更好地分类,衡量模型的性能,并评价其是否能满足分类设计要求的过程。软件测试是指通过人工或测试程序对软件系统进行实施操作或测试的过程。必须核实其是否符合规定的要求,或确定预期结果与实际结果之间的差异。1.决策树(Decisiontree)该算法测试记录中输入列之间的关系。它使用这些列的值或性能来预测指定可预测列之间的关系。2.贝叶斯两个对立状态的简单计算是基于原始属性值,而不考虑原始属性值之间的关系。5.2模型测试将软件系统看成是一个系统的测试。包括对数据建模、数据预处理、数据分析各分析结构的测试。由建模过程会得出一系列的分析结果。测试计划进度表如表5-1所示。表5-1测试计划进度表序号测试活动计划开始时间计划结束时间实施者1制定测试计划2019.11.112019.11.12孙雪2编写测试用例2019.11.142019.11.15孙雪3选用测试用例2019.11.162019.11.17孙雪4系统测试2019.11.172019.11.19孙雪5生成测试结果表2019.11.202019.11.20孙雪提升图是比较每一个模型的百分比与总体数据准确度的百分比。提升图会比较每一个模型的预测准确度。提升计算:(在模型中的准确度/在模型中的笔数)/(总准确度/总笔数)×100%一个好的模型,提升应该在左边1.0要有好的起点,剩下的向右边高原上移动,然后在图形的右边向1.0迅速减弱。若模块没有提供任何消息,整个图会徘徊在1.0之间。当选择一个离散型的目标变量并指定一个目标值,则会得到标准的提升图,包含一条理想的预测正确曲线、一条随机猜测会得到的正确曲线,以及一条通过模型预测后可得到的正确曲线。(1)贝叶斯算法是在不考虑原始属性值之间关系的情况下,利用原始属性值计算两个相反的状态,导致其预测结果的狭窄性,不能实时预测分散或连接的值,但是只有二进制值,贝叶斯分类算法被用来测试数据预测的准确性,分类效果不明显。贝叶斯挖掘结构提升图如图5-1所示。图5-1贝叶斯挖
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 赤峰市中石化2025秋招面试半结构化模拟题及答案炼油设备技术岗
- 中国广电广州市2025秋招网络优化与维护类专业追问清单及参考回答
- 盐城市中石油2025秋招面试半结构化模拟题及答案炼油设备技术岗
- 国家能源黄冈市2025秋招网申填写模板含开放题范文
- 大唐电力承德市2025秋招笔试英语能力题专练及答案
- 淮安市中储粮2025秋招面试专业追问题库安全环保岗
- 2025年妇科治疗考试题及答案
- 2025年粮食粉尘培训试卷及答案
- 2025年电话礼仪考试题及答案
- 2025年美术知识考试试题及答案
- 第一讲-决胜十四五奋发向前行-2025秋形势与政策版本-第二讲-携手周边国家共创美好未来-2025秋形势与政策版本
- 学堂在线 现代生活美学-花香茶之道 章节测试答案
- 2.3 等腰三角形的性质定理(2)浙教版数学八年级上册学案
- 仿制药生物等效性试验设计崔一民-北京大学省公开课一等奖全国示范课微课金奖课件
- 部编版二年级语文上册全册教案(全册教学设计)
- DL∕T 502.26-2006 火力发电厂水汽分析方法 第26部分:亚铁的测定啉菲啰啉分光光度法
- TD/T 1065-2021 国土空间规划城市设计指南(正式版)
- 信息组织与信息构建课件
- 应急管理学院成立可行性方案
- 视频监控调取记录表
- 质量控制计划QCP
评论
0/150
提交评论