




已阅读5页,还剩11页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数 据 挖 掘 报 告目 录 一项目名称5二项目介绍5三项目工具51Microsoft Office Word62Microsoft Office Excel63Anaconda:6四数据文件预处理71.数据预处理方法:7(1)数据清理7(2)数据集成7(3)数据变换8(4)数据归约82.异常值的分析10(1)简单的统计量分析:10(2)箱型图分析10五数据分析121.绘制饼状图12六挖掘建模141算法实现过程:142.具体实现代码及过程15七数据挖掘过程16摘 要学生成绩是反映学校教学水平的第一手资料,这些数据可以为学校改进教育教学提供重要依据。然而,现阶段的学生成绩分析,多数还停留在较为原始的数据库管理和查询阶段,没有对学生的成绩进行横向和纵向的对比研究,也缺乏对各学科成绩之间内在联系的挖掘。为此,学校将数据挖掘技术与学校学生成绩分析管理系统相结合,通过分析和处理系统中大量的学生成绩数据,寻找潜在的规律及模式,促使学校更好地开展教学工作,提高教学质量。AbstractStudent achievement is the first-hand information reflecting the teaching level of a school. These data can provide an important basis for schools to improve education and teaching. However, at this stage, most of the studentsperformance analysis still stays in the relatively primitive stage of database management and query. There is no horizontal and vertical comparative study of students performance, nor is there any excavation of the internal links between the performance of various disciplines. Therefore, the school combines the data mining technology with the school student achievement analysis management system. By analyzing and processing a large number of student achievement data, the school seeks for potential rules and patterns, and promotes the school to better carry out teaching work and improve the quality of teaching.16一 项目名称大学物理,模拟电子技术和计算机组成原理成绩的关系分析二 项目介绍大学物理,是大学理工科类的一门基础课程,通过课程的学习,使学生熟悉自然界物质的结构,性质,相互作用及其运动的基本规律,为后继专业基础与专业课程的学习及进一步获取有关知识奠定必要的物理基础。但工科专业以力学基础和电磁学为主要授课。通过课程的学习,使学生逐步掌握物理学研究问题的思路和方法,在获取知识的同时,使学生拥有的建立物理模型的能力,定性分析、估算与定量计算的能力,独立获取知识的能力,理论联系实际的能力都获得同步提高与发展。开阔思路,激发探索和创新精神,增强适应能力,提升其科学技术的整体素养。通过课程的学习,使学生掌握科学的学习方法和形成良好的学习习惯,形成辩证唯物主义的世界观和方法论。计算机组成原理是计算机科学与技术专业的一门核心专业基础课。通过本课程的学习,使学生掌握计算机系统的基本组成、计算机中数据的表示方法、计算机各硬件部件的功能和工作原理等,为学生学习计算机专业课打下坚实的基础。三 项目工具系统:win10软件:office2010,anaconda1Microsoft Office WordMicrosoft Office Word是微软公司的一个文字处理器应用程序。Word给用户提供了用于创建专业而优雅的文档工具,帮助用户节省时间,并得到优雅美观的结果。一直以来,Microsoft Office Word都是最流行的文字处理程序。作为 Office 套件的核心程序, Word 提供了许多易于使用的文档创建工具,同时也提供了丰富的功能集供创建复杂的文档使用。哪怕只使用 Word 应用一点文本格式化操作或图片处理,也可以使简单的文档变得比只使用纯文本更具吸引力。2Microsoft Office ExcelMicrosoft Excel是Microsoft为使用Windows和Apple Macintosh操作系统的电脑编写的一款电子表格软件。直观的界面、出色的计算功能和图表工具,再加上成功的市场营销,使Excel成为最流行的个人计算机数据处理软件。在1993年,作为Microsoft Office的组件发布了5.0版之后,Excel就开始成为所适用操作平台上的电子制表软件的霸主。3Anaconda:Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。可以用于在同一个机器上安装不同版本的软件包及其依赖,并能够在不同的环境之间切换。Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等。四 数据文件预处理在数据挖掘中,海量的原始数据中存在着大量不完整、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、变换、规约等一系列的处理,该过程就是数据预处理。数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具。1.数据预处理方法:(1)数据清理数据清理例程通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来“清理”数据。主要是达到如下目标:格式标准化,异常数据清除,错误纠正,重复数据的清除。(2)数据集成数据集成例程将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。(3)数据变换通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。(4)数据归约数据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。 由于数据文件信息较多且有很多数据和本课题无关,为了减少资源和时间的浪费,所以在进行分析前先将excel表格进行删减和求和,优化数据,使数据更加直观便于分析。处理前数据如图4-1所示. 处理后数据如图4-2所示。图4-1表格数据处理前4-2处理后数据import pandas as pdcatering_sale=G:/scour.xlsxdata=pd.read_excel(catering_sale,index_col=u学生)print(data.describe()print(len(data)图4-3 数据初筛结果上图中Count 代表数量,Mean 代表均值,Std 代表标准差,Min 代表最小值,50% 代表中位数,Max 代表最大值。2.异常值的分析异常值是指样本中的个别值,也称为离群点,其数值明显偏离其余的观测值。异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问题进而改进决策的契机。异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称为离群点,异常值的分析也称为离群点分析。(1)简单的统计量分析:我们可以先对采集到的数据做一个描述性的估计,最常用的方法就是最大值与最小值.用来判断这个变量是否超出常规的人们的理解等。 (2)箱型图分析箱型图是判断是判断数据的异常值的最为直观的一个方法,他的异常值被定义为可能出现在上四分位数以上的部分与下四分位数以下的部分.当然,并不是说在这样的范围内的数都是异常值,但是可以肯定的是,异常值是一定在这里产生的。为了首先感知我们数据的基本情况,在Python的Pandas库中,只需要读入要处理的数据,然后使用describe()函数,就可以查看数据的基本情况.这里面涉及到数据的很多属性,比如说可以查看缺失值,最小值,最大值等。这里我们使用了箱型图分析,异常值检测代码如下:import pandas as pdcatering_sale=G:/scour.xlsxdata=pd.read_excel(catering_sale,index_col=u学生)import matplotlib.pyplot as pltplt.rcParamsfont.sans-serif=SimHeiplt.rcParamsaxes.unicode_minus=Falseplt.figure()p=data.boxplot(return_type=dict)x=pfliers0.get_xdata()y=pfliers0.get_xdata()y.sort()for i in range(len(x): if i0:plt.annotate(yi,xy=(xi,yi),xytext=(xi+0.05-0.8/(yi-yi-1),yi) else:plt.annotate(yi,xy=(xi,yi),xytext=(xi+0.08,yi)plt.show()得到的检查结果如下图2-6所示:4-6 异常值检测箱型图五 数据分析数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给出。数据分析的目的与意义数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。1.绘制饼状图饼状图显示一个数据系列(数据系列:在图表中绘制的相关数据点,这些数据源自数据表的行或列。图表中的每个数据系列具有唯一的颜色或图案并且在图表的图例中表示。可以在图表中绘制一个或多个数据系列。饼状图只有一个数据系列。)中各项的大小与各项总和的比例。饼状图中的数据点(数据点:在图表中绘制的单个值,这些值由条形、柱形、折线、饼状图或圆环图的扇面、圆点和其他被称为数据标记的图形表示。相同颜色的数据标记组成一个数据系列。)显示为整个饼状图的百分比。饼状图是以圆形代表研究对象的整体,用以圆心为共同顶点的各个不同扇形显示各组成部分在整体中所占的比例,要注明各扇形所代表的项目的名称(可用图例表示)及其所占百分比。饼状图可以比较清楚地反映出部分与部分、部分与整体之间的数量关系.易于显示每组数据相对于总数的大小.而且显现方式直观。为了使图中数据更加直观,这里使用饼状图,代码如下:import numpy as upimport matplotlib.mlab as mlabimport matplotlib.pyplot as pltplt.rcParamsfont.sans-serif=SimHeiplt.rcParamsaxes.unicode_minus=Falselabels=不及格,60-70,70-80,80-90,90-100X=9,17,7,2,0fig=plt.figure()plt.pie(X,labels=labels,autopct=%1.2f%)plt.title(大学物理1成绩分布图)所得到的饼状图为大学物理1,如下图5-1所示:图5-1物理成绩分布图按照以上方法,分别得到物理,组成原理,如下图5-2,图5-3,所示:图5-4组成原理成绩分布图六 挖掘建模本课题研究的是对大学物理各个分数段的人及格几率的预测,并通过数据检测,检测是否在计算机组成原理学习中存在困难,并及时给与提醒,根据数据挖掘分析。1算法实现过程:用代码5-1 求总的信息熵。手工测算高数1,高数2对于数据结构及格情况的条件熵。信息增益=总信息熵-条件熵。参考信息增益,用信息增益多的作根节点,画出最浅决策树。2.具体实现代码及过程(1)利用以下代码将ecxel表格导入listimport xlrd def creatData(): file = G:离散化.xlsx wb = xlrd.open_workbook(filename=file) ws = wb.sheet_by_name(离散化) data = for r in range(ws.nrows): col = for c in range(ws.ncols): col.append(ws.cell(r, c).value) data.append(col) labels = 物理, 计算机组成原理 return data, labels(2)利用以下代码计算信息熵from math import log def shannon_entropy(data): enteries=len(data) label_count= for v in data: current_label=v-3 if current_label not in label_count.keys(): label_countcurrent_label=0 label_countcurrent_label+=1 entropy=0.0 for key in label_count: prob=float(label_countkey)/enteries entropy-=prob*log(prob,2) return entropyif _name_ = _main_: data, features = creatData() print(data) print(shannon_
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度绿色茶园租赁与茶叶精制营销一体化服务合同
- 2025年环保型冷链物流仓储配送服务合同范本
- 高效节能型2025年商业综合体绿色建筑设计施工总承包合同
- 2025年多功能叉车研发与应用推广合作合同
- 2025年事业单位工勤技能-北京-北京政务服务办事员四级(中级工)历年参考题库含答案解析
- 2025年度农产品质量检测与国家标准执行监督服务合同
- 2025年环保设备性能保证合同:确保污水处理设备运行高效
- 2025年度航空航天复合材料研发与生产车间技术改造合同
- 2025年绿色节能城市综合体建设项目建材采购与施工管理合同
- 2025年智能家居用品批发、物流配送及个性化定制服务合同
- 西安26中小升初分班考试语文真题
- 2024年深圳技能大赛-电工职业技能竞赛理论考试题库-上(单选题)
- DB5104T 30-2020 康养旅居地康养民宿建设、服务与管理规范
- 2024光伏并网柜技术规范
- 梨状窝瘘的临床特征
- 品质异常检讨
- 《公路工程预算定额》(JTGT3832-2018)
- 商业综合体新旧物业交接方案
- 2024年甘肃省公务员录用考试《行测》真题及答案解析
- 人工智能教学实训综合应用平台需求说明
- (完整版)八年级上物理思维导图
评论
0/150
提交评论