大工19秋《数据挖掘》大作业题目及要求答案_第1页
大工19秋《数据挖掘》大作业题目及要求答案_第2页
大工19秋《数据挖掘》大作业题目及要求答案_第3页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大工 19 秋数据挖掘大作业题目及要求答案网络教育学院题目:题目一:Knn算法原理以及python实姓名:层次:专升本专业:计算机科学与技术Python 挖掘的认识等等,300-500 字。数据挖掘是指从大量的数据中通过一些算法寻找隐藏于其中重要实用信息 关联规则法等。在商务管理,股市分析,公司重要信息决策,以及科学研究方面都有十分重要的意义。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术,从大量数据中寻找其肉眼难以发现的规律,和大数据联系密切。如今,数据挖掘已经应用在很多行业里, 对人们的生产生活以及未来大数据时代起到了重要影响。第二大题:完

2、成下面一项大作业题目。19 19 秋数据挖掘大作业题目及要求答案2019 秋数据挖掘课程大作业注意:从以下 5 个题目中任选其一作答。题目一:Knn算法原理以及python实现要求:文档用使用word撰写即可主要内容必须包括:算法介绍。算法流程。pythonword1014100139791VIP )答:KNN 算法介绍KNN间的距离,然后选取K(K=1或者回归。若K=1,新数据被简单分配给其近邻的类。KNN 算法实现过程已知类别数据集中的数据点的距离;kk对于回归则返回k 个点的加权值作为预测值;算法关键数据的所有特征都要做可比较的量化离计算。样本特征要做归一化处理scale特征的数值都采取

3、归一化处置。需要一个距离函数以计算两个样本之间的距离确定KK值。KNN 分类时将Kd1/dkKNN 回归KNN 回归是取K 个邻居类标签值得加权作为新数据点的预测值。优缺点KNN1.简单、有效。2Web3大)。4.KNN5些样本容量较小的类域采用这种算法比较容易产生误分。KNN1.KNN 算法是懒散学习方法(lazy learning一些积极学习的算法要快很多。2.3.输出的可解释性不强,例如决策树的可解释性较强。大工 19 秋数据挖掘大作业题目及要求答案4.该算法在分类时有个主要的不足是,当样本不平衡时,如一K并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居5剪辑,事先去除对分类

4、作用不大的样本。KNN 实现函数Create_DataSet右上角分类为A。下面函数classify0,计算向量inXn_estimatorslabel19 19 秋数据挖掘大作业题目及要求答案dataSet.shape(dataSet返回对应行数,shape1返回对应列数。inXdataSetinX 列数与dataSet素列数相同, 所以需要将其行数进行扩展, (dataSetSize,1)将inXdataSetSize1应dataSetinXdistances.argsort() 将距离按从小到大排列,并返回索引。例如distance = distance.argsort()1,3,2 。

5、返回索引是为了找到对应的labelforn_estimatorslabelkeylabel,key_valueoperator.itemgetteroperatoritemgetter a = 1,2,31b1 个 域 和 第 0 。 注 意operator.itemgettersortedPythonsortedlistiterablelist数或者lambdastudentslist,每个成员有三sortedcmp,students=john,A,15),B, 12),B, 10),sorted(students, key=lambda student : student2),key 为函

6、数,指定取待排序元素的哪一项进行排序,keylambdastudentsortedstudents ,例如要根据第二个域和第三个域进行排序; sorted(students, key=operator.itemgetter(1,2)即先跟句第二个域排序 ,再根据第reversebool降序排列,默认为falseTruesortkey_value即对应label元组第一个元素对应 label , 第二个元素对应 label 个数。sortedClassCount00即返回labelinX大工 19 秋数据挖掘大作业题目及要求答案label。下面测试一个简单的向量:输出为file2matrixtxt阵。test.txt 格式为最后一列为labelargeDosesmallDoses或didntLiktlabel3、2、1。转换函数如下:大工 19 秋数据挖掘大作业题目及要求答案readline1上述函数即返回属性集矩阵和类标号列表。(datain-min_val)/ (max_val - min_val0-1。返回归一化以后的属性集。即可进行距离运算并分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论