数据挖掘报告

上传人：简*** IP属地：湖北上传时间：2020-03-31 格式：DOC 页数：18 大小：109.50KB 积分：9.6 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 摘要数据挖掘技术可以在浩瀚的数据中进行统计分析综合推理发现数据内部关联并作出预测提供数据信息为决策提供辅助支持目前数据挖掘技术已经广泛应用在商业领域同样可以将数据挖掘技术与国家教育项目相结合对项目中的各类数据信息进行挖掘分析提取隐藏的数据信息为项目开发部门提供决策依据进一步提高项目的科学性和高效性本文结合自身参与教育部指定的关于城市集群竞争力项目的实践经验分析数据挖掘技术在国家教育项目中应用的可行性并以此为例采用 JAVA 语言编写实现 KNN 算法在项目实施方案中以城市集群的数据为基础完成数据挖掘的全过程确定数据挖掘的对象和目标数据清理和预处理对某个指标缺失的数据引入神经网络方法进行预测填补对缺失较多的数据引入对比和类比的方法进行预测填补采用 KNN 算法实现数据分类形成指标体系利用数据挖掘的结果通过对指标数据的分析预测决定城市集群竞争力的主要因素从而为今后城市集群的发展方向和职能定位提供参考为城镇体系的总体发展指明方向为提高我国城市集群整体经济实力和综合竞争力提供一些有益的建议和对策促进成熟集群向一体化方向发展同时也可以为国内其他城市集群的发展提供给一些有益的参考关键词数据挖掘 KNN 算法数据分类 JAVA 城市集群竞争力 2 目录摘要 1 目录 2 第一章绪论 2 1 1 研究背景和研究意义 2 第二章数据挖掘技术的研究 4 2 12 1 数据挖掘的功能数据挖掘的功能 4 4 2 22 2 数据挖掘的对象数据挖掘的对象 6 6 2 32 3 数据挖掘的过程数据挖掘的过程 7 7 2 42 4 数据挖掘算法数据挖掘算法 9 9 第三章 KNN 算法介绍与实现 10 3 13 1 KNNKNN 算法介绍算法介绍 1010 3 23 2 KNNKNN 算法的算法的 JAVAJAVA 实现实现 1212 第四章总结 17 3 第一章绪论 1 1 研究背景和研究意义 1 研究背景随着信息社会的发展计算机技术和数据库管理系统的应用产生了大量的数据信息数据库存储的数据量也在日益增长但对于此数据却是数据丰富信息贫乏人们迫切需要从此类数据中获取信息即将此类数据转换成有用的信息和知识并且被广泛应用于事物管理信息检索和数据分析中这种需求导致了对数据分析工具的需求扩大数据挖掘技术就是在此信息技术发展下产生的数据挖掘 Data Mining 就是从大量的不完全的有噪声的模糊的随机的实际应用数据中提取隐含在其中的人们事先不知道的但又是潜在有用的信息和知识的过程数据挖掘涉及多学科技术的集成包括数据库技术统计学机器学习高性能计算模式识别神经网络数据可视化信息检索图像与信号处理和空间数据分析等数据挖掘技术在商业等赢利性领域中已经取得了广泛的应用但在高校政府等非赢利组织的应用并不广泛结合自身参与项目的经验利用数据挖掘技术快速而又准确的从浩瀚的数据资源中提取出所需信息从而在实际应用中将管理信息转化为可供决策使用的知识这不仅具有理论价值更具有极大的现实意义 2 研究意义本文利用数据挖掘的结果通过对指标数据的分析预测决定城市集群竞争力的主要因素从而为今后城市集群的发展方向和职能定位提供参考为城镇体系的总体发展指明方向为提高我国城市集群整体经济实力和综合竞争力提供一些有益的建议和对策促进成熟集群向一体化方向发展同时也可以为国内其他城市集群的发展提供给一些有益的参考 4 第二章数据挖掘技术的研究 2 1 数据挖掘的功能数据挖掘的功能用于指定数据挖掘任务中要找的模式类型数据挖掘任务一般分为两类描述和预测描述性挖掘任务记录数据库中数据的一般特性预测性挖掘任务在当前数据上进行推断以及预测数据挖掘功能以及他们可以发现的模式类型为一概念描述数据可以与类或概念相关联用汇总的简洁的精确的方式描述每个类或概念概念描述就是产生数据特征化和比较的描述数据特征化是目标类数据的一般特征或特性的汇总通常用户指定类的数据通过数据库查询收集数据特征的输出可以用多种形式提供包括饼图条图曲线多维数据立方体和包括交叉表在内的多维表结果描述也可以用概化关系或规则形式数据区分是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较目标类和对比类由用户指定而对应的数据通过数据库查询检索输出的形式类似于特征描述但区分描述应当包括比较度量帮助区分目标类和对比类用规则表示的区分描述成为区分规则二关联分析关联分析发现关联规则这些规则展示属性值频繁地在给定数据集中一起出现的条件即两个或两个以上数据项的取值之间存在某种规律性就称为关联可以建立起这些数据项的关联规则关联分析广泛用于购物篮或事务数据分析包含单个谓词的关联规则称作单维关联规则在多个属性或谓词之间的关联采用多维数据库每个属性称为一维则此规则称作多维关联规则数据关联是数据库中存在的一类重要的可被发现的知识它反映一个事 5 件和其他事件之间依赖或关联如果两项或多项属性之问存在关联那么其中一项的属性值就可以依据其他属性值进行预测在大型数据库中关联规则可以产生很多这就需要进行筛选一般用支持度和可信度两个阈值来淘汰那些无用的关联规则三分类和预测分类是指找出描述并区分数据类或概念的模型或函数以便能够使用模型预测类标记未知的对象类分类是数据挖掘中应用得最多的任务分类就是找出一个类别的概念描述并用这种描述来构造模型可采用多种形式如分类规则判定树数学公式或神经网络等导出模型对训练数据集即其类标记已知的数据对象的分析分类可以用来预测数据对象的类标记然而在某些应用中人们可能希望预测某些空缺的或不知道的数据值而不是类标记当被预测的值是数值数据时通常称之为预测预测是利用历史数据找出变化规律建立模型并由此模型对未来数据的种类及特征进行预测典型的预测方法是回归分析即利用大量的历史数据以时间为变量建立线性或非线性回归方程预测时只要输入任意的时间值通过回归方程就可求出该时间的状态尽管预测可以涉及数据值预测和类标记预测通常预测限于值预测并因此不同于分类预测也包含基于可用数据的分布趋势识别在分类和预测之前可能需要进行相关分析它试图识别对于分类和预测无用的属性并排除四聚类分析与分类和预测不同聚类 clustering 分析数据对象而不考虑已知的类标记一般情况下训练数据中不提供类标记因为不知道从何开始聚类可以用于产生这种标记对象根据最大化类内的相似性最小化类问的相似性的原则进行聚类或分组即对象的簇聚类这样形成使得在一个簇中的对象具有很高的相似性而与其他簇中的对象很不相似所形成的每个簇可以看作一个对象类由它可以导出规则聚类也便于分类编制将观察到的内容组织成类分层结构把类似的事件组织在一起五异常分析 6 数据中可能包含一些数据对象他们与数据的一般行为或模型不一致这些数据对象是异常的大部分数据挖掘方法将异常数据视为噪声而丢弃异常分析就是探测和分析那些不符合数据的一般模型的数据对象并对其建模然而在一些应用中如欺骗检测罕见的事件可能比正常出现的那些更有趣称作孤立点挖掘六演变分析数据演变分析描述行为随时间变化的对象的规律或趋势并对其建模尽管这可能包括时间相关数据的特征化区分关联分类或聚类这类分析的不同特点包括时间序列数据分析序列或周期模式匹配和基于类似性的数据分析 2 2 数据挖掘的对象关系数据库系统广泛地用于商务应用随着数据库技术的发展出现了各种高级数据库系统以适应新的数据库应用需要新的数据库应用包括处理空间数据如地图工程设计数据如建筑设计系统部件集成电路超文本和多媒体数据包括文本影象图象和声音数据时间相关的数据如历史数据或股票交易数据和 WWW 通过 Internet 可以使巨大的广泛分布的信息存储依据不同的数据类型数据挖掘的对象包括以下几种一关系数据库当数据挖掘用于关系数据库时可以进一步搜索趋势或数据模式例如数据挖掘系统可以分析顾客数据根据顾客的收人年龄和以前的信用信息预测新顾客的信用风险数据挖掘系统也可以检测偏差如与以前的年份相比哪种商品的销售出入预料这种偏差可以进一步考察例如包装是否有变化或价格是否大幅度提高关系数据库是数据挖掘最流行的最丰富的数据源因此它是我们数据挖掘研究的主要数据形式二数据仓库一般数据仓库用多维数据库结构建模数据仓库的实际物理结构可以是 7 关系数据存储或多维数据立方体它提供数据的多维视图并允许预计算和快速访问汇总的数据通过提供多维数据视图和汇总数据的预计算数据仓库非常适合联机分析处理 OLAP OLAP 允许在不同的抽象层提供数据同时允许用户在不同的汇总级别观察数据三事务数据库一般地说事务数据库由一个文件组成其中每个记录代表一个事务事物数据库可有一些相关联的附加表事务可以存放在表中由于大部分关系数据库系统不支持嵌套关系结构而记录数据为一个嵌套关系使用事务数据库通常存放在一表格式的展开文件中或展开到类似的标准关系中当需要识别频繁的事物之间的关联时即可采用通过事务数据的数据挖掘系统四文本数据库文本数据库是包含对象文字描述的数据库通常这种词描述不是简单的关键词而是正片文档文本数据库可能是高度非结构化的如 www 页半结构化的如 email 或结构化的如图书馆数据库文本数据库上的数据挖掘可以发现对象类的一般描述以及关键字或内容的关联和文本对象的聚类行为为做到这一点需要将标准的数据挖掘技术与信息检索技术和文本数据特有的层次构造如字典和辞典以及面向学科的如化学医学法律或经济术语分类系统集成在一起五多媒体数据库多媒体数据库存放图象音频和视频数据它们用于基于图象内容的检索声音传递视频点播 www 和识别口语命令的基于语音的用户界面等方面多媒体数据库必须支持大对象如视频这样的数据对象可能需要兆字节级的存储还需要特殊的存储和搜索技术因为视频和音频数据需要以稳定的预先确定的速率实时检索防止图象或声音间断和系统缓冲区溢出因此这种数据称为连续媒体数据对于多媒体数据库挖掘需要将存储和搜索技术与标准的数据挖掘方法集成在一起有前途的方法包括构造多媒体数据立方体多媒体数据的多特征提取和基于相似性的模式匹配 8 2 3 数据挖掘的过程数据挖掘的过程实际是一个数据库知识的发现过程依据发现过程可以分为以下几个步骤执行一确定挖掘目标清晰明确的定义出问题认清数据挖掘的最终业务目标一般来说目标可以是关联规则发现数据分类回归聚类数据汇总概念描述相关分析建模或误差检测及预测或综合应用等二数据准备在数据准备阶段又可以进一步细分为三步数据集成数据选择和预处理数据变换和压缩 1 数据集成选择一个数据集或针对一个变量或数据样本的子集在这个集合上进行挖掘此时应考虑如何选取同类的数据考虑过程中的动态情况和变化采样策略样本是否足够自由度和其他一些问题 2 数据选择和预处理考虑如何正确去除噪声模型或解决噪声问题决定采取何种策略去解决丢失的数据或数据库设计不完善带来的问题以及解决时间序列信息和正确标准化等问题 3 数据变换和压缩根据任务的目标查找有用的特性来表示数据利用空间压缩或变换的方法来减少要考虑的有效数目或找到数据的不变表示一般方法把数据投影到某个空间上以利于问题解决三数据挖掘 1 选择数据挖掘方法根据数据库知识发现过程的目标选择相应的数据挖掘方法如统计分析机器学习模式识别方法和人工神经元方法等 2 选择数据挖掘算法选择用来查找模式或符合数据的模型的算法确定合适的模型和参数另外数据挖掘方法必须和目标相匹配 3 数据挖掘查找感兴趣的模式模式一般表示为一种特殊的形式或一套表达式如关联规则分类规则或分类树回归结构和聚类集等四评估与表示 9 1 结果表达尽量直观地表示挖掘结果便于用户理解和使用可利用可视化方法表示为图表等形式 2 结果评价筛选和评价挖掘结果中的有用部分查找可接受的结果可定义兴趣度指标考虑结果的正确度新颖度有用性和简单性把知识从输出中过滤出来利用可视化方法帮助用户决定所提取知识的有效性和对基本的数据或现象做出结论 3 知识巩固把挖掘出的知识结合到执行系统中了解这些知识的作用或证明这些知识用预选知识且可信的知识来检查和验证所挖掘的知识解决可能存在的矛盾也可以只是简单地记录所挖掘出的知识并把它报告给用户由用户进一步分析 2 4 数据挖掘算法数据挖掘的核心部分就是数据挖掘算法设计数据挖掘算法的方法很多不同的方法服务于不同的目标每种方法都有自己的优缺点因此一个功能全面的数据挖掘系统应该综合利用各种不同的方法常用的数据挖掘算法主要包括 1 决策树方法利用信息论中的信息增益寻找数据库中具有最大信息量的字段建立决策树的一个结点再根据字段的不同取值建立树的分支在每个分支子集中重复建立树的下层结点和分支的过程 2 神经网络方法是一组连接的输入输出单元其中每个连接都与一个权相联在学习阶段通过调整神经网络的权使得能够预测输入样本的正确类标号来学习由于单元之间的连接神经网络学习又称连接者学习 3 遗传算法是一种优化技术试图结合自然进化的思想基于达尔文的进化论中基因重组突变和自然选择等概念利用生物进化的一系列概念进行问题的搜索最终达到优化的目的 4 KNN 算法是一种理论上比较成熟的分类和回归算法该方法定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别 10 5 粗糙集方法可以用于分类发现不准确数据或噪声数据内在的结构联系它用于离散值属性粗糙集理论基于给定训练数据内部的等价类的建立形成等价类的所有数据样本是不加区分的即对于描述数据的属性这些样本是等价的 6 模糊集方法利用模糊集合理论对实际问题进行模糊判断模糊决策模糊模式识别等对于数据挖掘系统进行分类模糊逻辑是有用的它提供了在高抽象层处理的便利第三章 KNN 算法介绍与实现 3 1 KNN 算法介绍通过参与城市集群竞争力项目的实践结合自己所学的 JAVA 语言为了更好的利用 KNN 算法实现项目数据的分类和预测采取了用 JAVA 语言编写和改进 KNN 算法的方式 1 KNN 的优缺点优点原理简单实现起来比较方便支持增量学习能对超多边形的复杂决策空间建模缺点计算开销大需要有效的存储技术和并行硬件的支撑 2 KNN 算法原理基于类比学习通过比较训练元组和测试元组的相似度来学习将训练元组和测试元组看作是 n 维若元组有 n 的属性空间内的点给定一条测试元组搜索 n 维空间找出与测试元组最相近的 k 个点即训练元组最后取这 k 个点中的多数类作为测试元组的类别 11 相近的度量方法用空间内两个点的距离来度量距离越大表示两个点越不相似距离的选择可采用欧几里得距离曼哈顿距离或其它距离度量多采用欧几里得距离 3 KNN 算法中的细节处理数值属性规范化将数值属性规范到 0 1 区间以便于计算也可防止大数值型属性对分类的主导作用可选的方法有 v v vmin vmax vmin 当然也可以采用其它的规范化方法比较的属性是分类类型而不是数值类型的同则差为 0 异则差为 1 有时候可以作更为精确的处理比如黑色与白色的差肯定要大于灰色与白色的差缺失值的处理取最大的可能差对于分类属性如果属性 A 的一个或两个对应值丢失则取差值为 1 如果 A 是数值属性若两个比较的元组 A 属性值均缺失则取差值为 1 若只有一个缺失另一个值为 v 则取差值为 1 v 和 0 v 中的最大值确定 K 的值通过实验确定进行若干次实验取分类误差率最小的 k 值对噪声数据或不相关属性的处理对属性赋予相关性权重 w w 越大说明属性对分类的影响越相关对噪声数据可以将所在的元组直接 cut 掉 4 KNN 算法流程准备数据对数据进行预处理选用合适的数据结构存储训练数据和测试元组设定参数如 k 维护一个大小为 k 的的按距离由大到小的优先级队列用于存储最近邻训练元组 12 随机从训练元组中选取 k 个元组作为初始的最近邻元组分别计算测试元组到这 k 个元组的距离将训练元组标号和距离存入优先级队列遍历训练元组集计算当前训练元组与测试元组的距离将所得距离 L 与优先级队列中的最大距离 Lmax 进行比较若 L Lmax 则舍弃该元组遍历下一个元组若 L Lmax 删除优先级队列中最大距离的元组将当前训练元组存入优先级队列遍历完毕计算优先级队列中 k 个元组的多数类并将其作为测试元组的类别测试元组集测试完毕后计算误差率继续设定不同的 k 值重新进行训练最后取误差率最小的 k 值 5 KNN 算法的改进策略将存储的训练元组预先排序并安排在搜索树中如何排序有待研究并行实现部分距离计算取 n 个属性的子集计算出部分距离若超过设定的阈值则停止对当前元组作进一步计算转向下一个元组剪枝或精简删除证明是无用的元组 3 2 KNN 算法的 JAVA 实现 1 JAVA 代码 package KNN KNN 结点类用来存储最近邻的 k 个元组相关的信息 public class KNNNode private int index 元组标号 private double distance 与测试元组的距离 private String c 所属类别 public KNNNode int index double distance String c super this index index this distance distance this c c 13 public int getIndex return index public void setIndex int index this index index public double getDistance return distance public void setDistance double distance this distance distance public String getC return c public void setC String c this c c package KNN KNN 算法主体类 import java util ArrayList import java util Comparator import java util HashMap import java util List import java util Map import java util PriorityQueue public class KNN 设置优先级队列的比较函数距离越大优先级越高 private Comparator comparator new Comparator public int compare KNNNode o1 KNNNode o2 if o1 getDistance o2 getDistance return 1 else return 0 获取 K 个不同的随机数 14 param k 随机数的个数 param max 随机数最大的范围 return 生成的随机数数组 public List getRandKNum int k int max List rand new ArrayList k for int i 0 i k i int temp int Math random max if rand contains temp rand add temp else i return rand 计算测试元组与训练元组之前的距离 param d1 测试元组 param d2 训练元组 return 距离值 public double calDistance List d1 List d2 double distance 0 00 for int i 0 i d1 size i distance d1 get i d2 get i d1 get i d2 get i return distance 执行 KNN 算法获取测试元组的类别 param datas 训练数据集 param testData 测试元组 param k 设定的 K 值 return 测试元组的类别 public String knn List List datas List testData int k PriorityQueue pq new PriorityQueue k comparator List randNum getRandKNum k datas size for int i 0 i k i int index randNum get i List currData datas get index String c currData get currData size 1 toString KNNNode node new KNNNode index calDistance testData currData 15 c pq add node for int i 0 i datas size i List t datas get i double distance calDistance testData t KNNNode top pq peek if top getDistance distance pq remove pq add new KNNNode i distance t get t size 1 toString return getMostClass pq 获取所得到的 k 个最近邻元组的多数类 param pq 存储 k 个最近近邻元组的优先级队列 return 多数类的名称 private String getMostClass PriorityQueue pq Map classCount new HashMap for int i 0 i pq size i KNNNode node pq remove String c node getC if classCount containsKey c classCount put c classCount get c 1 else classCount put c 1 int maxIndex 1 int maxCount 0 Object classes classCount keySet toArray for int i 0 i maxCount maxIndex i maxCount classCount get classes i return classes maxIndex toString 16 package KNN KNN 算法测试类 import java io BufferedReader import java io File import java io FileReader import java util ArrayList import java util List public class TestKNN 从数据文件中读取数据 param datas 存储数据的集合对象 param path 数据文件的路径 public void read List List datas String path try BufferedReader br new BufferedReader new FileReader new File path String data br readLine List l null while data null String t data split l new ArrayList for int i 0 i t length i l add Double parseDouble t i datas add l data br readLine catch Exception e e printStackTrace 程序执行入口 public static void main String args TestKNN t new TestKNN String datafile new File getAbsolutePath File se

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据挖掘报告

文档简介

温馨提示

最新文档

评论

数据挖掘报告

文档简介

温馨提示

最新文档

评论

相关文档