创智数据挖掘平台手册.docx_第1页
创智数据挖掘平台手册.docx_第2页
创智数据挖掘平台手册.docx_第3页
创智数据挖掘平台手册.docx_第4页
创智数据挖掘平台手册.docx_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、创智数据挖掘平台手册1、平台描述创智数据挖掘平台是一个基于Hadoop2和Mahout开发的数据挖掘平台,用于为客户提供公共挖掘算法服务。目前平台己支持推荐、聚类、分类算法,能支持常用大数据挖掘的服务。平台作为在服务端运行的一个服务,将有关数据挖掘方面的运算放在了服务端的集群上运行,仅将最终结果返回给用户的客户端。因此为用户在只拥有少量运算和存储资源的客户端上提供了大数据挖掘的可能。平台与用户的客户端之间仅通过消息进行通讯,极大程度上降低了客户端和服务端之间的耦合,使客户端几乎不会感知到服务端集群的扩展和更新。2、平台架构平台设计分为接口层、业务逻辑层、数据层,架构图如下:平台设计分为接口层、

2、业务逻辑层、数据层,架构图如下:客户端故抠挖拐任务及布1客户端哉*户玲故&。诙2挖拇乎台13心中心平台戈挣院接口层用于与客户端进行消息交互。目前平台采用Rest消息格式,消息参数支持Json格式。业务逻辑层是平台进行消息调度、系统资源监控、实现数据挖掘运算和进行用户管理的地方,平台需要扩展新的数据挖掘算法的时候,也是在这一层加入新算法。数据层用于持久保存数据,包括用户提交的原始数据、作为挖掘运算输入的预处理数据以及挖掘运算的结果。目前数据保存在Hadoop2的HDFS文件系统中,今后将支持数据保存到HBase非关系型数据库以及Oracle等关系型数据库中。3、平台已支持的算法目前平台己支持推荐

3、、聚类、分类三类共六个数据挖掘算法,算法如下表描述:算法分类算法名称算法介绍推荐算法协同过滤算法(DistributedItem-Based)属于推荐算法的一种,根据用户己有的信息推算出用户可能会感兴趣的信息。比如根据用户在超市的购买记录推算出该用户可能会对其他感兴趣的商品,并将这些商品推荐给该用户。FP树挖掘算法(FPTree)属于推荐算法的一种,用于从大量数据集中发现有价值的项目之间的关联。比如超市商家从产品销售信息里找出一种产品的销量会带动其他哪些产品的销量。支持分布式计算。聚类算法Canopy算法属于聚类算法的一种,用于将一组未分类的数据分成多组相似的数据,该算法不需要指定分成多少组数

4、据,适合对数据了解较少的情况。支持分布式计算。K-Means算法属于聚类算法的一种,与Canopy算法一样用于将一组数据分成多组相似的数据,该算法区分结果更精确,但需指定分组数量,这在一定程度上限制了算法的使用。平台调用K-Means算法时将分为两步,第一步调用Canopy算法计算出聚类中心(分组)个数,第二步再调用K-Means算法,有效提高了运算效率。支持分布式计算。支持分布式计算。分类算法贝叶斯算法(Bayesian)统计学分类算法,是一种根据已有数据的分类信息来将新数据归类的算法,分类准确率高,速度快,通常用于数据预测方向。支持分布式计算。随机森林算法(RandomForests)分类

5、算法的一种,通过创建决策树的方式来根据现有数据的分类信息将新数据归类,优点是即使有很大一部分数据遗失,该方法仍然能比较准确的实现数据分类。通常也用于数据预测。支持分布式计算。4、平台使用为减少平台与客户端之间的耦合,平台仅支持通过Rest消息与客户端进行通讯,不需要向用户提供sdk开发包。所有的交互均通过异步Rest消息实现,消息格式为:消息类型消息格式消息说明数据挖掘消息ip:8080/DMP/rest/DMPImplService/dm/消息名称/消息参数用于调用对应的数据挖掘算法数据使用消ip:8080/DMP/rest/DMPImplService/query/用于获取挖掘结果,需要该

6、预处息消息名称/消息参数理数据已执行过对应的数据挖掘算法并己经产生了挖掘结果数据分类消息ip:8080/DMP/rest/DMPImplService/classify/消息名称/消息参数仅分类算法提供,用于根据己有分类结果将新数据归类平台调用挖掘算法的方式首先是通过接口将数据保存到平台。因为用户对数据要求各不相同,因此平台暂时没有提供数据预处理的处理,这需要用户先将数据预处理后再保存到平台,作为算法的输入数据,然后再调用挖掘算法消息进行计算。由于目前平台数据输入接曰尚未实现,因此目前平台主要是通过Ftp方式将预处理数据存放到平台。预处理数据存放到平台后,就可以开始挖掘算法调用了。平台各个挖掘

7、算法使用方式如下:算法名称消息名称和参数消息使用说明协同过滤算法(DistributedItem-Based)/dm/dib/ds&(para)协同过滤算法调用接口,用于启动推荐该推荐算法ds-需要运算的预处理数据,名字就是预处理数据所在的文件央路径para-协同过滤算法参数/query/dib/(ds&(numRec|&userFeature)&userStart&userStop协同过滤算法挖掘结果获取ds-需要获取的预处理数据集名称numRec-每条记录推荐的物品个数userFeature-用户特征(包含指定名字的用户)userStart-起始用户号(从0开始)userStop-结束用户

8、号(包含该下标的用户)FP树挖掘算法(FPTree)/dm/fp/(ds)¶FP树挖掘算法调用接口ds-需要运算的预处理数据,名字同预处理数据所在的文件夹路径para-算法参数/query/fp/(ds)&(numRe1ation&feature)&(type)&numRecordersFP树挖掘算法挖掘结果获取ds-需要获取的预处理数据集名称nuniRelation-每条记录返回的关联组个数,-1表小全部feature-记录特征(选取记录的Key的包含了指定字符串的记录),NULL表示参数为空type-返回记录方式,ALL|MAX|MIN(ALL-返问全部关联信息,此时numRela

9、lion不起作用;MAX-从关联度最大的开始返回;MIN-从关联度最小的开始返回)numRecorders返叵1记录条数Canopy算法/dm/canopy/ds¶Canopy算法调用接口ds-需要运算的预处理数据,名字同预处理数据所在的文件夹路径para-算法参数/query/canopy/ds¶mCanopy算法挖掘结果获取ds-需要获取的预处理数据集名称paraM查询参数,格式为:-op:true/false,-cn:聚类中心名称,p:true/falseop表示是否只查询聚类中心点,默认为真;-cn为null时表示查询全部聚类中心;-op为false时,查询聚类中心全匹

10、配设定字符串的类别下的所有记录,-op为nie时,查询聚类中心全匹配设定字符串的聚类中心;-P表示是否返回记录属性,默认为false;K-Means算法/dm/kmcans/ds)¶1¶2K-Means算法调用接口ds-需要运算的预处理数据,名字同预处理数据所在的文件夹路径paral-用来计算聚类中心个数的Canopy算法的参数paral-K-Means算法的参数/query/kmeans/(ds¶mK-Means算法挖掘结果获取ds-需要获取的预处理数据集名称para查询参数,格式为-op:true/false,cn:聚类中心名称,-p:lrue/false-op表示

11、是否只查询聚类中心点,默认为真;-cn为null时表示查询全部聚类中心;-op为false时,查询聚类中心全匹配设定字符串的类别下的所有记录,-op为true时,查询聚类中心全匹配设定字符串的聚类中心;-P表示是否返回记录属性,默认为false;贝叶斯算法(Bayesian)/dm/bayes/ds)¶3贝叶斯算法调用接口ds-需要运算的预处理数据,名字同预处理数据所在的文件夹路径para3-算法参数/classify/bayes/model&ds)贝叶斯算法分类新数据消息,这条消息在调用贝叶斯挖掘算法后调用,作用是根据挖掘算法结果来分类新数据model-已按贝叶斯算法分类的数据集名称ds-待分类的数据集名称/query/bayes/ds&nstart&nstop贝叶斯算法挖掘结果获取ds-需要获取的数据集名称nstart-待查询的数据起始行,如果该项值为0,表示从最开始查询nstop-待查询的数据结束行,如果该项值为0,表示一直查到分类结果结束随机森林算法(RandomForests)/dm/rf/(ds&pdesc)&(pbuild随机森林算法调用接口ds-需要运算的预处理数据,名字同预处理数据所在的文件夹路径pdesc-输入生成描述文件的参数pbuild-输入建立随机森林模型的参数/classify/rf/(model&ds随机森林算法分类新数据消息,这条消息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论