星环科技-用户操作手册_第1页
星环科技-用户操作手册_第2页
星环科技-用户操作手册_第3页
星环科技-用户操作手册_第4页
星环科技-用户操作手册_第5页
已阅读5页,还剩92页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

引 .....................................2.....................................2.....................................2 简 Midas介 Quick MidasQuickStart- MidasQuickStart- 前期准 ................................................................................18写 数据预处 分 回 聚 深度学 统计相 系 关联规 验证与评 实用工 自定 端口解 客户服 免本说明书依据现有信息制作,其内容更改,恕不另行通知。星环信息科技()有限公司在编写该说明书的时候已尽最大努力保证期内容准确可靠,但星环信息科技(海)不对本说明遗漏、确或印刷错误导致的损失和损害承担责任。具体产品使用请以实际使用为准注释:Hadoop®和SPARK®是ApacheTM在 商标。Java®是Oracle公司在和其他国家的商标或 的商标。In 和Xeon®是英特尔公司在、中国和其他国家的商标 的商标©2013年-2016年星环信息科技()。保留所利。©星环信息科技() 修改权。本说明书的归星环信息科技()所有。未得到星环信息科技()的,任何人不得以任何方式或形式对本说明书内的任何部分进行、摘录、备份、修改、、翻译成其他语言、或将其全部或部分用于商修订历史日版说作2016-08-2016-12-2017-1-

为MidasV2.0。1SupportVector2客户端PCUbuntuApplejava环境要OracleJRE7Midas QuickMidasQuickStart-在算子视图中本地文件夹中找到数据算子,双击该算子或者左键拖拽该算子,可将数据添加到流程视图中,可以看到需要输入一个repositoryentry ,这里选择在添加了数据库连接(添加数据库连接可查看charp4Midas详细使用说明)在简介中对Midas有了初步了解,下面详细说明Midas的具体操作(仅包含的算子操作)。在Midas→midas服务器进行设置;本地和的算子不能混本地立本地的,具体步骤如下:点 选择创建子文件夹,在内建立多个文件夹对本地数据以及建立的流程进行分门别类的存放。数据库连 如何获取inceptor-driver请参考《Midas安装手册》架构分隔符(Schema/ 驱动类(Driver27(根据给定的IP可自行更改10000(根据给定的端口可自行更改default(根据给定的名称可自行更改123456(根据给定的可自行更改配置完成后,可以点击右下角的测试,查看连接状态,如果设置正确,连接状态会显示connectOK,最后点击确认。就可以在视图中的DB项的下拉菜单中看到的数据库227了,该数据库能够显示放在数CSV数例如:UTF-Json数字前带有0读模 mod读模型 mod写入root(给定outres写入HDFS文outres写入CSV文默认为默认为outres写入Jsonoutres写模含),文件位置在server端的对应中mod写模型 mod重命就可以将名为user的属性名称替换为USER了若是要改变多个属性的名称,可以在renameadditionalattributes中继续填写新旧名替换重命id:idlabel:prediction:属性,即一个学习方案的cluster:weight:batch:就可以将名为user的属性的角色设置为label若是要改变多个属性的角色,可以在EditList中继续填写属性和角色One-Hot当为all当为single当为subset需要的属性;还有一个useexceptexpression,点选后填写一个正则表达式,表示从匹配regularexpressionexceptregularexpression生成ID词频反文档频文档中词记为t,文档记为dDTF(t,d)tdDF(t,D)t的文档数。如果使用词在文档中出现的频次表示词的重要程度,那么很容易取,”a”“the”“of”库中出现频率高,说明它在特定文档集中信息量很低。逆文档频次(inversefrequency)是词所能提供的信息量的一种度量。对于TFIDFspark.mllibTFIDF使用特征hash的方式实现词频率统计,原始的特征通过hash函数,到一个索引值。后面只需要统计这些索引值的频率,就可以知道对应词的频率。这种方式避免设计一个全局1对1的词到索引的,这个在大量语料库时需要花费更长的时间。*是NLP领域的重要算法,它的功能是将word用K维的densevector来表达,训练集是语料库,不含标点,设置wordwindow,只有wordhierarchicalsoftmaxnegative输出向量字符串索当为all当为single当为subset需要的属性;还有一个useexceptexpression,点选后填写一个正则表达式,表示从匹配regularexpressionexceptregularexpression以权重选当为greater当为topk当为toppdeselectuseabsoluteLiLiuser等于/不等于LiLeiLii如LiLei就包含i如LiLei就不能前匹配ei如LiLei就后匹配eiLicondition动选择符合条件的样本,不需要设置filter参数,其中missing表示选择有缺失值的样本,missing_attributelabel的属性有缺失值的样本,missing_label此算子只将值为?的视为缺失值,空值不视作采withbalance不点选此参数,那么有sampleratio一个子参数,填写一个0到1之间的值,表示采样的概率,balancecolumnsampleratioperclassEditList,左边classbalancecolumn中填写的属性的性result,,1,2alancecolmns为resul,且samleratioclass[0,0.]和[1,08],rsult的值为05进行随esult1.8resul的值为2withsample过采欠采默认为(例如SQL已知的SUM,COUNT之类的)的group-bySQLHAVING子句可以通过在此算子之后添加额外的过滤样本算子来模拟.aggregationattributesum:groupbyattributescountallonlyignore按主键分键值groupindexaggregate根据groupattribute和index作为indexattribute,aggregateattributes输入的属性必须连前支持内连接,左连接,右连接,外连接。如果勾选useidattributeaskey,则自动选择两表中rolejoinuseidattributeasOrderMultipleOrder在AttributeFilterTypeexa:oriDrop当为求两个数据集的并集。CABSet按id列来做差集。最终结果CAB。A为exa输入端的输入,B为subReplace=标准归一Min-Max归一Max_Abs归一SQL转SQLTransformer使用自定义的sql语句来对输入数据进行转换.当前算子仅仅支持"SELECT…FROM …"这样的语法.其中"THIS"表示输入数据集所代表的底层表.select语法块指定字段,常量和表达式.例如SELECTa,a+bASa_b SELECTa,SQRT(b)ASb_sqrtFROM wherea>5SELECTa,b,SUM(c)ASc_sumFROM GROUPBYa,b替换缺失当为性二值当为时,表示选择全部属性;当为当为lits定义为[-0.5,0.0,-0.3,0.0,1.0,1.0].它表示-0.5.如splits为[-0.5,0.0,实际的splits为[-inf0.0,0.5,分位数离当为计算准确的分位数(注意:离散余弦主成分分none当为keepVariance当为fixedNumberk,填写一个不小于0的整数,表示按顺序输出指定维度的主成分向量(最多为输入数奇异值分当为none时:当为keepVariancepercent,填写一个0到1之间的数字,若SVD的累计方差不大于该值个数有m个,那么输当为fixedNumberk,填写一个不小于0的整数,表示按顺序输出指定数目的奇异值(最多为输入数据的数据类型当为乔列斯基modexa异常检测mod朴素贝叶 modexa决策树分modexa随机森林(假设有d个属性)中选择有information_gain和gini_indexmodexa梯度提升树分梯度提升树同样也是一个组装(ensemblemodel)模型,的模型使用决策树。与随机森林不同的modexaBoost分.默认是范围在[0,1大于0,大于0,大于0,大于0,(0,1](0,1](0,1]大于等于0,大于等于0,大于等于0,vecases)/sum(positivemodexa和,然后使用函数g(z)将最为假设函数来。g(z)可以将连续值到0和1上。它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1modexa支持向量便是间隔最大化,最终可转化为一个凸二次规划问题的求解。本算子只能处理二分类问题.stepnumregminibatchmodexak近邻分k默认为默认为默认为modexaLiu,Ting,CharlesRosenberg,andHenryRowley."Clusteringbillionsofimageswithlargescalenearestneighborsearch."ApplicationsofComputerVision,2007.WACV'07.IEEEWorkshopon.IEEE,2007.多层感知层uselocalrandommodexa决策树回有information_gain和gini_indexmodexa随机森林有information_gain和gini_indexmodexa梯度提升树回有information_gain和gini_indexmodexamodexa保序回归是一类回归算法.保序回归是这样一个问题:给定有限实数集Y{y_1,y_2,y_n},Y表示已知观察数据,X={x_1,x_2,…,x_n}代表未知的值,的目的是找到函数f(x)=sum_{i=1}^nw_i(y_i-x_i)^2的极小值,并且保证x_1到x_n递增.modexa默认是modexa广义线性kk"在k-cluclu隐式狄利克雷分kmodout二分K均kmodexak度modexa人工神经择Adam或者GradientDescentmodDensethr:接上一个神经网络层的端thr:接下一个神经网络层的端输入Unresolveddirectiveinoperator_deeplearning.adoc-输出thr:接上一个神经网络层的端thr:接下一个神经网络层的端基本RNN子应当被使用在一个深度络算子的子流程中。作为一个单独的RNN单元算子,该算子也可被使用thr:接上一个神经网络层的端thr:接下一个神经网络层的端GRU当被使用在一个深度络算子的子流程中。作为一个单独的RNN单元算子,该算子也可被使用在一thr:接上一个神经网络层的端thrthr基本LSTM单基本LSTM单元算子,是一种RNNRNN算子应当被使用在一个深度络算子的子流程中。作为一个单独的RNN单元算子,该算子也可被使thr:接上一个神经网络层的端thr:接下一个神经网络层的端组合RNN深度学习组合RNNRNNRNN单元算子的子流成中加入单独的RNN单RNNRNNthr:接上一个神经网络层的端thr:接下一个神经网络层的端多个RNN的多个RNNRNNthr:接上一个神经网络层的端应用深度labmod单变量数值特征统column单变量类别特征统column二变量数值特征统columnPearson’scorrelation二变量类别特征统column度Cramér’s二变量类别与数值特征统columnEtaF通过卡方统计计算权weiexa通过相关系数计算权weiexa通过信息增益计算权熵减去已知属性后的信息熵得到。Ent(D)=-\sum_{k=1}^{|y|}p_klog_2p_kGain(D,a)=Ent(D)-\sum_{v=1}^Vweiexa通过信息增益率计算权以IV\text{Gain_ratio}(D,a\frac{\text{Gain}(D,a)}{\text{IV}(atext{IV}(a)\-\sum_{v=1}^V\frac{|D^v|}{|D|}log_2weiexa通过基尼系数计算权量原有基尼系数减去已知属性后的基尼系数得到。\text{Gini}(D)=\sum_{k=1}^{|y|}\sum_{k'\nek}p_kp_{k'}=\sum_{k=1}^K\hatp_k(1-\hatp_k)\text{Gini_index}(D,a)=\sum_{v=1}^V\frac{|D^v|}{|D|}\text{Gini}(D^v)weiexa通过主成分分析计算权weiexa通过权重创建数exa交换最小秩列checkpointmodexa因子分解modexaFP-Growth该算子通过在交换数据库上建立一个FPFP树中导出所有频繁项集.对比Apriori算法,FPGrowth的主要优势在于,它只使用两个数据扫描并且经常使用于大数据集.些字符型值.如果使用样本源算子的属性描述文件(.aml),这对应于通过类的属性或内在价值定positive_value设定.只有属性包min_support(默认),查找具有minnumexafre创建关联FPGrowth的算此算子只有minconfidencerulitePrefixSpan算customer顾客timeminmaxpatternmaxlocalprojdbpatpatternexa:输入的样本集Apriori算minmaxminmaxfreexa应用关联exa:ass转换事务数据customer客户time性能(分类测试样本集,这个样本集包含一个具有label角色的属性以及一个具有角色的属性。并基于这两个变。否则,输出的值为新标准值和旧值之间的平均。maincriterionperexa性能(二分类此性能评估算子应被用于分类任务,即当属性具有二分变量值类型时.此算子希望输入一个元素具有真实和的样本集,并且根据一列性能标准计算并输出一列性能值.如果已经给定性能矢量,它可用来保持性能值不变.主标准是用来进行比较的,并且需要被指定只用于性能矢量进行比较的流程。maincriterionperexa性能(回归此性能评估算子应被用于分类任务,即当属性具有数字型值类型时。此算子希望输入一个元素实和的测试样本集,并且根据一列性能标准计算并输出一列性能值。如果已经给定性能矢量,它可用来保持性能值不变.主标准是用来进行比较的,并且需要被指定只用于性能矢量进行比较的流程。maincriterionperexa性能(聚类per:model:(当前仅支持K-maincriterionDavies–BouldinindexperexaX执行了一个交叉验证流程.输入的样本集S被分割成验证次数子集S_i。子流程运行验证次数S_i作为测试集(),S\S_i(训练子流程的输入)。训练子流程必须返回一个模型,该模型通常对输入样本集做训练.测试子流程必须返回一个性能矢量。通常是通过应用模型并测量模型的性能得到的。额外的对象可以通过使用通过端口从训练子流程传递确计算。正是那个建立在完整输入数据的模型,将被传递到相应的端口用来为该模型提供方便。点击算子设置参数,并添加算averageperformancesnumofmodtraave优化参数(网格搜索点击编辑参数设置,左侧operators表示在此算子所包含的所有子算子,会根据流程的布局自动生成,点击某个算子后,会在中间的Parameters内出现此算子的所有参数,右侧SelectParameterserrorhandlingperthr点击EditEnumeration,点击添加条目,输入0到1之间的实数(含边界),点击确定,有多少个条目表示用户exa:thr:labmodinpout:out:inp随机数生out:自定义算子管板,然后进行配置。CustomOp自定义算CustomOpEntry。在Midas客户端安装根 packageio.transwarp.midas.custom.sample .apache.spark.sql.types.{StructField,DataTypes,StructType} .apache.spark.sql.{DataFrame,Row}caseclass(name:String,age://继承CustomOpEntry类,实现execute方法即classSimpleCustomOpextendsCustomOpEntryoverridedefexecute(inputs:Seq[DataFrame],params:Map[String,String]):Array[DataFrame]{vald1=valrdd=d1.rdd.map(_=>("name",30)).map(p=>Row(,p.age))valschema=StructType(Array(StructField("age",DataTypes.IntegerType)valoutput=d1.sqlContext.createDataFrame(rdd,schema)Array(output,d1)}}的依赖类,不要将custom 现在,可以使用这个类了。新建一个自定义算子类,选择class参数刚才实现的类SimpleCustomOp,parameters参数根据需要填写,因为的自定义类中没有使用参数,所有不用填执行在普通的SparkPython中,会通过frompysparkimportSparkContext导在Session中生成了,不需要再初始化。Midas通过entry对象将已有的SparkContextsc=entry.sc#SparkContextspark=entry.spark#SparkSession而输入端和输出端的数据传输同样通过entry来获得。entry.get_df(index方法获取第index个数entry.put_df(df则依次将数据集放入输出端口。将获取SparkSession、获取数据、传递结果结合到一起,基本的Python流程大致如下:frompyspark.sqlimportdfentry.get_df(0获得第一个端口的输paramsentry.get_parameters获得所有填写的参col=params["p1"]#获取参数p1out1df.select(col执行逻辑sc=entry.sc#获取SparkContextsparkentry.spark获取SparkSessionrdd=sc.parallelize(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论